728x90
1. 자주 출제되는 기타 용어 정리
- 데이터 레이크(Data Lake)
- 대규모의 다양한 원시 데이터셋을 기본 형식으로 저장하는 데이터 리포지토리 유형
- 데이터 레이크에 있는 데이터는 분석을 위해 필요할 때 변환 → '읽기 스키마'(Schema on read)가 적용되어 데이터 분석 가능해짐
- 데이터가 사용 준비 상태가 될 때까지 원시 상태로 보관
- 서비타이제이션(Servitization)
- 제품과 서비스의 결합(= 제조업의 서비스화)
- 기존 서비스와 신규 서비스의 결합 현상
- 딥 러닝(Deep Learning)
- 여러 층을 가진 인공신경망(Artificial Neural Network) 사용 → 머신러닝 학습 수행
- 대표적 분석 방법으로 LSTM, Autoencoder, RNN 등이 있음
- 마이데이터
- 개인이 각종 기업, 기관에 흩어져 있는 자신의 신용 정보를 마이데이터 사업자에게 활용하도록 허용
- 이들 업체로부터 자신에게 유용한 맞춤형 서비스를 받는 것
2. SQL 분류
- SQL(Structure Query Language): 관계 데이터베이스를 위한 표준 질의어
- 기능에 따라 데이터 정의어(DDL), 데이터 조작어(DML), 데이터 제어어(DCL)로 나눔
- 데이터 정의어(Data Definition Language, DDL)
- 스키마, 테이블, 뷰 등을 정의하거나 변경, 삭제할 때 사용하는 언어
- 데이터베이스 관리자 혹은 설계자가 사용
- 유형: CREATE, ALTER, DROP
- 데이터 조작어(Data Manipulation Language)
- 데이터베이스 사용자가 저장된 데이터를 처리할 때 사용하는 언어
- 데이터베이스 사용자와 관리 시스템 간의 인터페이스 제공
- 유형: SELECT, INSERT, DELETE, UPDATE
- 데이터 제어어(Data Control Language)
- 데이터의 보안, 무결성 등을 정의하는 데 사용하는 언어
- 데이터베이스 관리자가 데이터 관리를 목적으로 사용
- 유형: COMMIT, ROLLBACK, GRANT, REVOKE
- 데이터 정의어(Data Definition Language, DDL)
3. ETL(Extraction, Transformation and Load)
- ETL은 데이터 이동과 변환 절차와 관련된 업계표준용어
- ETL은 데이터 웨어하우스(DW), 운영 데이터 스토어(ODS), 데이터 마트(DM)에 대한 데이터 적재 작업의 핵심 구성요소
- 데이터 통합(Data Integration), 데이터 이동(Data Migration), 마스터 데이터 관리(MDM, Master Data Management)에 걸쳐 폭넓게 활용
- ETL은 데이터 이동과 변환을 주목적으로 하며 3가지 기능으로 구성
- Extraction(추출): 하나 또는 그 이상의 데이터 원천들로부터 데이터 획득
- Transformation(변형): 데이터 클렌징, 형식 변환, 표준화, 통합 또는 다수 애플리케이션에 내장된 비즈니스 룰 적용
- Loading(적재): 변형 단계 처리가 완료된 데이터를 특정 목표 시스템에 적재
4. 하둡의 구성요소
- 하둡은 하나의 성능 좋은 컴퓨터를 이용하여 데이터를 처리하는 대신, 적당한 성능의 범용 컴퓨터 여러 대를 클러스터화하고, 큰 크기의 데이터를 클러스터에서 병렬로 동시에 처리하여 처리 속도를 높이는 것을 목적으로 한다.
- 하둡의 코어 프로젝트가 HDFS, MapReduce. 이 외에 다양한 서브 프로젝트 존재. 서브 프로젝트들의 모임을 하둡의 에코시스템이라 함
- HDFS(Hadoop Distributed File System): 네트워크에 연결된 기기에 데이터를 저장하는 분산형 파일 시스템
- MapReduce: 대용량 데이터 처리를 위한 분산 프로그래밍 모델. 대규모 분산 컴퓨팅 환경에서 대량의 데이터를 병렬로 분석
- 기타 Ambari, Zookeeper, HBase, Pig, Hive, HCatalog: 쉽고 다양한 환경에서 활용성을 높이기 위하여 사용되는 소프트웨어들 → 하둡의 에코시스템
출처: 김계철 지음, '2023 ADsP 한 권으로 끝내기
728x90
'생계 > 데이터 분석' 카테고리의 다른 글
ADsP 14회 기출문제 - [1과목] 체크 포인트 (0) | 2022.11.03 |
---|---|
ADsP 13회 기출문제 - [1과목] 체크 포인트 (0) | 2022.11.02 |
'[1과목] 데이터 이해 - [3장] 가치 창조를 위한 데이터 사이언스와 전략 인사이트 - [03] 빅데이터 그리고 데이터 사이언스의 미래' 정리 (0) | 2022.10.21 |
'[1과목] 데이터 이해 - [3장] 가치 창조를 위한 데이터 사이언스와 전략 인사이트 - [02] 전략 인사이트 도출을 위한 필요 역량' 정리 (0) | 2022.10.20 |
'[1과목] 데이터 이해 - [3장] 가치 창조를 위한 데이터 사이언스와 전략 인사이트 - [01] 빅데이터 분석과 전략 인사이트' 정리 (0) | 2022.10.17 |
댓글