본문 바로가기
생계/데이터 분석

[1과목] 데이터 이해 - 기타 개념, 용어 정리

by Rihan 2022. 11. 1.
728x90

1. 자주 출제되는 기타 용어 정리

  1. 데이터 레이크(Data Lake)
    • 대규모의 다양한 원시 데이터셋을 기본 형식으로 저장하는 데이터 리포지토리 유형
    • 데이터 레이크에 있는 데이터는 분석을 위해 필요할 때 변환 → '읽기 스키마'(Schema on read)가 적용되어 데이터 분석 가능해짐
    • 데이터가 사용 준비 상태가 될 때까지 원시 상태로 보관
  2. 서비타이제이션(Servitization)
    • 제품과 서비스의 결합(= 제조업의 서비스화)
    • 기존 서비스와 신규 서비스의 결합 현상
  3. 딥 러닝(Deep Learning)
    • 여러 층을 가진 인공신경망(Artificial Neural Network) 사용 → 머신러닝 학습 수행
    • 대표적 분석 방법으로 LSTM, Autoencoder, RNN 등이 있음
  4. 마이데이터
    • 개인이 각종 기업, 기관에 흩어져 있는 자신의 신용 정보를 마이데이터 사업자에게 활용하도록 허용
    • 이들 업체로부터 자신에게 유용한 맞춤형 서비스를 받는 것

 

2. SQL 분류

  • SQL(Structure Query Language): 관계 데이터베이스를 위한 표준 질의어
  • 기능에 따라 데이터 정의어(DDL), 데이터 조작어(DML), 데이터 제어어(DCL)로 나눔
    1. 데이터 정의어(Data Definition Language, DDL)
      • 스키마, 테이블, 뷰 등을 정의하거나 변경, 삭제할 때 사용하는 언어
      • 데이터베이스 관리자 혹은 설계자가 사용
      • 유형: CREATE, ALTER, DROP
    2. 데이터 조작어(Data Manipulation Language)
      • 데이터베이스 사용자가 저장된 데이터를 처리할 때 사용하는 언어
      • 데이터베이스 사용자와 관리 시스템 간의 인터페이스 제공
      • 유형: SELECT, INSERT, DELETE, UPDATE
    3. 데이터 제어어(Data Control Language)
      • 데이터의 보안, 무결성 등을 정의하는 데 사용하는 언어
      • 데이터베이스 관리자가 데이터 관리를 목적으로 사용
      • 유형: COMMIT, ROLLBACK, GRANT, REVOKE

 

3. ETL(Extraction, Transformation and Load)

  • ETL은 데이터 이동과 변환 절차와 관련된 업계표준용어
  • ETL은 데이터 웨어하우스(DW), 운영 데이터 스토어(ODS), 데이터 마트(DM)에 대한 데이터 적재 작업의 핵심 구성요소
  • 데이터 통합(Data Integration), 데이터 이동(Data Migration), 마스터 데이터 관리(MDM, Master Data Management)에 걸쳐 폭넓게 활용
  • ETL은 데이터 이동과 변환을 주목적으로 하며 3가지 기능으로 구성
    1. Extraction(추출): 하나 또는 그 이상의 데이터 원천들로부터 데이터 획득
    2. Transformation(변형): 데이터 클렌징, 형식 변환, 표준화, 통합 또는 다수 애플리케이션에 내장된 비즈니스 룰 적용
    3. Loading(적재): 변형 단계 처리가 완료된 데이터를 특정 목표 시스템에 적재

 

4. 하둡의 구성요소

  • 하둡은 하나의 성능 좋은 컴퓨터를 이용하여 데이터를 처리하는 대신, 적당한 성능의 범용 컴퓨터 여러 대를 클러스터화하고, 큰 크기의 데이터를 클러스터에서 병렬로 동시에 처리하여 처리 속도를 높이는 것을 목적으로 한다.
  • 하둡의 코어 프로젝트가 HDFS, MapReduce. 이 외에 다양한 서브 프로젝트 존재. 서브 프로젝트들의 모임을 하둡의 에코시스템이라 함
    1. HDFS(Hadoop Distributed File System): 네트워크에 연결된 기기에 데이터를 저장하는 분산형 파일 시스템
    2. MapReduce: 대용량 데이터 처리를 위한 분산 프로그래밍 모델. 대규모 분산 컴퓨팅 환경에서 대량의 데이터를 병렬로 분석
    3. 기타 Ambari, Zookeeper, HBase, Pig, Hive, HCatalog: 쉽고 다양한 환경에서 활용성을 높이기 위하여 사용되는 소프트웨어들 → 하둡의 에코시스템

 

 

 

 

 

 

출처: 김계철 지음, '2023 ADsP 한 권으로 끝내기

728x90

댓글