728x90
중요 사항
1) 빅데이터 등장 요인
2) 빅데이터 출현 배경
3) 빅데이터 기능
4) 빅데이터가 만들어 내는 본질적 변화
- 빅데이터 특징
- Volume(데이터의 크기): 생성되는 모든 데이터를 수집
- Variety(데이터의 다양성): 정형 데이터를 넘어 텍스트, 오디오, 비디오 등 모든 유형의 데이터를 분석 대상으로 함
- Velocity(데이터의 속도): 대용량의 데이터를 빠르게 처리하고 분석할 수 있는 속성
- 빅데이터 출현 배경
- 기술변화
- 디지털화
- 클라우드 컴퓨팅
- 저장기술 발전: 새로운 데이터 처리, 저장, 분석 기술 및 아키텍쳐
- 인재, 조직 변화
- 데이터 중심 조직, 데이터 사이언티스트 요구
- 산업계: 고객 데이터 축적 → 비즈니스 인사이트 발굴 → 새로운 성장동력원 발굴
- 학계: 빅데이터 활용 과학 확산 (e.g. 인간 게놈 프로젝트)
- 기술변화
- 빅데이터 기능
- 산업혁명의 석탄, 철에 비유: 제조업과 서비스 분야의 생산성을 획기적으로 끌어올릴 것으로 기대
- 원유에 비유: 서비스, 경제 성장에 필요한 '정보'를 제공 → 산업 전반 생산성 제고
- 렌즈에 비유(e.g. 현미경과 생물학 발전)
- 플랫폼에 비유: '공동활용의 목적으로 구축된 유무형 구조물' (e.g. 페이스북 소셜그래프 서드파티 공개)
- 빅데이터가 만들어내는 본질적인 변화
- 사전처리에서 사후처리로
- 사전처리(pre-processing): 사전에 정한 포맷으로 원하는 정보만 수집하여 정보 관리 비용 절감
- 사후처리(post-processing): 가능한 한 많은 데이터를 모으고 그 데이터를 다양한 방식으로 조합해 숨은 정보를 찾아낸다.
- 표본조사에서 전수조사로
- 데이터 수집 비용의 감소, 클라우드 컴퓨팅 기술로 인해 데이터 처리 비용 감소
- 표본 조사가 주지 못하는 패턴이나 정보 제공 가능
- 질보다 양으로
- 데이터 수가 증가 → 사소한 몇 개의 오류 데이터가 대세에 영향을 주지 못하는 경향이 늘어남
- e.g. 구글 자동번역
- 인과관계에서 상관관계로
- 데이터를 얻는 데 드는 비용이 매우 비쌌던 시대의 기존 과학적 발견법: 이론에 기초 → 수집할 변인 결정 → 엄격한 실험을 통한 정제 데이터 획득 → 정교한 이론적 틀에 맞춰 분석 → 변수 간의 인과관계를 찾으려 함
- 비즈니스 상황에서는 인과관계를 모르고 상관관계 분석만으로 충분한 경우가 많다.
- 사전처리에서 사후처리로
출처: 김계철 지음, '2023 ADsP 한 권으로 끝내기
728x90
'생계 > 데이터 분석' 카테고리의 다른 글
'[1과목] 데이터 이해 - [2장] 데이터의 가치와 미래 - [03] 비즈니스 모델' 정리 (0) | 2022.10.14 |
---|---|
'[1과목] 데이터 이해 - [2장] 데이터의 가치와 미래 - [02] 빅데이터의 가치와 영향' 정리 (0) | 2022.10.13 |
'[1과목] 데이터 이해 - [1장] 데이터의 이해 - [03] 데이터베이스 활용' 정리 (0) | 2022.10.07 |
'[1과목] 데이터 이해 - [1장] 데이터의 이해 - [02] 데이터베이스 정의와 특징' 정리 (0) | 2022.10.06 |
'[1과목] 데이터 이해 - [1장] 데이터의 이해 - [01] 데이터와 정보' 정리 (0) | 2022.10.06 |
댓글