본문 바로가기
728x90

생계/데이터 분석25

ADsP 13회 기출문제 - [1과목] 체크 포인트 1. - "커피를 구매하는 사람이 탄산음료를 더 많이 사는가?" → 연관분석: 변수 간의 주목할 만한 상관관계가 있는지 찾아냄 - 기계학습은 훈련 데이터로 학습 → 알려진 특성을 활용해 '예측'하는 것. (e.g. 스팸 메일 필터링, 학습 추천, 영화 추천) 2. - "개인정보 활용에 대한 동의제를 (사용자에 대한) 책임제로 전환" → 사생활 침해에 대한 통제방안 - 책임원칙 훼손 위기는 '예측 알고리즘의 희생양'에 관한 내용 → 통제 방안은 '예측이 아닌 실제 결과에 대해 처벌하는 것' - '책임'이라는 워딩에 속지 말 것 3. - "다차원의 데이터를 대화식으로 분석하기 위한 소프트웨어" → OLAP OLAP는 Online Analytical Processing의 약어로 최종 사용자가 다차원 정보에 직.. 2022. 11. 2.
[1과목] 데이터 이해 - 기타 개념, 용어 정리 1. 자주 출제되는 기타 용어 정리 데이터 레이크(Data Lake) 대규모의 다양한 원시 데이터셋을 기본 형식으로 저장하는 데이터 리포지토리 유형 데이터 레이크에 있는 데이터는 분석을 위해 필요할 때 변환 → '읽기 스키마'(Schema on read)가 적용되어 데이터 분석 가능해짐 데이터가 사용 준비 상태가 될 때까지 원시 상태로 보관 서비타이제이션(Servitization) 제품과 서비스의 결합(= 제조업의 서비스화) 기존 서비스와 신규 서비스의 결합 현상 딥 러닝(Deep Learning) 여러 층을 가진 인공신경망(Artificial Neural Network) 사용 → 머신러닝 학습 수행 대표적 분석 방법으로 LSTM, Autoencoder, RNN 등이 있음 마이데이터 개인이 각종 기업, .. 2022. 11. 1.
'[1과목] 데이터 이해 - [3장] 가치 창조를 위한 데이터 사이언스와 전략 인사이트 - [03] 빅데이터 그리고 데이터 사이언스의 미래' 정리 중요 사항 1) 가치 패러다임의 변화 1. 빅데이터 회의론을 넘어: 가치 패러다임의 변화 Digitalization 아날로그 세상을 어떻게 효과적으로 디지털화하는가가 이 시대의 가치를 창출해내는 원천 (e.g. 빌 게이츠) Connection 디지털화된 정보와 대상들이 서로 연결되기 시작 → 이 연결을 얼마나 효과적이고 효율적으로 제공해주느냐 사물인터넷(Internet of Things)의 성숙과 함께 연결이 더 증가하고 복잡해질 것 스마트 팩토리는 사물인터넷 기반으로 밸류체인의 모든 과정(기획, 설계, 생산, 유통, 서비스 등)을 연결하여 공장의 모든 단계를 자동화, 디지털화 Agency 복잡한 연결을 얼마나 효과적이고 믿을 만하게 관리해주는가가 키워드로 등장할 확률이 높음 데이터 사이언스의 역량에 따.. 2022. 10. 21.
'[1과목] 데이터 이해 - [3장] 가치 창조를 위한 데이터 사이언스와 전략 인사이트 - [02] 전략 인사이트 도출을 위한 필요 역량' 정리 중요 사항 1) 데이터 사이언스 정의 2) 데이터 사이언스의 3대 구성 요소 3) 데이터 사이언티스트의 요구 역량들 4) 데이터 사이언티스트의 6가지 핵심 질문 1. 데이터 사이언스 의미와 역할 데이터 사이언스는 데이터로부터 의미 있는 정보를 추출하는 학문 통계학이 정형화된 실험 데이터를 분석 대상으로 하는 것과 달리, 데이터 사이언스는 정형과 비정형을 막론하고 다양한 매체에서 생성되는 숫자, 문자, 영상 정보 등 다양한 유형의 데이터를 대상으로 총체적 접근법 사용 데이터 마이닝은 주로 분석에 초점을 두나, 데이터 사이언스는 분석 뿐 아니라 이를 효과적으로 구현하고 전달하는 과정까지 모두 포괄 → 전략적 통찰 추구, 비즈니스 핵심 이슈 해결, 사업 성과 견인 역할 데이터 사이언스는 데이터 공학, 수학, .. 2022. 10. 20.
'[1과목] 데이터 이해 - [3장] 가치 창조를 위한 데이터 사이언스와 전략 인사이트 - [01] 빅데이터 분석과 전략 인사이트' 정리 중요 사항 1) 전략 도출 위한 가치 기반 분석 1. 데이터 분석과 의사결정 직관에 근거해 의사결정을 내리는 회사가 아닌, 데이터 분석에 기초해 전략적 통찰을 얻고, 내부 의사결정을 내리고, 구체적인 성과를 만들어내는 체계 필요 빅데이터와 관련된 걸림돌은 비용이 아니라 분석적 방법과 성과에 대한 이해 부족이다. 2. 빅데이터 분석, 'Big'이 핵심이 아니다. 더 많은 데이터가 더 많은 가치로 바로 연결된다고 볼 수 없다. 데이터의 양이 아니라 유형의 다양성이 중요하다. 빅데이터가 가져다주는 기회는 데이터의 크기가 아닌 음성, 텍스트, 이미지, 비디오 같은 새롭고 다양한 정보 원천의 활용에 있다. 빅데이터는 데이터 크기의 이슈가 아니라 거기에서 어떤 시각과 통찰을 얻을 수 있느냐가 문제이다. 3. 전략 .. 2022. 10. 17.
'[1과목] 데이터 이해 - [2장] 데이터의 가치와 미래 - [05] 미래의 빅데이터' 정리 빅데이터 활용 3요소 데이터 모든 것을 데이터화 특정한 목적 없이 생산된 데이터라도 창의적으로 재활용되면서 가치를 만들어낼 수 있음 기술 빅데이터 분석 알고리즘의 진화 가속화 알고리즘은 데이터 양의 증가에 따라 정확도가 증가하는 일반적인 경향 → 알고리즘을 학습시킬 수 있는 데이터의 양이 증가하면서 알고리즘도 스마트해지는 경향 인력 데이터 사이언티스트와 알고리즈미스트의 역할이 중요 데이터 사이언티스트는 빅데이터 분석을 통해 인사이트 도출, 이를 조직 전략 방향 제시에 활용할 줄 아는 기획자로서 전문가 역할 출처: 김계철 지음, '2023 ADsP 한 권으로 끝내기 2022. 10. 17.
'[1과목] 데이터 이해 - [2장] 데이터의 가치와 미래 - [04] 위기 요인과 통제 방안' 정리 중요 사항 1) 빅데이터 시대 위기 요인과 통제 방안 2) 개인정보 비식별 기술 1. 위기 요인 및 통제 방안 사생활 침해 위기 요인: 주변 정보 수집 센서 수 증가, 특정 데이터가 본래 목적 외 가공 처리되어 2~3차 목적으로 활용될 가능성 → 사생활 침해 및 사회, 경제적 위협 통제 방안: 사생활 침해 문제를 개인정보 제공자의 동의를 통해 해결하기 보다, 개인정보 사용자에게 책임을 지움으로써 개인정보 사용 주체가 보다 적극적인 보호 장치를 강구하게 하는 효과 책임 원칙의 훼손 위기 요인: 빅데이터 분석의 정확도가 증가한만큼 분석 대상이 되는 사람들이 예측 알고리즘의 희생양이 될 가능성 (e.g. 영화 마이너리티 리포트의 범죄 예측 프로그램) 통제 방안: 기존의 책임 원칙 보강 및 강화 → 예측이 아닌.. 2022. 10. 17.
'[1과목] 데이터 이해 - [2장] 데이터의 가치와 미래 - [03] 비즈니스 모델' 정리 중요 사항 1) 빅데이터 활용 기법 빅데이터 활용 사례 기업 활용 구글 검색(로그 데이터 활용 기존 페이지랭크 개선) 월마트 구매패턴 분석 (연관규칙) 정부 활용 환경 탐색(실시간 교통정보, 기후 정보) 상황 분석(소셜미디어, CCTV, 통화기록) 개인 활용 정치인 사회관계망분석을 통한 유세 빅데이터 활용 기법 연관규칙학습(Association rule learning) = 연관분석 변수 간의 주목할 만한 상관관계가 있는지 찾아냄 e.g. 슈퍼마켓에서 상관관계가 높은 상품을 함께 진열(우유와 기저귀) 유형분석(Classification tree Analysis) "사용자가 어떤 특성을 가진 집단에 속하는가?"와 같은 문제를 해결 e.g. 온라인 수강생들을 특성에 따라 분류 유전 알고리즘(Genetic a.. 2022. 10. 14.
'[1과목] 데이터 이해 - [2장] 데이터의 가치와 미래 - [02] 빅데이터의 가치와 영향' 정리 중요 사항 1) 빅데이터의 가치 산정이 어려운 이유 빅데이터의 가치 산정이 어려운 이유 데이터 활용 방식이 다양해지면서(재사용, 재조합, 다목적용 데이터 개발) 특정 데이터를 언제, 어디서, 누가 활용할지 알 수 없다. 재사용 사례: 구글 검색결과 저장 후 재사용 재조합 사례: 휴대전화 전자파와 뇌종양 관계 다목적용 사례: CCTV를 통한 절도범 or 구매정보 확인 데이터가 기존에 없던 가치 창출을 한다. (e.g. 아마존 킨들 독서 데이터 분석 → 독서 패턴 알 수 있음) 분석 기술의 발달이 데이터 가치에 영향을 준다. 기존에 가치 없던 데이터도 새로운 분석 기법으로 가치를 만든다. e.g. SNS 비정형 데이터 이용한 텍스트마이닝 활용 빅데이터의 영향 기업 혁신: 소비자 행동 및 시장 변동 분석 → .. 2022. 10. 13.
'[1과목] 데이터 이해 - [2장] 데이터의 가치와 미래 - [01] 빅데이터의 이해' 정리 중요 사항 1) 빅데이터 등장 요인 2) 빅데이터 출현 배경 3) 빅데이터 기능 4) 빅데이터가 만들어 내는 본질적 변화 빅데이터 특징 Volume(데이터의 크기): 생성되는 모든 데이터를 수집 Variety(데이터의 다양성): 정형 데이터를 넘어 텍스트, 오디오, 비디오 등 모든 유형의 데이터를 분석 대상으로 함 Velocity(데이터의 속도): 대용량의 데이터를 빠르게 처리하고 분석할 수 있는 속성 빅데이터 출현 배경 기술변화 디지털화 클라우드 컴퓨팅 저장기술 발전: 새로운 데이터 처리, 저장, 분석 기술 및 아키텍쳐 인재, 조직 변화 데이터 중심 조직, 데이터 사이언티스트 요구 산업계: 고객 데이터 축적 → 비즈니스 인사이트 발굴 → 새로운 성장동력원 발굴 학계: 빅데이터 활용 과학 확산 (e.g... 2022. 10. 13.
'[1과목] 데이터 이해 - [1장] 데이터의 이해 - [03] 데이터베이스 활용' 정리 중요 사항 - 기업 내부 DB 솔루션들의 정의 숙지하기 1. 기업 내부 데이터베이스 1980년대 기업 내부 DB OLTP(On-Line Transaction Processing, 온라인 거래처리): 네트워크상의 여러 이용자가 실시간으로 DB 데이터 갱신 및 조회하는 단위 작업 처리 방식 OLAP(On-Line Analytical Processing, 온라인 분석처리): 데이터로부터 통계적인 요약 정보 제공. 의사결정에 활용할 수 있는 정보를 얻을 수 있게 해주는 기술 2000년대 기업 내부 DB CRM(Customer Relationship Management): 선별된 고객으로부터 수익 창출, 장기적인 고객 관계 관리를 통한 높은 이익을 창출하는 솔루션 SCM(Supply Chain Management.. 2022. 10. 7.
'[1과목] 데이터 이해 - [1장] 데이터의 이해 - [02] 데이터베이스 정의와 특징' 정리 1. 데이터베이스 정의 데이터베이스: 동시에 복수의 적용 업무, 복수 이용자의 요구에 대응할 수 있도록 편성된 데이터의 집합 데이터베이스 관리시스템(DBMS): 이용자가 쉽게 데이터베이스를 구축하고 유지할 수 있도록 하는 소프트웨어 DB와 DBMS를 함께 일컬어 '데이터베이스 시스템'이라고 칭한다. 2. 데이터베이스 특징 통합된 데이터(intergrated data): 동일 내용 데이터 중복 없음 저장된 데이터(stored data): 컴퓨터가 접근 가능한 저장매체에 저장됨 공용 데이터(shared data): 여러 사용자가 공동 이용할 수 있음 변화되는 데이터(changed data): 데이터 추가, 삭제, 갱신으로 항상 변화함 3. 데이터베이스 특성 정보의 축적 및 전달 측면: 기계가독성, 검색가능성.. 2022. 10. 6.
728x90