본문 바로가기
728x90

생계/데이터 분석25

ADsP 26회 기출문제 - [1과목] 체크 포인트 1. - '총계처리'는 데이터 총합 값을 보여준다는 뜻 - '가명처리' 과정에 범주화도 포함될 수 있음(e.g. 35세 → 30대) - 마찬가지로 '데이터 삭제'에도 범주화 개념 들어가기도 함(e.g. 주민등록번호 → 90년대생) 개인정보 비식별 기술 1.가명처리 - 주요 식별요소를 다른 값으로 대체 → 개인 식별 곤란하게 - e.g. 홍길동, 35세, 서울 거주, 한국대 재학→ 임꺽정. 30대, 서울 거주, 국제대 재학 2. 총계처리 or 평균값 대체 - 데이터 총합 값을 보임으로써 개별 데이터 값을 보이지 않도록 - e.g. A 180cm, B 170cm, C 160cm, D 150cm→ 물리학과 학생 키 합 660cm, 평균 키 165cm 3. 데이터 값 삭제 - 데이터셋에 구성된 값 중 필요 없는.. 2022. 11. 12.
ADsP 25회 기출문제 - [1과목] 체크 포인트 1. 통찰력과 관련된 핵심질문이 아닌 것은? → 경고 구분 과거 현재 미래 정보 (Information) 무슨 일이 일어났는가? 리포팅, 보고서 작성 무슨 일이 일어나고 있는가? 경고 무슨 일이 일어날 것인가? 추출 통찰 (Insight) 어떻게, 왜 일어났는가? 모델링, 실험설계 차선 행동은 무엇인가? 권고 최악, 최선의 상황은? 예측, 최적화, 시뮬레이션 - 출처: https://rihankim.tistory.com/32 2. - "데이터베이스의 구조와 제약조건에 관해 전반적인 명세를 기술한 것"은 '스키마' 스키마(Schema)란? 스키마는 데이터베이스의 구조와 제약조건에 관한 전반적인 명세를 기술한 것이다. 스키마는 데이터베이스를 구성하는 데이터 개체(Entity), 개체의 특성을 나타내는 속성(.. 2022. 11. 12.
ADsP 23회 기출문제 - [1과목] 체크 포인트 1. - 분석의 전형적인 의사결정 오류 = 로직(논리) 오류, 프로세스 오류 - 부정확한 가정을 하고 테스트를 하지 않는 것은 로직 오류 - 데이터 수집이나 분석이 너무 늦어 사용할 수 없게 되는 것은 프로세스 오류 2. - 데이터웨어하우스의 4대 특성: 주제지향성, 통합성, 시계열성, 비휘발성 - "데이터웨어하우스의 데이터들은 전사적 차원에서 일관된 형식으로 정의된다." → 통합성 - "데이터웨어하우스에서 관리되는 데이터들은 시간의 흐름에 따라 변화하는 값을 저장한다." → 시계열성 - "데이터웨어하우스에서는 특정 주제에 따라 데이터들이 분류, 저장, 관리된다." → 주제지향성 - "데이터웨어하우스에서는 데이터의 지속적 갱신에 따른 데이터의 무결성 유지가 무엇보다 중요하다." → 시계열성은 어떤 자료가.. 2022. 11. 11.
ADsP 22회 기출문제 - [1과목] 체크 포인트 1. 데이터 사이언티스트가 효과적인 분석 모델 개발을 위해 고려해야 하는 사항으로 가장 부적절한 것 = '모델 범위 바깥의 요인까지 판단하는 것' 2. 빅데이터 정의 오답: "빅데이터는 기존의 작은 데이터 처리 분석으로는 얻을 수 없었던 통찰과 가치를 하둡(Hadoop)을 기반으로 하는 대용량 분산처리 기술을 통해 창출하는 새로운 방식이다." → 하둡(Hadoop)은 분산처리 기술을 의미하는 것일 뿐, 그것이 빅데이터를 의미하지는 않는다. 4. 하둡의 구성요소 - 하둡은 하나의 성능 좋은 컴퓨터를 이용하여 데이터를 처리하는 대신, 적당한 성능의 범용 컴퓨터 여러 대를 클러스터화하고, 큰 크기의 데이터를 클러스터에서 병렬로 동시에 처리하여 처리 속도를 높이는 것을 목적으로 한다. - 하둡의 코어 프로젝트가.. 2022. 11. 11.
ADsP 21회 기출문제 - [1과목] 체크 포인트 1. - ERP 거래 데이터, CRM 거래 데이터, Demand Forecast → 정형 데이터 - 소음에 대한 음성 파일 데이터 → 비정형 데이터 2. 데이터베이스 설계 절차: 요구조건분석 - 개념적 설계 - 논리적 설계 - 물리적 설계 1️⃣ 요구조건분석 / 명세서 작성: 데이터베이스의 사용자, 사용 목적, 사용 범위, 제약 조건 등에 대한 내용을 정리하고 명세서를 작성 2️⃣ 개념적 설계(E-R모델): 정보를 구조화하기 위해 추상적 개념으로 표현하는 과정으로 개념 스키마 모델링과 트랜잭션 모델링을 병행하고, 요구조건분석을 통해 DBMS 독립적인 E-R 다이어그램을 작성 3️⃣ 논리적 설계(데이터 모델링): 자료를 컴퓨터가 이해할 수 있도록 특정 DBMS의 논리적 자료 구조로 변환하는 과정. 관계형 .. 2022. 11. 8.
ADsP 20회 기출문제 - [1과목] 체크 포인트 1. 빅데이터 분석에 경제적 효과를 제공해준 결정적 기술 = 클라우드 컴퓨팅 2. MySQL → 데이터 RDBMS 저장방식 MongoDB, HBase, Redis → 데이터 NoSQL 저장방식 3. 데이터 웨어하우스의 고유 특성 - ETL은 주기적으로 내부 및 외부 데이터베이스로부터 정보를 추출하고 정해진 규약에 따라 정보를 변환한 후에 데이터 웨어하우스에 정보를 적재한다. ETL(Extraction, Transformation and Load) - ETL은 데이터 이동과 변환 절차와 관련된 업계표준용어 - ETL은 데이터 웨어하우스(DW), 운영 데이터 스토어(ODS), 데이터 마트(DM)에 대한 데이터 적재 작업의 핵심 구성요소 - 데이터 통합(Data Integration), 데이터 이동(Data .. 2022. 11. 6.
ADsP 19회 기출문제 - [1과목] 체크 포인트 1. 기업 내부 데이터베이스 솔루션 ERP(Enterprise Resource Planning) - 제조업 포함 다양한 분야에서 생산, 구매, 재고, 주문, 고객서비스 제공 등 주요 프로세스 관리를 돕는 여러 모듈로 구성된 통합 애플리케이션 소프트웨어 패키지 KMS(Knowledge Management System, 지식 관리 시스템) - 조직 내 지식을 체계적으로 관리하는 시스템 → 저장, 검색, 프로세스 정렬 - 기업 지적 재산 관리 시스템 출처: https://rihankim.tistory.com/13 2. SOW(Statement of Work, 작업기술서, 업무기술서) - 프로젝트의 목적 달성을 위해서 해야 할 일에 대해서 이해할 수 있다. - 일정, 원가, 품질에 대한 요구 사항, 고객과 사용.. 2022. 11. 6.
ADsP 18회 기출문제 - [1과목] 체크 포인트 1. 빅데이터 출현 배경 - 양질 전환 법칙(=일정한 양이 누적되면 어느 순간 질적인 비약이 이루어진다) - 반정형 또는 비정형 데이터의 급격한 증가 2. 통찰력을 제공하는 분석 기술이 아닌 것은? → 정보와 통찰을 구분하고, 사례까지 암기 필요 구분 과거 현재 미래 정보 (Information) 무슨 일이 일어났는가? 리포팅 무슨 일이 일어나고 있는가? 경고 무슨 일이 일어날 것인가? 추출 통찰 (Insight) 어떻게, 왜 일어났는가? 모델링 차선 행동은 무엇인가? 권고 최악, 최선의 상황은? 예측, 최적화 - 출처: https://rihankim.tistory.com/32 3. 가트너가 언급한 데이터 사이언티스트의 역량 → '하드 스킬'은 없음 1. 데이터 관리: 데이터에 대해 이해 2. 분석 모델.. 2022. 11. 6.
ADsP 17회 기출문제 - [1과목] 체크 포인트 1. "관계형 데이터베이스 관리 시스템(RDBMS)의 데이터를 관리하기 위해 설계된 특수 목적 프로그래밍 언어, 챔벌린과 보이스가 개발한 프로그래밍 언어" = SQL SQL 종류 1. DDL(Data Definition Language, 데이터 정의어) - 데이터를 정의하는 언어 - 데이터를 생성(CREATE), 수정(ALTER), 삭제(DROP)하는 등의 데이터 전체의 골격을 결정하는 역할을 하는 언어 2. DML(Data Manipulation Language, 데이터 조작어) - 정의된 데이터베이스에 입력된 레코드를 조회(SELECT), 수정(UPDATE), 삭제(INSERT, DELETE)하는 등의 역할을 하는 언어 3. DCL(Data Control Language, 데이터 제어어) - 보안을 .. 2022. 11. 6.
ADsP 16회 기출문제 - [1과목] 체크 포인트 1. - 사회기반 구조로서 데이터베이스 = NEIS - KMD: Korean Mutation Database 기업 내부 데이터베이스 솔루션 - OLTP, OLAP - CRM, SCM - DW, ERP, BI, BA, EAI(Enterprise Architecture Integration), EDW(Enterprise Data Warehouse), KMS(Knowledge Management System, 지식 관리 시스템), RFID(무선주파수(RF, Radio Frequency)를 이용하여 대상을 식별하는 기술) 사회 기반 구조로서 데이터베이스 - EDI(Electronic Data Interchange): 표준화된 서식을 전자문서로 만들어 상호 교환 - CALS(Commerce At Lighted S.. 2022. 11. 5.
ADsP 15회 기출문제 - [1과목] 체크 포인트 1. - "데이터에 관한 구조화된 데이터로, 다른 데이터를 설명해주는 데이터" = 메타 데이터 데이터 사전(Data Dictionary)이란? - 데이터 사전은 데이터베이스에 저장되어 있는 모든 데이터 개체들의 정보를 유지, 관리하는 시스템으로, 시스템 카달로그라고도 한다. - 데이터 사전에는 '데이터에 관한 데이터(Data About Data)'가 저장되어 있다고 하여 데이터 사전을 메타 데이터라고도 한다. 메타 데이터(metadata)란? - 데이터(data)에 관한 데이터이다. - 어떤 목적을 가지고 만들어진 데이터 (Constructed data with a purpose) - 데이터에 관한 구조화된 데이터로, 다른 데이터를 설명해 주는 데이터이다. - 대량의 정보 가운데에서 찾고 있는 정보를 효.. 2022. 11. 5.
ADsP 14회 기출문제 - [1과목] 체크 포인트 1. 딥러닝 분석 기법 - CNN(Convolutional Neural Network): 합성곱 신경망(딥 러닝에서 선형 연산을 활용하여 데이터 특징 추출 → 특징들의 패턴 파악 → 주로 이미지 분야 적용, 시각 이미지를 분석하는 인공 신경망) - LSTM RNN은 히든 노드가 방향을 가진 엣지로 연결돼 순환구조를 이루는(directed cycle) 인공신경망의 한 종류입니다. 음성, 문자 등 순차적으로 등장하는 데이터 처리에 적합한 모델로 알려져 있는데요. Convolutional Neural Networks(CNN)과 더불어 최근 들어 각광 받고 있는 알고리즘입니다. 이 문제를 극복하기 위해서 고안된 것이 바로 LSTM입니다. LSTM은 RNN의 히든 state에 cell-state를 추가한 구조입니.. 2022. 11. 3.
728x90