ADsP 22회 기출문제 - [1과목] 체크 포인트

728x90

데이터 사이언티스트가 효과적인 분석 모델 개발을 위해 고려해야 하는 사항으로 가장 부적절한 것 = '모델 범위 바깥의 요인까지 판단하는 것'

빅데이터 정의 오답: "빅데이터는 기존의 작은 데이터 처리 분석으로는 얻을 수 없었던 통찰과 가치를 하둡(Hadoop)을 기반으로 하는 대용량 분산처리 기술을 통해 창출하는 새로운 방식이다."

→ 하둡(Hadoop)은 분산처리 기술을 의미하는 것일 뿐, 그것이 빅데이터를 의미하지는 않는다.

4. 하둡의 구성요소

- 하둡은 하나의 성능 좋은 컴퓨터를 이용하여 데이터를 처리하는 대신, 적당한 성능의 범용 컴퓨터 여러 대를 클러스터화하고, 큰 크기의 데이터를 클러스터에서 병렬로 동시에 처리하여 처리 속도를 높이는 것을 목적으로 한다.
- 하둡의 코어 프로젝트가 HDFS, MapReduce. 이 외에 다양한 서브 프로젝트 존재. 서브 프로젝트들의 모임을 하둡의 에코시스템이라 함

1. HDFS(Hadoop Distributed File System): 네트워크에 연결된 기기에 데이터를 저장하는 분산형 파일 시스템
2. MapReduce: 대용량 데이터 처리를 위한 분산 프로그래밍 모델. 대규모 분산 컴퓨팅 환경에서 대량의 데이터를 병렬로 분석
3. 기타 Ambari, Zookeeper, HBase, Pig, Hive, HCatalog: 쉽고 다양한 환경에서 활용성을 높이기 위하여 사용되는 소프트웨어들 → 하둡의 에코시스템

출처: https://rihankim.tistory.com/65

머신러닝 학습 방법이 나머지와 다른 것

- 군집 분석

- 인공신경망, 로지스틱회귀분석, 의사결정나무 → 분류분석

사용자 데이터 구조 및 연산을 정의할 수 있는 확장성을 가지고 있으며, 재사용성 및 우수한 질의가 가능한 DBMS = 객체지향 DBMS

객체지향형 데이터베이스

관계형 데이터 모델의 여러 가지 장점들로 인해 관계형 데이터베이스가 만능인 것처럼 생각되었지만 시간이 지나면서 몇 가지 문제들이 발생하였습니다. 기존에 내포하고 있던 문제라기보다는 새로운 요구사항의 발생으로 인한 문제였습니다.

1990년대 들어오면서 어플리케이션들이 기존에 비해 더 많고 복잡한 처리를 하게 됨에 따라 데이터베이스도 좀 더 복잡한 데이터, 예를 들어 사용자 정의 데이터, 오디오 및 비디오 등의 멀티미디어 데이터 등에 대한 저장 및 과닐의 필요성이 대두되었다. 하지만 기존의 관계형 모델로는 이러한 데이터 타입을 지원하는 것이 어려웠으며, 1980년대 등장한 객체지향(Object Oriented) 기술을 데이터베이스에 접목하려는 시도가 생겨났다.

사실 객체지향 기술은 데이터베이스가 아닌 프로그래밍 분야에서 시작된 기술이다. 모든 사물을 객체로 보고 이 객체들에 대한 정의와 처리방법을 정의한 기술입니다. 그렇다면 관계형 데이터베이스가 할 수 없었던 기능을 수행하는 객체지향 데이터베이스(Object-oriented Database)는 도대체 어떤 특징을 가지고 있는지 살펴봅시다.

첫째, 사용자가 정의한 사용자 정의 타입을 지원한다.
사용자 정의 타입이란 말 그대로 사용자가 임의로 정의한 데이터 유형을 말하며, 기본형 데이터 타입을 뛰어넘어 다양한 형태의 데이터들을 다룰 수 있게 해준다.

둘째, 비정형 복합 정보의 모델링이 가능하다.
비정형 정보(Unstructured Information)란 일반적인 관계형 데이터베이스에서 지원되는 날짜, 문자, 숫자 등의 데이터들을 일컫는 정형 정보(Structured Information)와는 반대되는 개념으로 멀티미디어, 이메일, 문서 등이 이에 해당된다.

셋째,
객체들 사이의 참조(reference)구조를 이용한 접근이 가능하다.

넷째,
90년대에 등장한 많은 객체지향 프로그래밍 언어들과 객체지향 데이터베이스의 스키마 구조가 유사하다는 점이다.
다시 말하지만 데이터베이스는 그 근원이 프로그래밍 언어에서 나왔으므로 객체지향언어를 사용하는(사실 요즘 거의 대부분이 객체지향 언어입니다.) 개발자들의 입장에서 볼 때, 프로그램에서 사용하는 객체들과 데이터베이스 스키마 구조가 유사하다는 점은 프로그램과 데이터베이스 간에 발생하는 추가적인 변환 처리작업을 할 필요가 없어진다는 점을 의미합니다.

출처: https://chessire.tistory.com/entry/DBMS%EC%9D%98-%EC%A2%85%EB%A5%98%EA%B4%80%EA%B3%84%ED%98%95-%EA%B0%9D%EC%B2%B4%EC%A7%80%ED%96%A5%ED%98%95-%EA%B0%9D%EC%B2%B4%EA%B4%80%EA%B3%84%ED%98%95

아래에서 설명하는 기업 내부 데이터베이스 솔루션 = SCM

- 기업이 외부 공급업체 또는 제휴업체와 통합된 정보시스템으로 연계하여 시간과 비용을 최적화시키기 위한 것

- 자재구매 데이터, 생산﹒재고 데이터, 유통﹒판매 데이터, 고객 데이터로 구성된다.

- SCM(Supply Chain Management): 제조, 물류, 유통업체 등 유통공급망에 참여하는 업체 대상으로 IT를 활용하여 재고 최적화하기 위한 솔루션
- ERP(Enterprise Resource Planning): 제조업 포함 다양한 분야에서 생산, 구매, 재고, 주문, 고객서비스 제공 등 주요 프로세스 관리를 돕는 여러 모듈로 구성된 통합 애플리케이션 소프트웨어 패키지

출처: https://rihankim.tistory.com/13

728x90

저작자표시 비영리 (새창열림)

'생계 > 데이터 분석' 카테고리의 다른 글

ADsP 25회 기출문제 - [1과목] 체크 포인트 (0)	2022.11.12
ADsP 23회 기출문제 - [1과목] 체크 포인트 (0)	2022.11.11
ADsP 21회 기출문제 - [1과목] 체크 포인트 (0)	2022.11.08
ADsP 20회 기출문제 - [1과목] 체크 포인트 (0)	2022.11.06
ADsP 19회 기출문제 - [1과목] 체크 포인트 (0)	2022.11.06

Rihan Kim

ADsP 22회 기출문제 - [1과목] 체크 포인트

'생계 > 데이터 분석' 카테고리의 다른 글

댓글

티스토리툴바

ADsP 22회 기출문제 - [1과목] 체크 포인트

'생계 > 데이터 분석' 카테고리의 다른 글

관련글

댓글

티스토리툴바