서론
Part 3. 1장 데이터 분석 개요 정리
1. 데이터 분석 기법의 이해
데이터 처리
- 데이터 웨어하우스 (DW)와 데이터 마트 (DM)을 통해 분석 데이터를 가져와서 사용.
- 신규 시스템이나 DW에 포함되지 못한 자료의 경우,
기존 운영 시스템 (Legacy), 스테이징 영역(Staging Area), ODS(Operational Data Store)에서 데이터를 가져와서 DW에서 가져온 내용과 결합하여 활용할 수 있다. - ODS에서 데이터의 전처리를 해서 DW나 DM과 결합하여 활용하는 것이 가장 이상적이다.
정형화된 패턴 처리 : 비정형 데이터나 소셜 데이터는 정형화한 패턴으로 처리해야 한다.
- 비정형 데이터 : DBMS에 저장됐다가 텍스트 마이닝을 거쳐 데이터 마트와 통합한다.
- 관계형 데이터 : DBMS에 저장되어 사회 신경망 분석을 거쳐 분석결과 통계값이 데이터 마트와 통합되어 활용된다.
시각화 (시각화 그래프)
- 가장 낮은 수준의 분석 but 잘 사용하면 복잡한 분석보다도 효율적이다.
- 빅데이터 분석에서 시각화는 필수.
- 탐색적 분석을 할때는 시각화 필수, SNA분석(사회연결망 분석)을 할 때 자주 사용
공간분석 (GIS)
- 공간분석 (Spatial Analysis)은 공간적 차원과 관련된 속성들을 시각화하는 분석.
- 지도 위에 속성들을 생성하고 크기, 모양, 선 굵기 등으로 구분하여 인사이트를 얻는다.
탐색적 자료 분석 (EDA)
- 탐색적 분석
: 다양한 차원과 값을 조합해가며 특이한 점이나 의미 있는 사실을 도출하고 분석의 최종 목적을 달성해가는 과정
(데이터의 특징과 내재하는 구조적 관계를 알아내기 위한 기법들의 통칭)
EDA의 4가지 주제
- 저항성의 강조
- 잔차 계산
- 자료변수의 재표현
- 그래프를 통한 현시성
통계분석
- 통계
: 어떤 현상을 종합적으로 한눈에 알아보기 쉽게 일정한 체계에 따라 숫자와 표, 그림의 형태로 나타내는 것 - 기술 통계 (Descriptive Statistics)
: 모집단으로부터 표본을 추출하고 표본이 가지고 있는 정보를 쉽게 파악할 수 있도록 데이터를 정리하거나 요약하기 위해 하나의 숫자 또는 그래프의 형태로 표현하는 절차. - 추측(추론) 통계 (Inferential Statistics)
: 모집단으로부터 추출된 표본의 표본 통계량으로부터 모집단의 특성인 모수에 관해 통계적으로 추론하는 절차.
※ 모집단 : 정보를 얻고자 하는 관심 대상의 전체 집합
※ 모수 : 통계적 추론에서 분석자의 최종목표이자 모집단의 특성
데이터 마이닝
- 대표적인 고급 데이터 분석법으로, 대용량의 자료로부터 정보를 요약하고 미래에 대한 예측을 목표로 자료에 존재하는 관계, 패턴, 규칙등을 탐색하고 이를 모형화함으로써 이전에 알려지지 않은 유용한 지식을 추출하는 분석 방법
방법론
- 데이터베이스에서의 지식 탐색
- 기계 학습 (Machine Learning)
: 인공신경망, 의사결정나무, 클러스터링, 베이지안 분류, SVM 등 - 패턴 인식(Pattern Recognition)
: 장바구니분석, 연관규칙 등
'자격증 > ADsP' 카테고리의 다른 글
[ADsP] 3과목 - 2장 (3절_1) (0) | 2023.08.01 |
---|---|
[ADsP] 3과목 - 2장 (1,2절) (0) | 2023.08.01 |
[ADsP] 2과목 - 2장 (0) | 2023.07.27 |
[ADsP] 2과목 - 1장 (0) | 2023.07.26 |
[ADsP] 1과목 - 최신 빅데이터 상식 (0) | 2023.07.24 |