서론 처음에 해당 시험을 알게된 것은 같은 전공을 하는 고등학교 친구가 해당 자격증을 취득했다고해서, 알게되었다. 뭔가 정보처리기사 자격증을 취득하고, 4학년 1학기 시험이 모두 끝난 후 뭔가 이제 시험은 더 이상 없다는 생각이 들었다. 그래서, 자기계발도 할 겸 자격증 시험을 위한 공부를 하면, 좋을 것 같아서 도전해보기로 했다!. 본론 1.점수 일단 결과부터 보자면, 90점으로 높은 점수로 합격했다!!. 공부기간은 한달정도로 잡았지만, 다른 공부도 하고 방학이기도 해서 놀면서 공부해서 실제 공부일이 한달이 되지는 못하겠지만, 틈틈히 조금씩 공부했던 것 같다!. 2.공부 방법 항상 자격증 시험을 총 3회독정도 진행했던 것 같다. 1회독 : 정독수준으로 모르는 개념들은 그렇구나 하며 넘어가며 대부분의 내..
서론 ADsP Part 3. 5장 정형 데이터 마이닝 (인공 신경망 분석, 군집분석, 연관분석) 정리 1. 인공 신경망 분석 뉴런의 활성화 함수 시그모이드 함수 (로지스틱 회귀분석과 유사) : 0 ~ 1 사이의 확률값을 가진다 ReLU 함수 : 0이하 = 0, 0보다 크면 x 2. 군집분석 각 객체(대상)의 유사성을 측정하여 유사성이 높은 대상 집단을 분류하고, 군집에 속한 객체들의 유사성과 서로 다른 군집에 속한 객체간의 상이성을 규명하는 분석 방법 거리 군집분석에서 관측 데이터 간 유사성이나 근접성을 측정해 어느 군집으로 묶을 수 있는지 판단하기 위해 거리 사용 연속형 변수 유클리디안 거리 (Euclidean Distance) : 통계적 개념이 내포되어 있지 않아 변수들의 산포 정도가 전혀 감안되어 ..
서론 ADsP Part 3. 5장 정형 데이터 마이닝 (개요, 분류분석, 앙상블 분석) 정리 1. 데이터 마이닝의 개요 데이터 마이닝 : 대용량 데이터에서 의미있는 패턴을 파악하거나 예측하여 의사결정에 활용하는 방법 데이터 마이닝 분석 방법 지도학습 (Supervised Learning) 의사결정나무 인공신경망 일반화 선형 모형 선형 회귀분석 로지스틱 회귀분석 사례기반 추론 최근접 이웃 비지도 학습 (Unsupervised Learning) OLAP (On-Line-Analytical Processing) 연관성 규칙 (Association Rule Discovery, Market Basket) 군집 분석 (K-Means Clustering) SOM(Self Organizing Map) 분석 목적에 따른..
서론 ADsP Part 3. 4장 통계분석 (시계열 분석, 다차원 척도법, 주성분 분석) 정리 1. 시계열 분석 시계열 자료 : 시간의 흐름에 따라 관찰된 값들 종류 비정상성 시계열 자료 : 대부분의 시계열 자료로, 시계열 분석 시 다루기 어려운 자료 정상성 시계열 자료 : 비정상 시계열을 다루기 쉬운 시계열 자료로 변환한 것 정상성 평균이 일정할 때, 분산이 일정할 때, 공분사도 단지 시차에만 의존하고 실제 특정 시점 t, s에는 의존하지 않을 때 만족 평균이 일정 : 모든 시점에 대해 일정한 평균을 가진다. (평균이 일정하지 않은 시계열은 차분을 통해 정상화) 분산이 일정 : 분산도 시점에 의존하지 않고 일정해야 한다. (분산이 일정하지 않은 경우 변환을 통해 정상화) 공분산도 단지 시차에만 의존 실..
서론 ADsP Part 3. 4장 3절 회귀분석 정리 회귀분석 하나나 그 이상의 독립변수들이 종속변수에 미치는 영향을 추정할 수 있는 통계기법 독립변수가 1개 : 단순선형회귀분석 독립변수가 2개 이상 : 다중선형회귀분석 선형회귀분석의 가정 선형성 : 입력변수와 출력변수의 관계가 선형이다 등분산성 : 오차의 분산이 입력변수와 무관하게 일정하다 독립성 : 입력변수와 오차는 관련이 없다. 자기 상관 (= 독립성)을 알아보기 위해서 Durbin- waston 통계량을 사용 비상관성 : 오차들끼리 상관이 없다 정상성 (정규성) : 오차의 분포가 정규분포를 따른다 Q-Q plot, Shaprio-Wilk 검정, Kolmogorov-Smirnov 검정을 활용하여 정규성 확인 단순선형회귀분석 ※ 회귀계수 β1이 0이면..
서론 ADsP Part 3. 4장 통계 분석 1. 통계 분석의 이해 특정 집단을 대상으로 수행한 조사나 실험을 통해 나온 결과에 대한 요약된 형태의 표현. 표본오차 (Sampling Error) : 모집단의 일부인 표본에서 얻은 자료를 통해 모집단의 전체의 특성을 추론함으로써 생기는 오차 (모집단을 대표할 수 있는 표본단위들이 조사대상으로 추출되지 못하면 발생) 비표본오차 (non - Sampling Error) : 표본오차를 제외한 조사의 전체과정에서 발생할 수 있는 모든 오차 표본 편의 (Sampling Bias, 표본추출방법에서 기인하는 오차) : 표본 추출이 의도된 모집단의 일부 구성원이 다른 구성원보다 더 낮거나 더 높은 표본 추출 확률을 갖는 오차 => 확률화 (Randomization)을 통..
서론 ADsP Part 3. 3장 데이터 마트 정리 1. 데이터 마트 데이터 웨어하우스와 사용자 사이의 중간층 하나의 주제 또는 하나의 부서 중심의 데이터 웨어하우스라고 할 수 있다. 요약변수 vs 파생변수 요약변수 수집된 정보를 분석에 맞게 종합한 변수 데이터 마트에서 가장 기본적인 변수로, 총 구매 금액, 금액, 횟수, 구매여부 등 데이터 분석을 위해 만들어지는 변수 많은 모델에 공통으로 사용될 수 있어 재활용 성이 높다. 파생변수 사용자(분석자)가 특정 조건을 만족하거나 특정 함수에 의해 값을 만들어 의미를 부여한 변수 주관적일 수 있으므로 논리적 타당성을 갖추어 개발해야 한다. 세분화, 고개행동 예측, 캠페인 반응 예측에 잘 활용된다. reshape 패키지 녹이는 함수 melt() 모양을 만드는 ..
서론 Part 3. 2장 데이터 변형 정리 데이터 변형 주요 코드 기능 R 코드 비고 요인으로 집단 정의 v=c(24,23,52,46,75,25) w=c(87,86,92,84,77,68) f=factor( c("A","A","B","B","C","A")) 벡터를 여러 집단으로 분할 (벡터의 길이만 같으면 됨) groups=split(v,f) groups=split(w,f) groups = unstack(data.frame(v,f)) 두 함수 모두 벡터로 된 리스트를 반환 데이터 프레임을 여러 집단으로 분할 MASS 패키시, Cars93 데이터 셋 활용 library(MASS) sp=split(Cars93$MPG.city, Cars93$Origin) median(sp[[1]]) 리스트의 각 원소에 함수 적..