서론
ADsP Part 3. 4장 통계분석 (시계열 분석, 다차원 척도법, 주성분 분석) 정리
1. 시계열 분석
- 시계열 자료 : 시간의 흐름에 따라 관찰된 값들
종류
- 비정상성 시계열 자료
: 대부분의 시계열 자료로, 시계열 분석 시 다루기 어려운 자료 - 정상성 시계열 자료
: 비정상 시계열을 다루기 쉬운 시계열 자료로 변환한 것
정상성
- 평균이 일정할 때, 분산이 일정할 때, 공분사도 단지 시차에만 의존하고 실제 특정 시점 t, s에는 의존하지 않을 때 만족
- 평균이 일정 : 모든 시점에 대해 일정한 평균을 가진다.
(평균이 일정하지 않은 시계열은 차분을 통해 정상화) - 분산이 일정 : 분산도 시점에 의존하지 않고 일정해야 한다.
(분산이 일정하지 않은 경우 변환을 통해 정상화) - 공분산도 단지 시차에만 의존 실제 특정 시점 t, s에는 의존하지 않는다.
시계열 모형
- 자기회귀모형 (AR 모형, Autoregressive Model)
: p 시점 전의 자료가 현재 자료에 영향을 주는 모델
=> 자기상관함수(ACF)는 빠르게 감소, 부분자기함수(PACF)는 어느 시점에서 절단점을 가진다. - 이동평균모형 (MA 모형, Moving Average Model)
: 유한한 개수의 백색잡음의 결합(백색잡음 == 정상시계열 의미) 언제나 정상성을 만족
=> 자기상관함수(ACF)는 절단점을 가지고, 부분자기함수(PACF)는 빠르게 감소 (AR모형과 반대) - 자기회귀누적이동평균모형 (ARIMA 모형, Autoregressive Integrated Moving Average Model)
: ARIMA 모형은 비정상 시계열 모형이다.
1) ARIMA(p, d, q)에서 p : AR모형, q : MA 모형과 관련있는 차수, d : 차분과 관련있는 차수
2) 시계열 {z}의 d번 차분한 시계열이 ARMA(p,q)모형이면, {z} = ARIMA(p,d,q) 이다.
3) d = 0이면 ARIMA(p,0,q) == ARMA(p,q)
4) p = 0이면 ARIMA(0,d,q) == IMA(d,q) ==> 추가로 d = 0이면, MA(q)
5) q = 0이면 ARIMA(p,d,0) == ARI(p,d) ==> 추가로 d = 0이면, AR(p)
ex1) ARIMA(0,1,1) → (1번 차분) → ARMA(0,1) → (p = 0) → MA(1) 활용
ex2) ARIMA(1,1,0) → (1번 차분) → ARMA(1,0) → (q = 0) →AR(1) 활용
ex3) ARIMA(1,1,2) → (1번 차분) → ARMA(1,2) → ARMA(1,2) or AR(1) or MA(2) 중 선택하여 사용
※ ex3의 경우 가장 간단한 모형 선택 or AIC를 적용하여 가장 점수가 낮은 모형 선정 - 분해시계열
: 시계열에 영향을 주는 일반적인 요인을 시계열에서 분리하여 분석하는 방법
요인의 종류
1) 경향(추세)요인 (=Trend) : 자료가 오르거나 내리는 추세
2) 계절요인 (=Seasonal) : 요일, 월, 사계절 등 고정된 주기에 따라 자료가 변하는 경우
3) 순환요인 (=Cyclical) : 경제적이나 자연적인 이유없이 알려지지 않은 주기를 가지고 변화하는 자료
4) 불규칙요인 (=Irregular) : 위의 세가지 요인으로 설명할 수 없는 오차에 해당하는 요인
2. 다차원 척도법 (MDS : Multidimensional Scaling)
- 객체간 근접성(Proximity)을 시각화 하는 통계기법
다차원 척도법 방법
- 개체들의 거리 계산은 유클리드 거리행렬 활용
- 관측대상들의 상대적 거리의 정확도를 높이기 위해 적합 정도를 스트레스 값으로 나타낸다.
Stress | 적합도 수준 |
0 | 완벽 (Perfect) |
0.05 이내 | 매우 좋은 (Excellent) |
0.05 ~ 0.10 | 만족 (Satisfactory) |
0.10 ~ 0.15 | 보통 (Acceptable, but Doubt) |
0.15이상 | 나쁨 (Poor) |
다차원척도법 종류
- 계량적 MDS (Metrix MDS)
: 데이터가 구간척도나 비율척도인 경우 활용 - 비계량적 MDS (nonmetrix MDS)
: 데이터가 순서척도인 경우 활용
3. 주성분 분석
- 여러 변수들의 변량을 주성분이라는 서로 상관성이 높은 변수들의 선형결합으로 만들어
기존의 상관성이 높은 변수들을 요약, 축소하는 기법
주성분 분석 vs 요인분석
요인분석 : 등간척도로 측정한 두 개 이상의 변수들에 잠재되어 있는 공통인자를 찾아내는 기법
공통점
- 데이터를 축소하는데 활용
차이점
생성된 변수의 수 | 생성된 변수의 이름 | 성성된 변수들간의 관계 | 분석 방법의 의미 | |
요인분석 | 몇개라고 지정없이 만들 수 있다. | 분석자가 요인의 이름을 명명 |
변수들은 기본적으로 동등한 관계 | 목표변수를 고려하지 않는다. |
주성분 분석 | 제1주성분, 제2주성분, 제3주성분 정도로 활용 (대부분 4이상 넘지 않는다.) |
제1주성분, 제2주성분 |
제1주성분이 가장 중요 (제2주성분이 그 다음) |
목표변수를 고려한다. |
주성분의 선택법
1) 누적 기여율 :
주성분 분석의 결과에서 누적기여율 (Cumulative Proportion)이 85%이상이면 주성분의 수로 결정할 수 있다.
제1주성분(Comp.1) : 누적기여율이 0.62이다.
제2주성분(Comp.2) : 제1주성분 + 제2주성분의 누적기여율이 0.86이다.
※ 누적기여율이 주성분 2개일때 86%로 85보다 크므로 2개의 주성분 변수를 통해 전체 데이터의 약 86.8% 설명 가능.
2) Scree Plot (스크리 그림) : 고윳값(Eigenvalue)이 수평을 유지하기 전단계로 주성분의 수를 선택
(총 분산의 비율이 70~90% 사이가 되는 지점을 찾는데 사용)
(즉, 고윳값의 크기순으로 산점도를 그린 그래프에서, 감소하는 추세가 원만해지는 지점에서 1을 뺀 개수를 주성분 개수)
3) 평균 고윳값 (Average Eigenvalue) 방법
: 고윳값들의 평균을 구한 후 고윳값이 평균값 이상 되는 주성분을 선택
4. 기타
상대 위험도
암 발생 여부 | |||
O | X | ||
위험인자 노출 여부 | O | a | b |
X | c | d |
상대 위험도 (RR) = 위험인자에 노출된 암환자 비율 / 위험인자에 노출되지 않은 암환자의 비율
== {a / (a+b)} / {c / (c+d)}
교차분석
- 교차표에서 각 셀의 관찰빈도 (자료로부터 얻은 빈도분포)와
기대빈도 (두 변수가 독립일 때 이론적으로 기대할 수 있는 빈도 분포)간의 차이를 검정
적합성 | 독립성 | 동질성 | ||
가설 검정 | 귀무가설 (H0) | 실제 분포 == 이론적 분포 | 두 변수 사이 연관 X (독립이다) |
모든 P는 동일하다. |
대립가설 (H1) | 실제 분포 != 이론적 분포 | 두 변수 사이 연관 O (종속이다) |
H1 : not H0 | |
검정 통계량 | x^2 통계량이 큰 경우 |
관찰도수와 기대도수의 차이가 크고, 적합도가 낮다 (일치한다고 볼 수 없다) |
두 변수 사이에는 연관이 있다. (종속이다) |
P중 다른 값이 하나 이상 존재 |
x^2 통계량이 작은 경우 |
관찰도수와 기대도수의 차이가 작고, 적합도가 높다 (일치한다고 볼 수 있다) |
두 변수 사이에는 연관이 없다 (독립이다) |
P는 모두 동일 |
즉, x^2이 크면 대립가설, 작으면 귀무가설
더빈 왓슨 (Durbin-Waston) 검정
- 회귀분석의 주요한 가정 중 오차항이 독립성을 만족하는지를 검정
- 더빈 왓슨 통계량이 2에 가까울 수록 자기상관이 없다.
- 더빈 왓슨 통계량이 0에 가까울 수록 양의 상관관계가 있다.
- 더빈 왓슨 통계량이 4에 가까울 수록 음의 상관관계가 있다.
※ 0, 4에 가까울수록, 상관관계가 있으므로, 회귀식이 부적합하다는 것을 의미.
정규화 선형회귀
릿지회귀 (Ridge)
- 가중치들의 제곱합을 최소화하는 것을 제약조건으로 추가하는 기법
- 가중치의 모든 원소가 0에 가까워 지는 것을 원한다. (실제로 0이 되지는 않는다.)
- L2 규제 사용 (L2 : 오차 제곱)
라쏘회귀 (Lasso)
- 가중치 절대값의 합을 최소화하는 것을 제약조건으로 추가하는 기법
- 릿지회귀와 다르게 중요하지 않은 가중치는 0이 될 수 있다.
- L1 규제 사용 (L1 : 절대값의 합)
'자격증 > ADsP' 카테고리의 다른 글
[ADsP] 3과목 - 5장 (4,5,6절) (0) | 2023.08.15 |
---|---|
[ADsP] 3과목 - 5장 (1,2,3절) (0) | 2023.08.14 |
[ADsP] 3과목 - 4장 (3절 : 회귀분석) (0) | 2023.08.12 |
[ADsP] 3과목 - 4장(1,2절) (0) | 2023.08.11 |
[ADsP] 3과목 - 3장 (0) | 2023.08.06 |