자격증/ADsP

[ADsP] 3과목 - 4장(1,2절)

브디크리 2023. 8. 11. 08:40

서론


ADsP Part 3. 4장 통계 분석


1. 통계 분석의 이해


  • 특정 집단을 대상으로 수행한 조사나 실험을 통해 나온 결과에 대한 요약된 형태의 표현.

  • 표본오차 (Sampling Error)
    : 모집단의 일부인 표본에서 얻은 자료를 통해 모집단의 전체의 특성을 추론함으로써 생기는 오차
    (모집단을 대표할 수 있는 표본단위들이 조사대상으로 추출되지 못하면 발생)

  • 비표본오차 (non - Sampling Error)
    : 표본오차를 제외한 조사의 전체과정에서 발생할 수 있는 모든 오차

  • 표본 편의 (Sampling Bias, 표본추출방법에서 기인하는 오차)
    : 표본 추출이 의도된 모집단의 일부 구성원이 다른 구성원보다 더 낮거나 더 높은 표본 추출 확률을 갖는 오차
    => 확률화 (Randomization)을 통해 최소화하거나 없앨 수 있다.
    => 확률화 : 모집단으로부터 편의되지 않은 표본을 추출하는 절차
    (확률화를 통해 추출된 표본 : 확률표본 (Random Sample)

표본 추출 방법


  • 단순 랜덤 추출법 (Simple Random Sampling)
    : 임의의 N개를 추출하는 방법 (복원, 비복원)

  • 계통 추출법 (Systematic Sampling)
    : 샘플을 K개씩 N개의 구간으로 나누고 구간별로 1개씩 총 N개의 표본 추출
  • 집락 추출법 (Cluster Random Sampling)
    : 군집을 구분하고 군집별로 단순랜덤 추출법을 수행

  • 층화 추출법 (Stratified Random Sampling)
    : (이질적인 원소들로 구성된 모집단에서 각 계층을 고루 대표할 수 있도록 표본을 추출하는 방식으로,
    유사한 원소끼리 몇 개의 층으로 나누어 각 층에서 랜덤 추출하는 방법 

집락 vs 층화

집락 : 각 집락이 모집단을 대표할 수 있다. 

층화 : 이질적인 원소들을 층으로 나누고 각 층에서 랜덤으로 추출

 

집락 추출법 예시)

모집단 : 00고등학교 학생

 

군집
1반(1학년 1반 학생, 2학년 1반 학생, 3학년 1반 학생),
2반(1학년 2반 학생, 2학년 2반 학생, 3학년 2반 학생),

3반(1학년 3반 학생, 2학년 3반 학생, 3학년 3반 학생),

4반(1학년 4반 학생, 2학년 4반 학생, 3학년 4반 학생)

중 표본 추출 시 2반을 추출하였다면, 2반의 표본 전체를 사용 

 

※ 집단 내 1,2,3학년 모두가 존재하므로 군집내에서는 이질적, 군집 간에는 동질성 존재

 

층화 추출법 예시)

모집단 : 00고등학교 학생

 

군집

층 1) 1학년 (1~4반)

층 2) 2학년 (1~4반)

층 3) 3학년 (1~4반)

에서 1학년 i, 2학년 j, 3학년 k 개씩 표본 추출 

 

※ 각 층내에서는 모두 같은 학년이므로 동질적, 층마다 학년이 다르므로 이질적이다.

 

  집락 추출법 군집 추출법
집단 내 이질적 동질적
집단 간 동질적 이질적
추출 군집 N개중 K개 추출 (군집 자체를 추출) 군집 별로 i,j,k ... n 개의 표본 추출

측정 방법


명목척도 어느 집단에 속하는지 분류 질적 척도
(범주형 자료)
순서척도
(서열척도)
서열관계를 관측하는 척도
 
구간척도
(등간척도)
속성의 양을 측정하는 것,
구간사이의 간격이 의미가 있는 자료 (온도, 지수)
(더하기 빼기 가능, but.곱하기 나누기 불가능)
양적 척도
(수치형 자료)
비율척도 절대적 기준치인 0이 존재,
사칙연산 가능

이산형 확률분포 vs 연속형 확률분포


 

이산형 확률변수

  • 0이 아닌 확률값을 갖는 확률 변수를 셀 수 있는 경우

  • 확률 질량 함수

종류

  • 베르누이 확률 분포
  • 이항분포
  • 기하분포
  • 다항분포
  • 포아송분포

연속형 확률변수

  • 가능한 값이 실수의 어느 특정 구간 전체에 해당하는 확률 변수
  • 확률 밀도 함수

종류

  • 균일분포
  • 정규분포
  • 지수분포
  • t-분포
  • 카이제곱 분포(x^2-분포)
  • F-분포

t-분포

  • 평균이 0을 중심으로 좌우가 동일한 분포
  • 표본이 커져서 (30개 이상) 자유도가 증가하면 표준 정규분포와 거의 같은 분포가 된다.
    (표준정규분포 : 평균이 0, 분산이 1인 정규분포)
  • 두 집단의 평균이 동일한지 알고자 할 때 검정 통계량으로 활용.

 

출처:https://acdongpgm.tistory.com/84


카이제곱 분포 (x^2 분포)

  • 모집단의 모분산에 대한 가설 검정에 사용
  • 두 집단 간의 동질성 검정에 활용

출처:https://acdongpgm.tistory.com/84


F-분포

  • 두 집단 간 분산의 동일성 검정에 사용되는 검정 통계량의 분포.

  • 자유도를 2개 가지고 있으며, 자유도가 커질수록 정규분포에 가까워진다.

출처:https://acdongpgm.tistory.com/84


추정


  • 점 추정
    : 모수가 특정한 값일것 이라고 추청

  • 구간 추정
    : 모수가 특정한 구간에 있을 것이라고 선언 (모수 != 추정 값)

가설 검정(귀무가설, 대립가설)


  • 귀무가설 (H0) : 비교하는 값과 차이가 없다, 동일하다.

  • 대립가설 (H1) : 뚜렷한 증거가 있을 때 주장하는 가설
  • 유의 수준 : 귀무가설을 기각하게 되는 확률의 크기로, 귀무가설이 옳은데도 이를 기각하는 확률의 크기

제 1종 오류, 제2종 오류

정확한 사실 \ 가설검정 결과 귀무가설(H0)이 사실이라고 판정 귀무가설(H0)이 사실이 아니라고 판정
귀무가설(H0)이 사실 옳은 결정 제 1종 오류(α)
귀무가설(H0)이 사실이 아님 제 2종 오류(β) 옳은 결정

모수적 검정 vs 비모수적 검정


  • 모수적 방법 : 검정하고자 하는 모집단의 분포에 가정을하고, 그 가정하에 검정 실시

  • 비모수적 방법 : 추출된 모집단의 분포에 아무런 제약을 가하지 않고 검정을 실시
    (자료의 수가 많지 않거나, 개체간의 서열관계를 나타내는 경우에 이용)

가설 설정

  • 모수적 검정 : 가정된 분포의 모수에 대해 가설을 설정

  • 비모수적 검정 : 가정된 분포가 없으므로, 분포의 형태에 대해 설정

가설 검정 방법

  • 모수적 검정 : 관측된 자료를 이용해 구한, 표본평균, 표본분산 등을 이용해 검정 실시
  • 비모수적 검정 : 관측값들의 순위, 두 관측값 차이의 부호 등

2. 기초 통계분석


  • 기술 통계 : 자료의 특성을 표, 그림, 통계량 등을 사용하여 쉽게 파악할 수 있도록 정리/요약하는 것

분포의 형태에 관한 측도

  • 왜도 : 분포의 비대칭 정도를 나타내는 측도

출처:https://wikidocs.net/163524

왜도가 음수 (= 왼쪽 꼬리를 가짐) => 평균 < 중앙값 < 최빈값

왜도가 양수 (= 오른쪽 꼬리를 가짐) => 평균 > 중앙값 > 최빈값

왜도가 0 => 평균 = 중앙값 = 최빈값


막대 그래프 vs 히스토그램

  • 막대 그래프 : 범주형으로 구분된 데이터
    (범주의 순서를 의도에 따라 바꿀 수 있다.)

  • 히스토그램 : 연속형으로 표시된 데이터
    (임의로 순서를 바꿀 수 없고, 막대의 간격이 없다.)

  • 줄기-잎 그림 : 데이터를 줄기와 잎의 모양으로 그린 그림

  • 상자그림 : 다섯 수자 요약을 통해 그림으로 표현 (최솟값, Q1, Q2, Q3, 최댓값)
    사분위수 범위 (IQR) =  Q3- Q1

  • 파레토 그림(pareto diagram) : 명목형 자료에서 "중요한 소수"를 찾는데 유용한 방법

인과관계의 이해


  • 종속 변수 : 다른 변수의 영향을 받는 변수
  • 독립 변수 : 영향을 주는 변수

공분산 : 두 확률 변수 X, Y의 방향의 조합(선형성)이다.

  a b c
a 1 -0.5 0.7
b -0.5 1 0.5
c 0.7 0.5 1

공분산 행렬이 위와 같을 때

a와 b(= -0.5) : 부호가 -이므로, 음의 방향성

b와 c(= 0.5) : 부호가 +이므로, 양의 방향성

a와 c(= 0.7) : 부호가 +이므로, 양의 방향성

 

※ X,Y가 서로 독립이면 cov(X,Y) = 0


상관 분석 : 두 변수 간의 관계의 정도를 알아보기 위한 분석 방법

상관계수 범위 해석
0.7 < γ <= 1 강한 양(+)의 상관이 있음
0.3 < γ <= 0.7 약한 양(+)의 상관이 있음
0 < γ <= 0.3 거의 상관 없음
γ = 0 상관관계(선형, 직선)가 존재하지 않음
-0.3 <= γ < 0 거의 상관 없음
-0.7 <= γ < -0.3 약한 음(-)의 상관이 있음
-1 <= γ < -0.7 강한 음(-)의 상관이 있음

상관 분석의 유형

구분 피어슨 스피어만
개념 등간 척도 이상으로 측정된
두 변수들의 상관관계 측정 방식
서열척도인 두 변수들의 상관관계 측정
특징 연속형 변수, 정규성 가정 순서형 변수, 비모수적 방법
(순위를 기준으로 상관관계 측정)
상관계수 피어슨 γ (적률상관계수) 순위상관계수 (ρ, 로우)

※ 피어슨은 선형적 크기만 측정가능, 스피어만은 비선형적인 관계도 나타낼 수 있다.

 

상관분석의 가설 검정

※ t 검정 통계량을 통해 얻은 p-value값이  0.05이하인 경우, 대립가설을 채택하게 되어 우리가 데이터를 통해 구한 상관계수를 활용할 수 있다. (상관계수 γ가 0이면 입력변수 x와 출력변수 y사이에는 아무런 관계가 없다)