본문 바로가기
Data Science/statistics

기초통계학 14 | 모평균 · 모분산 · 모비율

by 잡레시피 2025. 1. 11.

 

 

 

 

 

1. 모평균

 

 

1. 정규모집단 가정 : N(μ, σ²)

- 정규분포를 따른다고 가정하는 것

- 모집단이 정규분포를 따른다면, 표본크기가 작아도

  신뢰할 수 있는 결과를 얻을 가능성이 높음

- 데이터가 실제로 정규분포를 따르는지 확인하는 절차 필요

 

 

 

2. Student t-분포

- 모집단의 분산(표준편차)를 모를 때

  특히 작은 표본 크기에서 모집단 평균에 대한 추정이나

  가설 검정을 수행할 때 사용하는 확률 분포

- 정규분포와 유사하지만, 표본 크기가 작을수록 꼬리가 두꺼운 분포를 가짐

  (극단값이 나올 확률이 높음)

- 자유도(v)가 작을수록 꼬리가 두꺼움 (v = n - 1)

- 표본크기가 커지면 정규분포에 가까워짐

 

 

 

3. 모평균 구간추정

- 모집단 평균(μ)에 대해 표본 데이터를 바탕으로

  모집단 평균이 포함될 가능성이 높은 범위를 계산

- 범위는 신뢰구간이라고 하며, 

  특정확률(신뢰수준, 1- α)로 모집단 평균이 범위 안에 있다고 추정함

- 신뢰수준이 높을수록 신뢰구간이 넓어짐

 

 

 

4. 모평균 가설검정

- 모집단 평균이 특정 값과 다른지 여부를 검정

 

ex) 

상황 : A학교 학생들의 평균 키가 170cm라고 주장하는데,

30명의 학생을 표본으로 뽑아 키의 평균이 172cm, 표준편차가 5cm인 경우,

A학교 학생들의 평균 키가 170cm인지 검정하라 (유의수준 α=0.05)

 

① 귀무가설과 대립가설 설정

- 귀무가설(H₀) : "학교 학생들의 평균 키는 170cm이다"  ⇒  H₀ : μ = 170(μ₀)

- 대립가설(H₁) : " 학교 학생들의 평균 키는 170cm이 아니다"  ⇒  H₁ : μ ≠ 170(μ₀)

 

② 검정 통계량 계산

(172 - 170) / (5 / √30) = 2.19

 

③ t-분포의 임계값 찾기

자유도 df = n -1 = 30 - 1 = 29 

유의수준 : 0.05

 

∴ t-분포의 임계값은 약 ± 2.045

 

④ 검정

t-값 = 2.19 > 임계값 = ± 2.045

 

∴ t-값이 임계값을 초과하므로,

귀무가설을 기각하고, A학교 학생들의 평균 키가 170cm가 아님

 

 

 

5. 정규성을 만족하지 않는 경우 : 대표본

 

 

① 중앙극한정리 (Central Limit Theorem, CLT)

- 표본 크기가 충분히 크다면, 원래 데이터가 정규분포를 따르지 않아도

  표본 평균은 정규분포에 가까운 형태로 근사됨

- 즉, 표본 크기가 충분히 크다면 정규성 가정이 충족되지 않아도

  t-검정과 같은 방법 사용가능

 

 

② 대표본(Representative Sample)

- 모집단을 잘 대표할 수 있는 무작위 표본이어야 하며,

  표본 크기가 충분히 커야함

- 표본이 작다면, 비모수 검정을 고려해야함

 

 

 

6. 정규성 위반(Non- Normality)

- 데이터가 정규분포를 따르지 않는 경우,

  비모수적 방법으로 데이터 분석

- 분포에 대한 특별한 제약조건이 없으며, 중심위치에 대한 검정

- 대부분의 통계분석은 데이터가 정규분포를 따른다고 가정하지만,

  이 가정을 만족하지 않는 경우도 많음

 

 

① 윌콕슨 부호순위 검정 (Wilcoxon Signed-rank Test)

- 비모수적 방법으로, 관련있는 두 샘플을 비교할 때 사용

- 대응표본 t-검정과 비슷하지만,

  데이터가 정규분포를 따르지 않을 때 사용함

 

 

② 부호검정 (Sign Test)

- 비모수적 방법으로, 관련있는 두 샘플을 비교할 때 사용

- 두 조건 간의 차이가 어느 방향(양/음)으로 있는지를 분석

 

 

 

7. 재표집(Resampling) 방법

- 원본 데이터에서 반복적으로 표본을 추출하여 통계적 분석 수행

- 표본이 작거나, 모집단 정보가 부족할 때 유용함

 

 

① Bootstrapping

- 원본데이터에서 중복 허용하여 샘플을 여러 번 뽑고

  각 샘플에서 통계량을 계산하여 추정값의 분포를 구하는 방법

 

② 교차검증 (Cross-validation)

- 데이터셋을 여러 하위 샘플로 나누고 각각의 모델을 평가하는 방법

 

 

 

 

 

 


 

 

2. 모분산

 

 

1. 모분산

- 모집단 내 모든 값이 평균으로부터 얼마나 퍼져있는지를 나타내는 값

- 표본으로 모분산을 추정함

 

 

 

2. 모분산에 대한 통계적 추론

 

 

① 모분산 추정

- 표본분산으로 모분산 추정

- 표본분산은 모분산에 대한 불편추정량(Unbiased Estimator)으로 사용됨

- 불편추정량 (Unbiased Estimator) : 모수를 추정하는 데 사용되는 통계량으로,

  여러번 추출한 표본으로 추정된 값들의 평균이 실제 모수값과 같다는뜻

 

 

② 모분산에 대한 신뢰구간

- 표본으로 모분산의 신뢰구간 추정

- 일반적으로 카이제곱분포(Chi-squared Distribution) 사용

 

 

③ 모분산에 대한 가설검정

- 모분산이 특정 값과 다른지 여부를 확인하기 위해 카이제곱검정(Chi-squared Test) 사용

 

 

 

 

 


 

 

3. 모비율

 

 

1. 모비율추론 (Inference for Population Proportion)

- 모집단의 비율을 추정하거나 가설검정을 수행하는 과정

 

 

 

2. 모비율 구간추정

- 모집단의 비율에 대해 신뢰구간 계산

- 구간추정은 모수에 대한 추정값을 단순 1개의 값이 아니라 범위로 제시하여

  실제 모수가 그 범위 내에 있을 확률을 계산함

 

ex) 상황 

- 이 지역에서 출생한 73,380명 중 아들은 38,100명

- 이 지역의 남아 출생비율에 대한 95% 신뢰구간 구하기

 

① 모비율 추정

- 표본에서 얻은 비율 38,100 / 73,380 = 0.519 = 남아 출생비율

 

② 신뢰구간 계산

표준오차를 구하고, 신뢰구간 계산

표준오차 SE = √ {[0.519*(1-0.519)] / 73,380} = 0.00184

 

③ 결론

[0.519 - 1.96 * 0.0018, 0.519 + 1.96 * 0.0018] = [0.5156, 0.5228]

 

∴ 남아 비율이 95% 확률로 0.5154에서 0.5226 사이에 있을 것이라고 해석가능

(남아 출생비율에 대한 95% 신뢰구간은 [0.5156, 0.5228])

 

 

 

3. 모비율의 가설검정

- 특정 모집단의 비율이 주어진 값과 같은지 여부를 검정

 

 

 

4. 모비율 기반 표본크기 결정

- 주어진 유의수준, 검정력, 검정에서 허용하는 오차범위를 바탕으로

  표본크기를 계산하는 과정

 

ex) 

상황

어떤 정치 후보의 지지율을 추정해보자

여론조사에서 95% 신뢰수준에서 지지율을 ±3% 오차 범위 내에서 추정함

과거 여론조사에서의 지지율은 대략 50% (p = 0.5)

 

Z-값 = 1.96 (신뢰수준 95%하에서)

모비율 p = 0.5

허용 오차 E = 0.03

 

n = [1.96² * 0.5 * (1 - 0.5)] / 0.03²

n = 0.9604 / 0.0009 ≈ 1067

 

∴ 1067명을 조사하면 95% 신뢰수준에서 ±3% 오차범위 내에서 지지율 추정가능

반응형