1. 가설검정
1. 가설검정 (Testing Hypothesis)
- 어떤 주장이 참인지 또는 주어진 데이터에 기반하여
특정한 결론을 도출할 수 있는지 판단하는 통계학적 방법
2. 가설 (Hypothesis)
- 어떤 현상이나 관계에 대해 예측하는 논리적이고 검증가능한 주장이나 이론
- '이렇게 될 것이다'라는 예측을 나타내는 것
- 실험이나 연구로 검증할 수 있어야 함
① 귀무가설 (Null Hypothesis, H₀)
- 처음에 가정하는 가설로, '차이가 없다' 또는 '효과가 없다'는 주장을 담음
ex) 두 약물은 효과가 같다
② 대립가설 (Alternative Hypothesis, H₁)
- 실제로 차이가 있다는 것 또는 효과가 있다는 주장을 담음
ex) 두 약물의 효과는 다르다
3. 단측검정 (One-sided Test)
- 특정 방향으로 차이가 있다는 것을 검정하는 방법
- 어떤 값이 크거나 작다는 주장을 검증
- 귀무가설 (H₀) : ∅ ≤ ∅₀ = 특정 값이 "이 값보다 크거나 같다" 또는 "이 값보다 작거나 같다"라고 가정
- 대 립가설 (H₁) : ∅ > ∅₀ = 특정 값이 "이 값보다 크다" 또는 "이 값보다 작다"라고 주장
4. 양측검정 (Two-tailed Test)
- 차이가 있는지, 두 값이 서로 다르다는 것만을 검증하는 방법
- '크거나 작다'는 주장 대신, '차이가 있다'는 가설을 설정함
- 귀무가설 (H₀) : ∅ = ∅₀ = 두 값이 '같다'
- 대립가설 (H₁) : ∅ ≠ ∅₀ = 두 값이 '다르다'
5. 동등성검정 (Equivalence Test)
- 두 값이 '차이가 없다'는 가설을 검정
- 귀무가설 (H₀) : 두 값의 차이가 "어떤 일정 범위 내에서" 존재한다고 주장
- 대립가설 (H₁) : 두 값의 차이가 "일정 범위 내에서 없다"는 주장 즉, 두 값이 동등함
6. 가설검정 과정
- 가설 설정: H₀와 H₁을 설정
- 유의수준 설정: 통상 0.05로 설정
- 검정 통계량 계산: t-검정, z-검정 등으로 계산
- p-값 계산: p-값을 통해 가설을 기각할지 말지 결정
- 결과 해석: p-값과 유의수준을 비교하여 가설을 기각 또는 수용
- 오류 고려: Type I과 Type II 오류 가능성 고려
7. 가설검정의 목적
- 특정 주장이나 가설이 데이터 기반으로 타당한지 통계적 방법으로 평가하는 것
① 검정통계량 (Test Statistics)
- 귀무가설 하에서 표본에서 얻은 데이터가 얼마나 극단적인지 측정하고 정상/비정상 결정
- 귀무가설이 맞을 확률을 판단하고,
귀무가설을 기각할지 수용할지를 결정함
② 유의수준 (Significance Level)
- 가설검정에서 귀무가설을 기각할 기준을 정하는 값
2. 검정통계량과 오류
1. 검정통계량 (Test Statistic)
- 귀무가설 하에서 표본에서 얻은 데이터가 얼마나 극단적인지 측정하고 정상/비정상 결정
- 귀무가설이 맞을 확률을 판단하고,
귀무가설을 기각할지 수용할지를 결정함
- 통계값이 발생가능성이 희박한 위치에 있다면(비정상 영역) H₀ 기각(reject),
아니면 유지(retain) 또는 채택(accept)해야함
- 정상/비정상 기준은 유의수준(Significance Level)으로 결정
① Most Powerful Test (최강력검정)
- 주어진 유의수준(α) 하에서 가능한 검정 중
귀무가설을 기각할 수 있는 확률(파워)이 가장 높은 검정
② Likelihood Ratio Test (가능도비 검정, LRT)
- 두 개의 가설(귀무가설과 대립가설)의 가능도(Likelihood)를 비교하여
대립가설이 더 적합한지 판단하는 통계적 검정방법
- 주어진 데이터가 귀무가설 하에서 관찰될 가능성과
대립가설 하에서 관찰될 가능성을 비교하고
대립가설의 가능성이 더 높으면 귀무가설을 기각함
③ Score Test
- 가능도 함수의 기울기(점수)로 가설검정을 수행함
- 대립가설이 주어졌을 때, 귀무가설 하에서
모수 추정값과 점수 함수 기울기로 검정 통계량 계산
2. 오류
결정 | 실제 | |
H₀ 참 | H₁ 참 | |
H₀ 채택 | O | 제 2종 오류 (Type II Error) |
H₁ 채택 | 제 1종 오류 (Type I Error) |
O |
① 제 1종 오류 (Type I Error)
- 귀무가설이 참일 때 잘못 기각하는 오류
(맞는 가설을 틀렸다고 판단)
- 기호 : α
ex) 약물이 실제로는 효과가 없는데, 효과가 있다고 잘못 결론 내림
② 제 2종 오류 (Type II Error)
- 대립가설이 참일 때 잘못 수용하는 오류
(틀린 가설을 맞다고 판단)
- 기호 : β
ex) 약물이 실제로는 효과가 있는데, 효과가 없다고 잘못 결론 내림
3. 유의수준과 검정력
1. 유의수준 (Significance Level, α = maxP(제 1종오류))
- 제 1종 오류가 발생할 확률을 제어하는 기준
- 검정에서 결과가 귀무가설을 기각할 만큼 극단적인지를 판단하는 임계값 역할
- 상황과 목적에 따라 유의수준이 결정됨
- 일반적으로
- 예를 들어, α = 0.05인 경우, 귀무가설이 참인데
잘못 기각할 확률이 5%임을 의미함
ex)
높은 신뢰도가 필요한 경우(ex. 신약 개발) : α = 0.01 (오류를 최소화)
덜 엄격한 경우(ex. 초기 탐색 연구) : α = 0.1 (많은 결과를 기각할 가능성을 허용함)
2. 검정력 (Power, 1 - β = 1 - P(제 2종 오류))
- 제 2종 오류를 피하는 능력
- 대립가설이 참일 때, 올바르게 기각할 확률
- 유의수준을 작게 설정하면 1종 오류를 줄이지만,
2종 오류가 증가하여 검정력이 감소할 수 있음
- 가설검정에서 원하는 수준의 α와 β에 해당하는 표본크기 결정 가능
4. 유의확률(p-값)
1. 유의확률 (P-value, P-값)
- 귀무가설이 참이라는 가정 하에 현재 데이터가 귀무가설과 얼마나 일치하지 않는지를 나타내는 확률
- 귀무가설 기각 여부를 결정하는 중요한 지표
- 유의확률이 작을수록 현재 데이터가
귀무가설과 일치하지 않을 가능성이 높음
(단, P-value값이 작다고 해서 항상 대립가설이 맞다는 것은 아님)
P-값 < α ⇒ 귀무가설 기각
P-값 > α ⇒ 귀무가설 유지
ex)
1. 가설
1-1. 귀무가설 : 새 약물과 기존 약물의 효과는 차이가 없다
1-2. 유의수준 : 0.05
2. 결과
2-1. P-value = 0.03
→ P < 0.05 : 귀무가설을 기각하고 새 약물이 더 효과적일 가능성이 높다고 결론
'Data Science > statistics' 카테고리의 다른 글
기초통계학 14 | 모평균 · 모분산 · 모비율 (0) | 2025.01.11 |
---|---|
기초통계학 12 | 통계적 추론 · 추정법 · 점추정량 · 구간추정 · 신뢰구간 (0) | 2025.01.10 |
기초통계학 11 | 표집분포 · 중심극한정리 · 이항분포의 정규근사 (0) | 2025.01.07 |
기초통계학 10 | 정규분포 · 확률표본 · 통계량 (0) | 2025.01.07 |
기초통계학 9 | 포아송분포 · 기하분포 · 음이항분포 · 다항분포 (0) | 2025.01.07 |