1. 다중공선성 (Multicollinearity)
- 다중회귀분석에서 독립변수들 간 강한 선형적 관계가 존재할 때 발생하는 문제
- 2개 이상의 독립변수가 서로 매우 높은 상관관계를 가지면,
모델이 각 변수의 개별적인 효과를 정확히 추정하기 어려워짐
- 다중공선성 존재시, 문제점
1) 회귀계수의 불안정성
- 작은 데이터 변화에도 큰 변동 발생할 수 있음
2) 중요하다고 생각되는 변수가 유의하게 나오지 않음
3) 추정된 회귀계수의 값이나 부호가 상식적이지 않음 - 다중공선성 확인 방법
1) 상관행렬
- 독립변수들 간 상관계수를 구하여 두 변수 간 상관관계가 매우 높은지 확인
- 상관계수가 0.9 이상이면, 강한 다중공선성 의심
2) 분산팽창계수 (VIF, Variance Inflation Factor)
- 각 독립변수가 다른 독립변수들에 의해 얼마나 설명되는지 측정하는 지표
- VIF 값이 높을수록 해당 변수의 회귀계수가 불안정할 가능성 높음
- VIF 값이 10 이상이면, 강한 다중 공건성이 있다고 판단 가능 - 다중공선성 해결법
1) 변수 제거
- 상관관계가 매우 높은 변수 중 하나를 제거하여 다중공선성 완화
2) 주성분 분석
- 주성분을 분석하여 상관관계가 높은 변수들을 결합하고,
새로운 비상관 변수들로 데이터변환
3) 변수 결합
- 상관관계가 높은 변수들을 하나의 새로운 변수로 결합
2. 상대적 영향력
- 특정 변수나 요인이 종속변수에 미치는 영향을
다른 변수들과 비교하여 평가한 정도
- 보통 회귀계수나 표준화된 회귀계수를 기준으로 측정됨
3. 변수선택 (Variable Selection)
- 회귀분석, 다중회귀 모델에서 독립변수들 중에서
종속변수와 가장 관련성이 높은 변수를 선택하는 과정
- 불필요한 변수를 제거하고 예측력과 해석력을 높이기 위한
최소한의 변수 집합을 찾는 것
- 전진선택법 (Forward Selection)
- 처음에는 종속변수와 관계없는 독립변수를 하나도 선택하지 않은 상태에서 시작함
- 각 독립변수에 대해 모델을 하나씩 추가하여, 가장 성능이 좋은 변수를 선택함
- 선택된 변수는 계속해서 모델에 포함되며, 더 이상 성능이 향상되지 않을 때까지 진행됨 - 후진제거법 (backward Elimination)
- 모든 독립변수를 포함한 모델에서 시작하여, 하나씩 변수들을 제거해가며 모델을 개선함
- 변수 제거는 가장 유의미하지 않은 변수부터 시작하며, 이를 제거한 후 성능을 재평가함
- 유의미하지 않은 변수를 계속 제거하면서 모델을 단순화함 - 단계적 선택법 (Stepwise Selection)
- 각 단계에서 설명변수를 추가하거나 제거하여 최적의 모델을 찾음
반응형
'Data Science > statistics' 카테고리의 다른 글
기초통계학 18 | 회귀모형 · 잔차검진 (0) | 2025.01.19 |
---|---|
기초통계학 17 | 분산분석표 · 분산분석 검진 · 다중비교 · 선형대비 (0) | 2025.01.19 |
기초통계학 16 | 분산분석 용어와 개념 · 고정효과모형 · 변량효과모형 (0) | 2025.01.19 |
기초통계학 15 | 독립표본 · 대응표본 (0) | 2025.01.19 |
기초통계학 14 | 모평균 · 모분산 · 모비율 (0) | 2025.01.11 |