JOB RECIPE


Job To Be

기초통계학 19 | 다중공선성 · 상대적 영향력 · 변수선택
본문 바로가기
Profile Picture

Job To Be

First Thought, Best Thought

본문 바로가기

Data Science/statistics

기초통계학 19 | 다중공선성 · 상대적 영향력 · 변수선택

 

 

 

1. 다중공선성 (Multicollinearity)

- 다중회귀분석에서 독립변수들 간 강한 선형적 관계가 존재할 때 발생하는 문제

- 2개 이상의 독립변수가 서로 매우 높은 상관관계를 가지면,

  모델이 각 변수의 개별적인 효과를 정확히 추정하기 어려워짐

 

  1. 다중공선성 존재시, 문제점

    1) 회귀계수의 불안정성
    - 작은 데이터 변화에도 큰 변동 발생할 수 있음

    2) 중요하다고 생각되는 변수가 유의하게 나오지 않음

    3) 추정된 회귀계수의 값이나 부호가 상식적이지 않음



  2. 다중공선성 확인 방법

    1) 상관행렬
    - 독립변수들 간 상관계수를 구하여 두 변수 간 상관관계가 매우 높은지 확인
    - 상관계수가 0.9 이상이면, 강한 다중공선성 의심

    2) 분산팽창계수 (VIF, Variance Inflation Factor)
    - 각 독립변수가 다른 독립변수들에 의해 얼마나 설명되는지 측정하는 지표
    - VIF 값이 높을수록 해당 변수의 회귀계수가 불안정할 가능성 높음
    - VIF 값이 10 이상이면, 강한 다중 공건성이 있다고 판단 가능


  3. 다중공선성 해결법

    1) 변수 제거
    - 상관관계가 매우 높은 변수 중 하나를 제거하여 다중공선성 완화

    2) 주성분 분석
    - 주성분을 분석하여 상관관계가 높은 변수들을 결합하고,
      새로운 비상관 변수들로 데이터변환

    3) 변수 결합
    - 상관관계가 높은 변수들을 하나의 새로운 변수로 결합


 


 

 

 

2. 상대적 영향력

- 특정 변수나 요인이 종속변수에 미치는 영향을
  다른 변수들과 비교하여 평가한 정도
- 보통 회귀계수나 표준화된 회귀계수를 기준으로 측정됨

 

 


 

 

 

3. 변수선택 (Variable Selection)

- 회귀분석, 다중회귀 모델에서 독립변수들 중에서

  종속변수와 가장 관련성이 높은 변수를 선택하는 과정

- 불필요한 변수를 제거하고 예측력과 해석력을 높이기 위한

  최소한의 변수 집합을 찾는 것

 

  1. 전진선택법 (Forward Selection)
    - 처음에는 종속변수와 관계없는 독립변수를 하나도 선택하지 않은 상태에서 시작함
    - 각 독립변수에 대해 모델을 하나씩 추가하여, 가장 성능이 좋은 변수를 선택함
    - 선택된 변수는 계속해서 모델에 포함되며, 더 이상 성능이 향상되지 않을 때까지 진행됨


  2. 후진제거법 (backward Elimination)
    - 모든 독립변수를 포함한 모델에서 시작하여, 하나씩 변수들을 제거해가며 모델을 개선함
    - 변수 제거는 가장 유의미하지 않은 변수부터 시작하며, 이를 제거한 후 성능을 재평가함
    - 유의미하지 않은 변수를 계속 제거하면서 모델을 단순화함


  3. 단계적 선택법 (Stepwise Selection)
    - 각 단계에서 설명변수를 추가하거나 제거하여 최적의 모델을 찾음

 

 

 

 

 

반응형