본문 바로가기
데이터 사이언스

기초통계학 4 | 분할표, 비교그림, 산점도, 공분산 & 상관계수

by 잡레시피 2025. 1. 4.

 

 

 

 

 

 

1. 분할표 (Cotingency table)

- 2개 이상의 변수 간 관계를 표현

- 각 변수 값에 따라 교차된 빈도를 나타내며, 범주형 데이터 간 관계를 분석할 때 사용

 

 

 

 

1. 분할표 (Cotingency table)

- 2개 이상의 변수를 동시에 고려해

  각각의 범주에 관측개체의 빈도를 정리한 교차표 (Cross tabulation)

 

- 칸(Cell) : 각 범주에 교차되는 부분

- 행(Row) : 하나의 변수의 범주들

- 열(Column) : 또 다른 변수의 범주들

흡연여부 \ 성별 합계
흡연 50 30 80
비흡연 120 150 270
합계 170 180 350

 

 

 

2. 비율(상대도수) 표시

- 전체 중에서 특정 범주가 차지하는 비율

- 비율은 분석목적 또는 자료 수집 방법에 따라 다르게 표시됨

 

 

 

3. 차이 또는 관련 여부 확인

- 두 변수가 차이나 관련성이 있는지 확인하는 방법은

  주로 카이제곱 검정(Chi-square test)을 사용함

- 카이제곱 검정은 분하라표에서 관찰된 값과 기대값이

  얼마나 차이나는지 비교하여 두 변수 간 독립적인지(차이가 없고 관계가 없는지),

  아니면 의존적인지(차이가 있고 관계가 있는지) 판단함

 

 

 

4. k차원 분할표 (k-dimensional contingency table)

- 2차원 이상의 여러 범주형 변수 간 관계를 동시에 분석하는

  확장된 형태의 분할표

- k개의 범주형 변수가 결합된 데이터를

  여러 차원으로 나타낸 표

- 주로 다변량 분석할 때 사용

 

 

성별\흡연,나이 흡연O/20대 흡연X/20대 흡연O/30대 흡연X/30대 흡연O/40대 흡연X/40대 합계
남성 10 40 15 35 25 25 150
여성 5 45 10 40 20 30 150
합계 15 85 25 75 45 55 300

 

→ 성별, 흡연 여부, 나이대라는 3가지 변수로 각각 교차하는 분포 나타냄

 

 

 

남성, 여성의 원그래프와 막대그래프 k차원분할표 시각화 예시

 

 

 

5. 심슨의 역설 (Simpson's Paradox)

- 여러 집합으로 나뉜 데이터를 종합했을 때 나타나는 역설적 현상

- 두 변수 간 긍정적 상관관계가 있을 수 있는데

  전체 데이터를 합쳤을 때는 부정적 상관관계가 나타나는 현상

- 참이라고도 거짓이라고도 할 수 없는 모순된 관계를 말함

 

- 원인

  ① 집단 간 비율 차이

  ② 혼합변수 : 두 변수 간 관계를 왜곡하는 제3의 변수 존재

  ③ 표본 크기 차이 : 집단 크기가 다르면 더 큰 집단의 영향을 받아, 다른 결론이 나올 수 있음

 

- 해결 : 데이터를 세분화하여 분석하거나 혼합변수 고려

 

 

 

 

 


 

 

 

 

2. 그래프 비교

 

1. 그래프 형태로 비교하기

← 1990년대 인구추이, 2020년대 인구추이 →

 

 

 

 

 


 

 

 

 

3. 산점도

 

 

1. 산점도

- 두 변수 간 관계를 시각적으로 표현하는 그래프

- 두 변수 간 직선관계가 어느 정도인지 나타내는 통계값

 

 

 

2. 산점도 행렬 (Scatter Matrix)

- 3개 이상의 각 변수 쌍의 산점도를 행렬 형태로 배열하여

  데이터 분포와 변수 간 상관관계를 동시에 볼 수 있음

- 변수 간 관계성(선형, 비선형) 확인

- 이상치 감지

산점도 행렬 예시

 

 

 

 

 

3. 시계열그림 (Time series plot)

- 데이터를 시간의 흐름에 따라 시각화하여

  시간에 따른 변화추이를 보여줌
- 데이터의 추세 분석

- 주기성(seasonality) 확인

- 이상치 탐지

 

- X 축 : 시간

- Y 축 : 측정값

- 라인 플롯(Line plot) : 데이터 포인트를 선으로 연결해 추이를 볼 수 있음

시계열그림 예시

 

 

 

 


 

 

4. 공분산과 상관계수

 

 

1. 표본공분산 (Sample covariance)

- 두 변수 간 관계를 측정하는 지표로,

  두 변수의 상관성을 나타냄

- cov > 0 : 양의 기울기

- cov < 0 : 음의 기울기

- cov ≈ 0 : 직선관계가 없는 산점도

 

 

 

2. 표본상관계수 (Coefficient of correlation)

- 표본공분산은 선형관계의 정도는 알 수 없지만,

  표본상관계수는 두 변수 간 선형관계의 강도와 방향을 알 수 있음

 

1 : 완전한 양의 상관관계

-1 : 완전한 음의 상관관계

0 : 상관관계 없음

 

 

 

3. 상관관계 주의점

- 상관관계가 높다고 해서 반드시 인과관계가 있는 건 아님

- 예를들어, 아이스크림 판매량과 익사 사고 상관관계는 높지만,

  둘 다 기온 상승이라는 공통원인 때문에 발생함

 

- 잠복변수(Lurking varaible) : 두 변수에 영향을 주는 변수지만, 분석이나 연구과정에서 직접 측정되지 않은 제3의 변수

- 허위상관(Spurious Correlation) : 두 변수 간 상관관계가 관찰되지만, 실제로는 인과관계가 없고 우연이나 잠복변수에 의해 나타나는 잘못된 상관관계

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

반응형