1. 분할표 (Cotingency table)
- 2개 이상의 변수 간 관계를 표현
- 각 변수 값에 따라 교차된 빈도를 나타내며, 범주형 데이터 간 관계를 분석할 때 사용
1. 분할표 (Cotingency table)
- 2개 이상의 변수를 동시에 고려해
각각의 범주에 관측개체의 빈도를 정리한 교차표 (Cross tabulation)
- 칸(Cell) : 각 범주에 교차되는 부분
- 행(Row) : 하나의 변수의 범주들
- 열(Column) : 또 다른 변수의 범주들
흡연여부 \ 성별 | 남 | 여 | 합계 |
흡연 | 50 | 30 | 80 |
비흡연 | 120 | 150 | 270 |
합계 | 170 | 180 | 350 |
2. 비율(상대도수) 표시
- 전체 중에서 특정 범주가 차지하는 비율
- 비율은 분석목적 또는 자료 수집 방법에 따라 다르게 표시됨
3. 차이 또는 관련 여부 확인
- 두 변수가 차이나 관련성이 있는지 확인하는 방법은
주로 카이제곱 검정(Chi-square test)을 사용함
- 카이제곱 검정은 분하라표에서 관찰된 값과 기대값이
얼마나 차이나는지 비교하여 두 변수 간 독립적인지(차이가 없고 관계가 없는지),
아니면 의존적인지(차이가 있고 관계가 있는지) 판단함
4. k차원 분할표 (k-dimensional contingency table)
- 2차원 이상의 여러 범주형 변수 간 관계를 동시에 분석하는
확장된 형태의 분할표
- k개의 범주형 변수가 결합된 데이터를
여러 차원으로 나타낸 표
- 주로 다변량 분석할 때 사용
성별\흡연,나이 | 흡연O/20대 | 흡연X/20대 | 흡연O/30대 | 흡연X/30대 | 흡연O/40대 | 흡연X/40대 | 합계 |
남성 | 10 | 40 | 15 | 35 | 25 | 25 | 150 |
여성 | 5 | 45 | 10 | 40 | 20 | 30 | 150 |
합계 | 15 | 85 | 25 | 75 | 45 | 55 | 300 |
→ 성별, 흡연 여부, 나이대라는 3가지 변수로 각각 교차하는 분포 나타냄
5. 심슨의 역설 (Simpson's Paradox)
- 여러 집합으로 나뉜 데이터를 종합했을 때 나타나는 역설적 현상
- 두 변수 간 긍정적 상관관계가 있을 수 있는데
전체 데이터를 합쳤을 때는 부정적 상관관계가 나타나는 현상
- 참이라고도 거짓이라고도 할 수 없는 모순된 관계를 말함
- 원인
① 집단 간 비율 차이
② 혼합변수 : 두 변수 간 관계를 왜곡하는 제3의 변수 존재
③ 표본 크기 차이 : 집단 크기가 다르면 더 큰 집단의 영향을 받아, 다른 결론이 나올 수 있음
- 해결 : 데이터를 세분화하여 분석하거나 혼합변수 고려
2. 그래프 비교
1. 그래프 형태로 비교하기
3. 산점도
1. 산점도
- 두 변수 간 관계를 시각적으로 표현하는 그래프
- 두 변수 간 직선관계가 어느 정도인지 나타내는 통계값
2. 산점도 행렬 (Scatter Matrix)
- 3개 이상의 각 변수 쌍의 산점도를 행렬 형태로 배열하여
데이터 분포와 변수 간 상관관계를 동시에 볼 수 있음
- 변수 간 관계성(선형, 비선형) 확인
- 이상치 감지
3. 시계열그림 (Time series plot)
- 데이터를 시간의 흐름에 따라 시각화하여
시간에 따른 변화추이를 보여줌
- 데이터의 추세 분석
- 주기성(seasonality) 확인
- 이상치 탐지
- X 축 : 시간
- Y 축 : 측정값
- 라인 플롯(Line plot) : 데이터 포인트를 선으로 연결해 추이를 볼 수 있음
4. 공분산과 상관계수
1. 표본공분산 (Sample covariance)
- 두 변수 간 관계를 측정하는 지표로,
두 변수의 상관성을 나타냄
- cov > 0 : 양의 기울기
- cov < 0 : 음의 기울기
- cov ≈ 0 : 직선관계가 없는 산점도
2. 표본상관계수 (Coefficient of correlation)
- 표본공분산은 선형관계의 정도는 알 수 없지만,
표본상관계수는 두 변수 간 선형관계의 강도와 방향을 알 수 있음
1 : 완전한 양의 상관관계
-1 : 완전한 음의 상관관계
0 : 상관관계 없음
3. 상관관계 주의점
- 상관관계가 높다고 해서 반드시 인과관계가 있는 건 아님
- 예를들어, 아이스크림 판매량과 익사 사고 상관관계는 높지만,
둘 다 기온 상승이라는 공통원인 때문에 발생함
- 잠복변수(Lurking varaible) : 두 변수에 영향을 주는 변수지만, 분석이나 연구과정에서 직접 측정되지 않은 제3의 변수
- 허위상관(Spurious Correlation) : 두 변수 간 상관관계가 관찰되지만, 실제로는 인과관계가 없고 우연이나 잠복변수에 의해 나타나는 잘못된 상관관계
'데이터 사이언스' 카테고리의 다른 글
기초통계학 7 | 확률변수, 확률질량함수, 확률밀도함수, 기댓값 (0) | 2025.01.06 |
---|---|
기초통계학 3 | 자료의 중심위치, 산포, 분포 형태 분석 (0) | 2025.01.04 |
기초통계학 2 | 자료 분류와 특성, 범주형 자료, 수치자료 (0) | 2025.01.03 |
기초통계학 1 | 모집단, 표본, 표본추출방법, 가중치 (3) | 2025.01.02 |
수리통계학 | 기초 용어 개념 정리 (2) | 2024.12.30 |