기초통계학 2 | 자료 분류와 특성, 범주형 자료, 수치자료

1. 자료 특성

통계분석 방법
- 데이터를 분석할 때, 어떤 데이터를 가지고 있는지(속성)과
무엇을 알고 싶은지(목적)에 따라 적합한 방법을 선택해야함
자료 속성
1. 질적자료 (Qualitative)
  - 숫자가 아닌 범주형 데이터
  - 분석방법 : 빈도분석, 교차분석 등
  
  ex) 성별, 색상
2. 양적자료 (Quantitative)
  - 숫자로 측정되는 데이터
  - 분석방법 : 평균, 분산, 상관분석 등
  
  ex) 키, 몸무게
변수 (Variable)
- 변할 수 있는 값
- 데이터의 속성
1. 독립변수 (Independent Variable)
  - 다른 변수에 영향을 주는 변수
  - 원인 또는 조건
2. 종속변수 (Dependent Variable)
  - 독립변수에 영향을 받는 변수
  - 결과 또는 반응
  
  ex) 공부시간(독립변수)이 시험점수(종속변수)에 영향을 줌
3. 질적변수 (Qualitative Variable)
  - 범주를 나타냄
  
  ex) 성별, 혈액형
4. 양적변수 (Quantitative Variable)
  - 값이 숫자이며, 계산 가능
  
  ex) 키, 시험점수
5. 일변량자료 (Univariate data)
  - 1개의 변수만 있는 자료
  - 분석 목적 : 분포, 중앙값, 표준편차, 최댓값, 최솟값, 범위
  - 시각화 : 히스토그램, 막대그래프, 상자그림(Box Plot) · · ·
  
  ex) 학생들의 키 데이터 : 150㎝ | 160㎝ | 170㎝ | 165㎝
  분석 목적 : 평균 키 계산 또는 가장 키가 큰 학생 찾기
6. 다변량자료 (Multivariate data)
  - 2개 이상의 변수로 구성된 자료
  - 분석 목적 : 각 변수 간 관계나 패턴
  - 시각화 : 산점도, 다차원 그래프 · · ·
  
  ex) A학생 : 160㎝, 50㎏
  분석 목적 : 키와 체중의 상관관계 분석
7. 관측개체 ( = 관측값(치) (Observation)
  - 데이터를 수집하는 기본 단위
  - 각 개체는 1개 이상의 변수값 가짐
  
  ex) 학생 설문조사에서 관측개체 : 학생 1명

2. 자료의 분류

자료 (Data)	→	범주형 자료 (Categorial data)	⇒	명목자료 (Nominal data)
					⇒	순서자료 (Ordinal data)
			→	수치자료 (Numerical data)			⇒	이산자료 (Discrete data)
							⇒	연속자료 (continuous data)

범주형 자료 (Categorial data)
- 몇가지 그룹으로 나누는 데이터
- 숫자가 아닌 특정 이름이나 상태를 나타냄
- 데이터의 분포를 분석하거나 그룹 간 차이를 비교
1. 명목형 자료 (Nominal data)
  - 순서가 없는 범주
  
  ex) 성별, 혈액형, 출생지
2. 서열형 자료 ( = 순서자료) (Ordinal data)
  - 순서는 있지만, 간격이 일정하지 않음
  - 범주의 순서로 상대비교 가능
  - 범주화로 수치자료를 순서자료로 바꿈
  
  ex) 설문조사 만족도(만족/보통/불만족), 학점(A/B/C/D), 비만도(저체중/정상/과체중)
수치자료 (Numerical data)
- 데이터를 숫자 형태로 나타낸 자료
- 수량적 의미를 갖고, 계산과 통계적 분석에 사용가능
- 이산자료 (Discrete data)
  - 값이 정수로 표현되어, 셀 수 있는 자료 (Countable data)
  
  ex) 교통사고 건수, 자녀의 수, 발생빈도
- 연속자료 (Continuous data)
  - 값이 연속적으로 나타남
  - 대부분 이산화를 통해 절사된 형태임
  - 척도에 따라 명목, 순서, 구간, 비율척도로 나눔
  
  ex) 키, 시간

3. 수치자료 정리

도수분포표 (Frequency table)
- 데이터 값이 얼마나 자주 등장하는지 요약한 표
- 데이터 분포를 쉽게 파악할 수 있도록 도와줌

- 도수 ( = 빈도) (Frequency) : 범주에 속한 관측개체의 수

- 상대도수 (Relative Frequency) : 전체 자료 중 해당 범주에 속한 자료의 비율
상대도수 = 해당범주의 관측개체 수 / 전체 관측개체 수

ex)
① 데이터 : 학생 20명의 시험 점수 : 72, 85, 88, 75, 90, 68, 80, 85, 78, 92, 88, 77, 83, 85, 90, 72, 88, 74, 81, 79

② 도수분포표

점수 구간도수 (Frequency) 상대도수 (%) 누적도수

60-69 1 5% 1

70-79 8 40% 9

80-89 8 40% 17

90-99 3 15% 20

원도표 (Pie Chart)
- 데이터를 원형 모양으로 각 항목의 비율을 시각화함
- 각 영역의 크기는 비율에 비례함

막대그래프 (Bar Chart)
- 각 항목이나 범주의 도수나 상대도수를 막대의 길이로 해당 값 표현
- 비교가 용이함

- x축은 범주
- y축은 빈도나 값

ex) 여러 제품의 판매량 비교, 여러 국가의 인구 수 비교

점도표 (Dot plot)
- 각 데이터를 점으로 표현하여 데이터 분포를 나타냄
- 각 관측값 위치에 점을 표시하고,
같은 관측값은 위로 누적

히스토그램 (Histogram)
- 연속형 데이터의 분포로 밀도추정을 시각화하는 그래프
- 데이터를 계급(Class)로 나누고,
각 계급에 속한 데이터의 빈도를 막대 높이로 나타냄
- 막대그래프와는 x축의 의미가 다르고, 막대의 순서는 임의적임
- 막대 사이에 간격이 없으며, 막대는 연속적 순서임
- 구간 설정에 따라 모양이 조금씩 달라짐

- x축 : 계급 (데이터범위) = 연속적인 값의 구간
- y축 : 빈도 (계급에 속한 데이터의 수)

줄기-잎 그림 (Stem-and-leaf plot)
- 각 데이터를 분해하여 숫자를 줄기와 잎으로 나타냄

- 줄기 (Stem) : 주로 10의 자리나 큰 자리 값
- 잎 (Leaf) : 주로 1의 자리나 작은 자리 값

상자그림 (Box Plot)
- 중앙값, 사분위수, 최소값, 최대값을 한눈에 볼 수 있고,
이상치(Outlier)를 확인하는데 유용함
- 개별 값을 볼 수 없어서 전체 데이터를 확인할 때는 불편함

- 상자 : 데이터의 중간을 나타내는 사분위수 범위
- 중앙값 : 데이터의 중앙값은 상자 내부에서 수평선으로 표시
- 수염 (Whisker) : 데이터의 최소값과 최대값을 나타내며, 상자 외부로 뻗어있는 선
- 이상치 (Outlier) : 수염 외에 위치한 값

범주화
- 데이터를 특징에 따라 집단으로 나누는 것
- 계급(Class)의 수와 경계값(크기) 결정
- 복잡한 데이터를 간단하게 요약가능
- 서로 다른 항목을 비교하거나 분석이 쉬움

- 계급(Class) : 연속형 데이터를 일정구간으로 나눈 범주
- 경계값(Boundary) : 각 계급을 구분하는 값
- 계급의 수 결정
  1. 제곱근 방법
    - 간단하고 빠르게 계급 수 결정 가능
    
    - 공식 : k = √n ( k = 계급 수, n = 데이터 개수)
  2. Sturges 공식
    - n이 증가해도 계급 수가 급격히 늘어나지 않도록 설계
    - 데이터가 정규분포를 따른다는 가정을 기반
    
    - 공식 : k = 1 + 3.322 log10(n)
  3. Rice 공식
    - 데이터 개수가 많을수록 더 많은 계급 수 제안
    - 데이터가 대규모일 때 적합
- 계급의 경계
  - 간격(크기)와 시작점과 끝점 지정
  - 기본은 동일 간격
  - 자료의 구조와 설명을 고려해 선택
  
  - 계급의 경계 설정법
  1. 최소값과 최대값
    - 데이터의 최소값(min)과 최대값(Max) 구함
    
    ex) 데이터 {12, 18, 24, 35}
    → 최소값 : 12
    → 최대값 : 35
  2. 계급 크기 결정
    - 계급 크기 h = (최대값 - 최소값) / 계급 수
  3. 계급 경계값 설정
    - 첫 계급의 하한은 최소값
    - 이후 각 계급의 경계를 계급 크기만큼 증가시킴

저작자표시 비영리 변경금지

'데이터 사이언스' 카테고리의 다른 글

기초통계학 4 \| 분할표, 비교그림, 산점도, 공분산 & 상관계수 (0)	2025.01.04
기초통계학 3 \| 자료의 중심위치, 산포, 분포 형태 분석 (0)	2025.01.04
기초통계학 1 \| 모집단, 표본, 표본추출방법, 가중치 (3)	2025.01.02
수리통계학 \| 기초 용어 개념 정리 (2)	2024.12.30
데이터 분석과 코딩 \| 무료 플랫폼 (2)	2024.12.28

취준맛집

기초통계학 2 | 자료 분류와 특성, 범주형 자료, 수치자료

1. 자료 특성

2. 자료의 분류

3. 수치자료 정리

'데이터 사이언스' 카테고리의 다른 글

티스토리툴바

점수	구간도수 (Frequency)	상대도수 (%)	누적도수
60-69	1	5%	1
70-79	8	40%	9
80-89	8	40%	17
90-99	3	15%	20

기초통계학 2 | 자료 분류와 특성, 범주형 자료, 수치자료

1. 자료 특성

2. 자료의 분류

3. 수치자료 정리

'데이터 사이언스' 카테고리의 다른 글

관련글

티스토리툴바