본문 바로가기
데이터 사이언스

기초통계학 2 | 자료 분류와 특성, 범주형 자료, 수치자료

by 잡레시피 2025. 1. 3.

 

 

 

 

 

1. 자료 특성

 

 

  • 통계분석 방법
    - 데이터를 분석할 때, 어떤 데이터를 가지고 있는지(속성)과
      무엇을 알고 싶은지(목적)에 따라 적합한 방법을 선택해야함


  • 자료 속성

    1. 질적자료 (Qualitative)
      - 숫자가 아닌 범주형 데이터
      - 분석방법 : 빈도분석, 교차분석 등

      ex) 성별, 색상

    2. 양적자료 (Quantitative)
      - 숫자로 측정되는 데이터
      - 분석방법 : 평균, 분산, 상관분석 등

      ex) 키, 몸무게



  • 변수 (Variable)
    - 변할 수 있는 값
    - 데이터의 속성


    1. 독립변수 (Independent Variable)
      - 다른 변수에 영향을 주는 변수
      - 원인 또는 조건


    2. 종속변수 (Dependent Variable)
      - 독립변수에 영향을 받는 변수
      - 결과 또는 반응

      ex) 공부시간(독립변수)이 시험점수(종속변수)에 영향을 줌


    3. 질적변수 (Qualitative Variable)
      - 범주를 나타냄

      ex) 성별, 혈액형


    4. 양적변수 (Quantitative Variable)
      - 값이 숫자이며, 계산 가능

      ex) 키, 시험점수


    5. 일변량자료 (Univariate data)
      - 1개의 변수만 있는 자료
      - 분석 목적 : 분포, 중앙값, 표준편차, 최댓값, 최솟값, 범위
      - 시각화 : 히스토그램, 막대그래프, 상자그림(Box Plot) · · ·

      ex) 학생들의 키 데이터 : 150㎝  |  160㎝  |  170㎝  |  165㎝
      분석 목적 : 평균 키 계산 또는 가장 키가 큰 학생 찾기


    6. 다변량자료 (Multivariate data)
      - 2개 이상의 변수로 구성된 자료
      - 분석 목적 : 각 변수 간 관계나 패턴
      - 시각화 : 산점도, 다차원 그래프 · · ·

      ex) A학생 : 160㎝, 50㎏
      분석 목적 : 키와 체중의 상관관계 분석


    7. 관측개체 ( = 관측값(치) (Observation)
      - 데이터를 수집하는 기본 단위
      - 각 개체는 1개 이상의 변수값 가짐

      ex) 학생 설문조사에서 관측개체 : 학생 1명

 


 

 

 

2. 자료의 분류


자료
(Data)
범주형 자료
(Categorial data)
명목자료
(Nominal data)
순서자료
(Ordinal data)



수치자료
(Numerical data)


이산자료
(Discrete data)
연속자료
(continuous data)

 

 

 

  • 범주형 자료 (Categorial data)
    - 몇가지 그룹으로 나누는 데이터
    - 숫자가 아닌 특정 이름이나 상태를 나타냄
    - 데이터의 분포를 분석하거나 그룹 간 차이를 비교


    1. 명목형 자료 (Nominal data)
      - 순서가 없는 범주

      ex) 성별, 혈액형, 출생지

    2. 서열형 자료 ( = 순서자료) (Ordinal data)
      - 순서는 있지만, 간격이 일정하지 않음
      - 범주의 순서로 상대비교 가능
      - 범주화로 수치자료를 순서자료로 바꿈

      ex) 설문조사 만족도(만족/보통/불만족), 학점(A/B/C/D), 비만도(저체중/정상/과체중)



  • 수치자료 (Numerical data)
    - 데이터를 숫자 형태로 나타낸 자료
    - 수량적 의미를 갖고, 계산과 통계적 분석에 사용가능


    • 이산자료 (Discrete data)
      - 값이 정수로 표현되어, 셀 수 있는 자료 (Countable data)

      ex) 교통사고 건수, 자녀의 수, 발생빈도


    • 연속자료 (Continuous data)
      - 값이 연속적으로 나타남
      - 대부분 이산화를 통해 절사된 형태임
      - 척도에 따라 명목, 순서, 구간, 비율척도로 나눔

      ex) 키, 시간

 


 

 

 

3. 수치자료 정리

 

 

  • 도수분포표 (Frequency table)
    - 데이터 값이 얼마나 자주 등장하는지 요약한 표
    - 데이터 분포를 쉽게 파악할 수 있도록 도와줌

    - 도수 ( = 빈도) (Frequency) : 범주에 속한 관측개체의 수

    - 상대도수 (Relative Frequency) : 전체 자료 중 해당 범주에 속한 자료의 비율
      상대도수 = 해당범주의 관측개체 수 / 전체 관측개체 수

    ex) 
    ① 데이터 : 학생 20명의 시험 점수 : 72, 85, 88, 75, 90, 68, 80, 85, 78, 92, 88, 77, 83, 85, 90, 72, 88, 74, 81, 79

    ② 도수분포표

    점수 구간도수 (Frequency) 상대도수 (%) 누적도수
    60-69 1 5% 1
    70-79 8 40% 9
    80-89 8 40% 17
    90-99 3 15% 20




  • 원도표 (Pie Chart)
    - 데이터를 원형 모양으로 각 항목의 비율을 시각화함
    - 각 영역의 크기는 비율에 비례함

 

 



 

  • 막대그래프 (Bar Chart)
    - 각 항목이나 범주의 도수나 상대도수를 막대의 길이로 해당 값 표현
    - 비교가 용이함

    - x축은 범주
    - y축은 빈도나 값

    ex) 여러 제품의 판매량 비교, 여러 국가의 인구 수 비교


막대 그래프 예시

 

 

 

  • 점도표 (Dot plot)
    - 각 데이터를 점으로 표현하여 데이터 분포를 나타냄
    - 각 관측값 위치에 점을 표시하고,
      같은 관측값은 위로 누적

점도표 그래프 예시

 

 

 

  • 히스토그램 (Histogram)
    - 연속형 데이터의 분포로 밀도추정을 시각화하는 그래프
    - 데이터를 계급(Class)로 나누고, 
      각 계급에 속한 데이터의 빈도를 막대 높이로 나타냄
    - 막대그래프와는 x축의 의미가 다르고, 막대의 순서는 임의적임
    - 막대 사이에 간격이 없으며, 막대는 연속적 순서임
    - 구간 설정에 따라 모양이 조금씩 달라짐

    - x축 : 계급 (데이터범위) = 연속적인 값의 구간
    - y축 : 빈도 (계급에 속한 데이터의 수)

 

히스토그램 그래프 예시

 

 

  • 줄기-잎 그림 (Stem-and-leaf plot)
    - 각 데이터를 분해하여 숫자를 줄기와 잎으로 나타냄

    - 줄기 (Stem) : 주로 10의 자리나 큰 자리 값
    - 잎 (Leaf) : 주로 1의 자리나 작은 자리 값


  • 상자그림 (Box Plot)
    - 중앙값, 사분위수, 최소값, 최대값을 한눈에 볼 수 있고,
      이상치(Outlier)를 확인하는데 유용함
    - 개별 값을 볼 수 없어서 전체 데이터를 확인할 때는 불편함

    - 상자 : 데이터의 중간을 나타내는 사분위수 범위
    - 중앙값 : 데이터의 중앙값은 상자 내부에서 수평선으로 표시
    - 수염 (Whisker) : 데이터의 최소값과 최대값을 나타내며, 상자 외부로 뻗어있는 선
    - 이상치 (Outlier) : 수염 외에 위치한 값

상자그림 그래프 예시

 

 

 

 

  • 범주화
    - 데이터를 특징에 따라 집단으로 나누는 것
    - 계급(Class)의 수와 경계값(크기) 결정
    - 복잡한 데이터를 간단하게 요약가능
    - 서로 다른 항목을 비교하거나 분석이 쉬움

    - 계급(Class) : 연속형 데이터를 일정구간으로 나눈 범주
    - 경계값(Boundary) : 각 계급을 구분하는 값


    • 계급의 수 결정

      1. 제곱근 방법
        - 간단하고 빠르게 계급 수 결정 가능

        - 공식 : k = √n  ( k = 계급 수, n = 데이터 개수)


      2. Sturges 공식
        - n이 증가해도 계급 수가 급격히 늘어나지 않도록 설계
        - 데이터가 정규분포를 따른다는 가정을 기반

        - 공식 : k = 1 + 3.322 log10(n)


      3. Rice 공식
        - 데이터 개수가 많을수록 더 많은 계급 수 제안
        - 데이터가 대규모일 때 적합
    • 계급의 경계
      - 간격(크기)와 시작점과 끝점 지정
      - 기본은 동일 간격
      - 자료의 구조와 설명을 고려해 선택

      - 계급의 경계 설정법

      1. 최소값과 최대값
        - 데이터의 최소값(min)과 최대값(Max) 구함

        ex) 데이터 {12, 18, 24, 35}
        → 최소값 : 12
        → 최대값 : 35


      2. 계급 크기 결정
        -  계급 크기 h = (최대값 - 최소값) / 계급 수


      3. 계급 경계값 설정
        - 첫 계급의 하한은 최소값
        - 이후 각 계급의 경계를 계급 크기만큼 증가시킴



       

 

 

 

 

 

 

 

 

 

 

 

 

 

 

반응형