본문 바로가기
데이터 사이언스

기초통계학 1 | 모집단, 표본, 표본추출방법, 가중치

by 잡레시피 2025. 1. 2.

 

 

 



  • 통계학
    - 데이터를 수집 · 분석 · 해석 · 표현하는 학문
    - 의사결정을 돕기 위해 데이터를 체계적으로 다루는 방법 연구
    - 연구, 비즈니스, 경제, 의료, 사회학 등 여러 분야에서
      데이터 패턴을 파악하거나 미래예측, 문제해결 등 활용되고 있음

 


예시)
Q. 동전을 100번 돌리면 앞면이 나올 확률은 60%일 것이다.

A.
예상 → 앞 : 뒤 = 60 : 40
실제 → 앞 : 뒤 = 60 : 40


통계학적 관점의 해석

1. 예상 : 가설(문제, 주제)을 설정하여 관심의 대상을 정의 (앞면이 나올 확률은 60%)

2. 실험 : 동전을 100번 던져서 데이터를 수집

3. 실제 : 수집된 데이터를 정리하고 요약해 기대치와 비교

4. 해석
① 결과가 가설과 일치함 → 동전 앞면이 나올 확률이 약 60%
② 일정 확률로 동전 던지기 반복 실험으로 얻어진 추정 결과

5. 결론
① 수집된 데이터 바탕의 결과에 대해 통계적으로 타당한 결론 도출
② 추가 실험과 검증으로 추정치의 신뢰도를 높일 수 있음

 

 

    • 모집단 (Population)
      - 잘 정의된 연구 목적과 연계된 명확한 연구 대상 설정
      - 연구대상이 되는 모든 개체의 집합

        ex) 한국에서 소비하는 커피 종류 파악 → 모집단 : 한국에 거주하는 모든 커피 소비자
        ex) 중학생의 평균 키를 조사 → 모집단 : 조사 대상이 되는 학교에 재학 중인 모든 학생



    • 전수조사
      - 모집단 전체를 대상으로 조사

        ex) 한 나라의 모든 가구의 소득 조사
        ex) 전체 공장의 모든 제품에 대한 품질 조사
       
      - 대부분의 모집단은 매우 크기 때문에, 전체를 조사하기 힘듬
        ⸫ 일부 자료를 적절히 추출해서 조사

        ex) 한 공장에서 생산된 모든 제품을 검사하기 힘들어, 일부 샘플을 선택해 품질 검사


    • 표본 (Sample)
      - 모집단에서 선택된 일부 개체

        ex) 전국 고등학생 대상 조사에서 1,000명의 학생만 선정해 조사하는 경우, 그 1,000명의 학생
        ex) 한 공장에서 생산된 10,000개의 제품 중 10개만 뽑아 품질 검사하는 경우, 그 10개의 제품


    • 표본 추출 방법 ( 확률표본추출 / 비확률표본추출 )


      • 확률표본추출 (Probability Sampling)
        - 모든 표본의 선정확률 알 수 있음
        - 표본이 모집단을 잘 대표할 가능성을 높임
        - 통계적으로도 유의미한 결과 도출 가능
        - 추정오차를 특정표본 선정확률의 확률개념을 이용해 과학적으로 설명 가능
        - 표본추출틀(Sampling frame, 표집틀) 필요


        1. 단순확률추출 (SRS, Simple Random Sampling)
          - 모집단의 각 개체가 동일 확률로 선택되도록 추출
          - 표본이 모집단을 잘 대표할 가능성을 높임

          ex) 고등학교 1,000명의 전체 학생 중 무작위로 100명 선정


        2. 층화 추출 (Stratified Sampling)
          - 모집단을 중복되지 않는 여러 하위 그룹(층)으로 나누고,
            각 층에서 독립적으로 무작위로 표본 추출
          - 모집단의 중요한 특성 반영 가능
          - 각 층의 비율에 맞게 추출하고,
            비율이 맞지 않으면 가중치 반영

          ex) 1,000명의 학생을 [성별 / 학년 / 지역] 등을 기준으로 여러 층으로 나누고, 각 층에서 무작위로 선정


        3. 집락 추출 ( = 군집 표집) (Cluster Sampling)
          - 모집단을 몇 개의 집락으로 나누고, (유사한 것 끼리)
            집락 내에서 무작위로 표본 추출
          - 표집틀 확보 쉬움


          ex) 한 지역에서 몇 개의 학교를 무작위로 선택하고, 선택된 학교 내에서 학생 선정


        4. 체계적 추출 ( = 계통표본추출) (Systematic sampling)
          - 모집단에서 일정 간격으로 표본 추출
          - 모집단 내에 규칙성이 있는 경우, 편향될 수 있음
          - 표집틀이 없어서 고유번호를 부여하거나, 난수가 발생하는 등
            단순확률추출법을 적용하기 어려운 현실에서 폭 넓게 사용
          - 추출과정
            ① 추출간격 k 결정 (정확도 고려)
            ② 1 ~ k 에서 난수를 1개 선택하여 시작점 선정
            ③ 시작점에 k를 반복적으로 더해서 표본 추출

          ex) 10,000개의 제품을 100개의 간격으로 제품 선정

      • 비확률표본추출 (Non-probability Sampling)
        - 특정 표본의 선정확률 알 수 없음
        - 편의성이 높고 시간과 비용 절감 가능
        - 특정 특성을 가진 집단을 연구할 때 유용함
        - 표본이 모집단을 잘 대표하지 않을 수 있음
        - 표본이 편향될 수 있음
        - 확률 추출법에 비해 표본의 통계적 정확도가 떨어져, 통계적 정확성 결여


        1. 할당추출 (Quota Sampling)
          - 모집단을 특성에 따라 구분하고 각각 일정 수의 표본을 추출
          - 비확률적 표본추출 방법으로, 모집단을 대표할 수 있지만, 무작위성은 없음

          ex) 모집단이 여성 60% 남성 40%로 구성되어있다면, 표본도 여성 60%, 남성 40%씩 할당하여 추출


        2. 편의추출 (Convenience Sampling)
          - 연구자가 접근하기 쉽고 편리한 대상을 표본으로 선택
          - 비용이나 시간 최소화
          - 표본이 모집단을 잘 대표하지 않을 가능성이 높음
          - 표본이 편향될 수 있음

          ex) 길거리 설문조사


        3. 유의추출 (Judgmental Sampling)
          - 연구자 자신의 판단에 따라 중요한 개체나 대표적인 개체를 선택해서 표본 추출
          - 주관적이기 때문에 편향될 수 있음
          - 특정 집단에 대한 깊이 있는 정보나 개체를 쉽게 선택 가능
          - 표본이 모집단을 대표하기 어려운 때가 많음

          ex) 특정 분야의 전문가나 특정 연령대, 직업군의 사람들을 의도적으로 선정하여 설문조사


    • 목표모집단 (Target Population)
      - 연구자가 특정 연구나 조사에서 다루고자 하는 대상의 전체 집단
      - 연구 목적이나 조사 질문에 맞춰 정의된 모집단으로,
        연구자가 관심을 두고 있는 전체집단 

      ex) 전국의 고등학생을 대상으로 하는 연구 → 목표모집단 : 전국의 고등학생



    • 조사모집단 (Survey Population)
      - 연구자가 실제로 데이터를 수집할 수 있는 집단
        (⸪ 시간, 비용, 조건 등 현실적인 제약을 받음)
      - 표본추출틀(Sampling Frame)로 추출가능한 기본단위들의 집합

      ex) 전국의 고등학생을 목표로 조사하지만, 시간 때문에 서울에 있는 고등학교의 학생만을 조사하는 경우 → 조사모집단 : 서울에 있는 고등학교 학생



    • 가중치 (Weight)
      - 특정 데이터가 전체 분석에서 차지하는 비중
      - 결과의 정확도를 높일 수 있는 핵심요소
      - 부모집단(Subpopulation)들의 표본 추출량 차이로 나타나는
        왜곡된 결과 방지 가능

      • 추출확률에 따른 가중치 : w₁
        - 각 표본의 선택될 확률이 다를 경우,
          분석결과를 공정하게 만들기 위함

        - w₁ = 1 / 추출률


      • 무응답에 따른 가중치 : w₂
        - 대체 표본이 없거나 응답률이 낮아 발생하는
          대표성 부족을 보정하기 위함

        - w₂ = 모집단에서 해당 그룹의 비율 / 응답자 중 해당 그룹의 비율


      • 사후층화를 위한 가중치 : w₃
        - 조사에서 모집단 비율과 표본의 비율이 다를 때,
          이를 보정하기 위해 사용하는 숫자

        - w₃ = 모집단비율 / 표본비율


      • 최종가중치 (Final Weight) : wf
        - 여러 가중치를 종합 반영하여 
          결과를 모집단과 최대한 일치하도록 조정한 값

        - wf = w₁ × w₂ × w₃
          최종가중치 = 추출확률 가중치 × 무응답 가중치 × 층화 가중치

 

 

반응형