반응형 기초통계학7 기초통계학 18 | 회귀모형 · 잔차검진 1. 회귀모형의 형태 회귀모형- 독립변수와 종속변수 간 관계를 수식으로 나타낸 통계적 모델- 데이터를 분석하고 미래를 예측하거나 추정함회귀모형의 주요형태1) 선형회귀모형 (Linear Regression Model)- 독립변수가 1개이고, 종속변수와 독립변수 간 관계가 직선으로 표현됨2) 다중 회귀모형 (Multiple Linear Regression)- 여러 독립변수로 종속변수 설명적합회귀직선 (Fitted Regression Line)- 관찰된 데이터를 기반으로 회귀계수를 추정해 도출한 직선- 모집단의 실제 회귀직선을 근사하는 역할- 회귀계수 : 독립변수가 종속변수에 미치는 영향을 나타내는 값- 최소제곱법 : 관찰된 데이터와 적합회귀직선 간 오차를 최소화하는 방법- 잔차 : 관측값에서 예측값을 뺀 값.. 2025. 1. 19. 기초통계학 15 | 독립표본 · 대응표본 1. 독립표본 (Independent Sample) - 2개 이상의 표본이 서로 영향을 미치지 않음- 2개의 독립된 모집단에서 표본을 추출하여, 두 집단의 평균이나 비율 등을 비교함- 각 표본이 모집단을 잘 대표할 수 있어야 함 ex) 두 학교 (A학교, B학교)의 평균 시험 점수 비교 A학교 : 50명의 학생을 뽑아 평균점수 계산B학교 : 50명의 학생을 뽑아 평균점수 계산 표본 평균을 비교하여 두 학교의 시험 점수 차이가 통계적으로 유의미한지 확인 2. 대응표본 (=짝비교, Paired Sample) - 두 표본이 동일한 개체나 관련된 개체에서 추출됨- 같은 사람의 두 시점에 대한 데이터를 비교하거나, 동일한 대상을 두 가지 방법으로 평가- 주로 시간에 따른 변화나, 실험 전후 차이.. 2025. 1. 19. 기초통계학 11 | 표집분포 · 중심극한정리 · 이항분포의 정규근사 1. 표집분포 1. 표집분포 (Sampling Distribution)- 모집단에서 표본을 여러 번 추출하여 각 표본에서 계산된 통계량이 분포하는 모습을 나타냄 2. 표준오차 (Standard Error, SE)- 표본통계량의 표집분포의 표준편차 3. 지수족 (Exponential Family)- 확률분포의 일반화된 클래스로, 다양한 통계적 분포를 포함하며 모수 추정과 충분통계량 등의 중요한 특성을 가짐- 포아송분포, 이항분포 등 여러 분포를 포함 4. 큰수의 법칙 (Law of large number, 대수의 법칙)- 독립적인 확률변수의 평균이 표본의 크기가 커짐에 따라 모집단의 평균에 점점 가까워진다는 원리 즉, 샘플 크기가 커지면 샘플평균이 모집단의 평균에 수렴함 2. 중심.. 2025. 1. 7. 기초통계학 10 | 정규분포 · 확률표본 · 통계량 1. 정규분포 1. 정규분포 (Normal Distribution)- 연속형 확률분포- 선형변환된 정규확률변수도 정규분포를 따름- 정규확률변수의 선형결합도 정규분포를 따름 - 특징 ① 대칭성 : 평균을 중심으로 좌우가 대칭② 평균, 중앙값, 최빈값이 동일③ 연속성 2. 표준정규분포 (Standard Normal Distribution)- 정규분포의 특수한 형태로, 평균(μ)과 표준편차(σ)가 정규화된 분포 ① μ = 0 이고, σ² = 1 인 경우 ⇒ 0을 중심으로 대칭 ② 확률계산 (표준정규분포에서 특정 구간 내 확률을 구하는 일반적인 형태) 3. 정규분포의 표준화- 정규분포를 표준정규분포로 변환하는 과정- 정규분포에서 특정 값 위치를 평균과 표준편차 기준으로 나타낸 Z-점수로 변환하는 것.. 2025. 1. 7. 기초통계학 9 | 포아송분포 · 기하분포 · 음이항분포 · 다항분포 1. 포아송분포 1. 포아송분포 (Poisson Distribution)- 일정 시간이나 공간 내에서 드물게 발생하는 사건의 발생횟수를 모델링하는 확률분포- 사건이 독립적이고 평균발생률이 일정할 때 사용- 발생가능성이 희박한 사건을 다룰 때 사용 2. 기하분포 1. 기하분포 (Geometric Distribution)- 첫 성공이 나올 때까지 실패가 반복되는 시행에서 첫 성공이 나올 때까지의 실패 횟수를 모델링하는 이산형 확률분포- 각 시행은 독립적이고 성공확률이 일정한 베르누이 시행으로 구성됨 2. 무기억성 (Memoryless)- 현재 상태가 미래의 확률에 영향을 미치지 않는 특성- 기하분포는 무기억성을 가진 확률분포임 이미 실패한 횟수와 관계없이 다음 성공까지의 시행횟수는 여전.. 2025. 1. 7. 기초통계학 4 | 분할표 · 비교그림 · 산점도 · 공분산 · 상관계수 1. 분할표 (Cotingency table)- 2개 이상의 변수 간 관계를 표현- 각 변수 값에 따라 교차된 빈도를 나타내며, 범주형 데이터 간 관계를 분석할 때 사용 1. 분할표 (Cotingency table)- 2개 이상의 변수를 동시에 고려해 각각의 범주에 관측개체의 빈도를 정리한 교차표 (Cross tabulation) - 칸(Cell) : 각 범주에 교차되는 부분- 행(Row) : 하나의 변수의 범주들- 열(Column) : 또 다른 변수의 범주들흡연여부 \ 성별남여합계흡연503080비흡연120150270합계170180350 2. 비율(상대도수) 표시- 전체 중에서 특정 범주가 차지하는 비율- 비율은 분석목적 또는 자료 수집 방법에 따라 다르게 표시됨 3. 차이 또는 관련 여부.. 2025. 1. 4. 기초통계학 1 | 모집단 · 표본 · 표본추출방법 · 가중치 통계학- 데이터를 수집 · 분석 · 해석 · 표현하는 학문- 의사결정을 돕기 위해 데이터를 체계적으로 다루는 방법 연구- 연구, 비즈니스, 경제, 의료, 사회학 등 여러 분야에서 데이터 패턴을 파악하거나 미래예측, 문제해결 등 활용되고 있음 예시)Q. 동전을 100번 돌리면 앞면이 나올 확률은 60%일 것이다.A.예상 → 앞 : 뒤 = 60 : 40실제 → 앞 : 뒤 = 60 : 40통계학적 관점의 해석1. 예상 : 가설(문제, 주제)을 설정하여 관심의 대상을 정의 (앞면이 나올 확률은 60%)2. 실험 : 동전을 100번 던져서 데이터를 수집3. 실제 : 수집된 데이터를 정리하고 요약해 기대치와 비교4. 해석① 결과가 가설과 일치함 → 동전 앞면이 나올 확률이 약 60%② 일정 확률로 동전 던지기 반.. 2025. 1. 2. 이전 1 다음 반응형