본문 바로가기
반응형

Data Science/statistics15

기초통계학 14 | 모평균 · 모분산 · 모비율 1. 모평균  1. 정규모집단 가정 : N(μ, σ²)- 정규분포를 따른다고 가정하는 것- 모집단이 정규분포를 따른다면, 표본크기가 작아도  신뢰할 수 있는 결과를 얻을 가능성이 높음- 데이터가 실제로 정규분포를 따르는지 확인하는 절차 필요   2. Student t-분포- 모집단의 분산(표준편차)를 모를 때  특히 작은 표본 크기에서 모집단 평균에 대한 추정이나  가설 검정을 수행할 때 사용하는 확률 분포- 정규분포와 유사하지만, 표본 크기가 작을수록 꼬리가 두꺼운 분포를 가짐  (극단값이 나올 확률이 높음)- 자유도(v)가 작을수록 꼬리가 두꺼움 (v = n - 1)- 표본크기가 커지면 정규분포에 가까워짐   3. 모평균 구간추정- 모집단 평균(μ)에 대해 표본 데이터를 바탕으로  모집단 평균이 포함.. 2025. 1. 11.
기초통계학 13 | 가설검정 · 검정통계량 · 유의수준 · 검정력 · 유의확률 1. 가설검정  1. 가설검정 (Testing Hypothesis)- 어떤 주장이 참인지 또는 주어진 데이터에 기반하여  특정한 결론을 도출할 수 있는지 판단하는 통계학적 방법   2. 가설 (Hypothesis)- 어떤 현상이나 관계에 대해 예측하는 논리적이고 검증가능한 주장이나 이론- '이렇게 될 것이다'라는 예측을 나타내는 것- 실험이나 연구로 검증할 수 있어야 함  ① 귀무가설 (Null Hypothesis, H₀)- 처음에 가정하는 가설로, '차이가 없다' 또는 '효과가 없다'는 주장을 담음 ex) 두 약물은 효과가 같다  ② 대립가설 (Alternative Hypothesis, H₁)- 실제로 차이가 있다는 것 또는 효과가 있다는 주장을 담음  ex) 두 약물의 효과는 다르다   3. 단측검정.. 2025. 1. 11.
기초통계학 12 | 통계적 추론 · 추정법 · 점추정량 · 구간추정 · 신뢰구간 1. 통계적 추론  1. 통계적 추론- 표본 데이터로 모집단에 대한 결론 도출 과정- 분포 가정 유무 / 모수 처리 방식 / 추론 목적로 통계적 추론 분류 가능   2. 분포 가정 유무에 따른 통계적 추론 분류  ① 모수적 추론 (Parametric Inference)- 모집단이 특정 확률분포를 따른다고 가정- 데이터가 적어도 정확한 추론 가능- 분포 가정이 맞지 않을 경우 신뢰성 저하- t-검정, ANOVA · · · ex) 정규분포 : 2개의 모수→ 평균 μ, 분산 σ²  ② 비모수적 추론 (Non-Parametric Inference)- 모집단의 분포에 대한 가정 없이 데이터 분석- 다양한 데이터에 유연하게 대응- 데이터 양이 많아야 정확도가 높아지고, 계산량이 많아질 수 있음- 순위(Rank), .. 2025. 1. 10.
기초통계학 11 | 표집분포 · 중심극한정리 · 이항분포의 정규근사 1. 표집분포  1. 표집분포 (Sampling Distribution)- 모집단에서 표본을 여러 번 추출하여 각 표본에서 계산된 통계량이 분포하는 모습을 나타냄   2. 표준오차 (Standard Error, SE)- 표본통계량의 표집분포의 표준편차   3. 지수족 (Exponential Family)- 확률분포의 일반화된 클래스로, 다양한 통계적 분포를 포함하며  모수 추정과 충분통계량 등의 중요한 특성을 가짐- 포아송분포, 이항분포 등 여러 분포를 포함   4. 큰수의 법칙 (Law of large number, 대수의 법칙)- 독립적인 확률변수의 평균이 표본의 크기가 커짐에 따라 모집단의 평균에 점점 가까워진다는 원리  즉, 샘플 크기가 커지면 샘플평균이 모집단의 평균에 수렴함      2. 중심.. 2025. 1. 7.
기초통계학 10 | 정규분포 · 확률표본 · 통계량 1. 정규분포  1. 정규분포 (Normal Distribution)- 연속형 확률분포- 선형변환된 정규확률변수도 정규분포를 따름- 정규확률변수의 선형결합도 정규분포를 따름 - 특징 ① 대칭성 : 평균을 중심으로 좌우가 대칭② 평균, 중앙값, 최빈값이 동일③ 연속성   2. 표준정규분포 (Standard Normal Distribution)- 정규분포의 특수한 형태로, 평균(μ)과 표준편차(σ)가 정규화된 분포  ① μ = 0 이고, σ² = 1 인 경우 ⇒ 0을 중심으로 대칭  ② 확률계산 (표준정규분포에서 특정 구간 내 확률을 구하는 일반적인 형태)   3. 정규분포의 표준화- 정규분포를 표준정규분포로 변환하는 과정- 정규분포에서 특정 값 위치를 평균과 표준편차 기준으로 나타낸 Z-점수로 변환하는 것.. 2025. 1. 7.
기초통계학 9 | 포아송분포 · 기하분포 · 음이항분포 · 다항분포 1. 포아송분포  1. 포아송분포 (Poisson Distribution)- 일정 시간이나 공간 내에서 드물게 발생하는 사건의 발생횟수를 모델링하는 확률분포- 사건이 독립적이고 평균발생률이 일정할 때 사용- 발생가능성이 희박한 사건을 다룰 때 사용      2. 기하분포  1. 기하분포 (Geometric Distribution)- 첫 성공이 나올 때까지 실패가 반복되는 시행에서  첫 성공이 나올 때까지의 실패 횟수를 모델링하는 이산형 확률분포- 각 시행은 독립적이고 성공확률이 일정한 베르누이 시행으로 구성됨   2. 무기억성 (Memoryless)- 현재 상태가 미래의 확률에 영향을 미치지 않는 특성- 기하분포는 무기억성을 가진 확률분포임  이미 실패한 횟수와 관계없이 다음 성공까지의 시행횟수는  여전.. 2025. 1. 7.
반응형