Data Science/statistics (20) 썸네일형 리스트형 기초통계학 19 | 다중공선성 · 상대적 영향력 · 변수선택 1. 다중공선성 (Multicollinearity)- 다중회귀분석에서 독립변수들 간 강한 선형적 관계가 존재할 때 발생하는 문제- 2개 이상의 독립변수가 서로 매우 높은 상관관계를 가지면, 모델이 각 변수의 개별적인 효과를 정확히 추정하기 어려워짐 다중공선성 존재시, 문제점1) 회귀계수의 불안정성- 작은 데이터 변화에도 큰 변동 발생할 수 있음2) 중요하다고 생각되는 변수가 유의하게 나오지 않음3) 추정된 회귀계수의 값이나 부호가 상식적이지 않음다중공선성 확인 방법1) 상관행렬- 독립변수들 간 상관계수를 구하여 두 변수 간 상관관계가 매우 높은지 확인- 상관계수가 0.9 이상이면, 강한 다중공선성 의심2) 분산팽창계수 (VIF, Variance Inflation Factor)- 각 독립변수가 다른 독립.. 기초통계학 18 | 회귀모형 · 잔차검진 1. 회귀모형의 형태 회귀모형- 독립변수와 종속변수 간 관계를 수식으로 나타낸 통계적 모델- 데이터를 분석하고 미래를 예측하거나 추정함회귀모형의 주요형태1) 선형회귀모형 (Linear Regression Model)- 독립변수가 1개이고, 종속변수와 독립변수 간 관계가 직선으로 표현됨2) 다중 회귀모형 (Multiple Linear Regression)- 여러 독립변수로 종속변수 설명적합회귀직선 (Fitted Regression Line)- 관찰된 데이터를 기반으로 회귀계수를 추정해 도출한 직선- 모집단의 실제 회귀직선을 근사하는 역할- 회귀계수 : 독립변수가 종속변수에 미치는 영향을 나타내는 값- 최소제곱법 : 관찰된 데이터와 적합회귀직선 간 오차를 최소화하는 방법- 잔차 : 관측값에서 예측값을 뺀 값.. 기초통계학 17 | 분산분석표 · 분산분석 검진 · 다중비교 · 선형대비 1. 분산분석표 - 분산분석(ANOVA) 결과를 요약한 표- 각 원천(요인, 오차 등)에서의 변동을 분석하여 통계적 유의성 평가함 변인자유도제곱합평균제곱F-통계량처리(모형)p - 1SSTRMSTRMSTR/MSE오차N - pSSEMSE 전체N - 1TSS 2. 분산분석 검진 - 2개 이상의 그룹 간 평균 차이가 통계적으로 유의적인지 확인하는 방법 Hartley 검정 - 등분산성(모든 그룹의 분산이 같다는 가정)을 확인하는 방법으로, 여러 그룹 간 분산이 동일한지 여부를 판단- 특히 일원배치 분산분석(ANOVA) 전에 각 그룹의 분산이 같은지 확인할 때 유용함- 각 그룹의 분산을 비교하여 가장 큰 분산값과 가장 작은 분산값의 비율을 계산함Bartlett 검정- 여러 그룹 간 등분산성을 .. 기초통계학 16 | 분산분석 용어와 개념 · 고정효과모형 · 변량효과모형 1. 분산분석 (Analysis of Variance, ANOVA)- 3개 이상의 그룹 간 평균 차이를 검정하기 위한 통계적 방법- 여러 집단 간 평균이 동일한지, 집단 간 차이가 통계적으로 유의미한지 평가 실험계획법 (=실험설계법, Experiment Design)- 특정 연구 목적을 달성하기 위해 실험을 체계적이고 계획적으로 설계하는 과정- 변수 간 관계를 분석하거나 예측하려는데 중점반응변수 (response variable)- 실험이나 연구에서 변화하거나 측정하려는 대상이 되는 변수- 실험결과를 나타내며, 독립변수의 변화에 따라 반응하는 값설명변수 (exploratory variable)- 통계학이나 연구에서 반응변수의 변화를 설명하거나 예측하는데 사용되는 변수- 독립변수와 반응변수 간 관계를 분.. 기초통계학 15 | 독립표본 · 대응표본 1. 독립표본 (Independent Sample) - 2개 이상의 표본이 서로 영향을 미치지 않음- 2개의 독립된 모집단에서 표본을 추출하여, 두 집단의 평균이나 비율 등을 비교함- 각 표본이 모집단을 잘 대표할 수 있어야 함 ex) 두 학교 (A학교, B학교)의 평균 시험 점수 비교 A학교 : 50명의 학생을 뽑아 평균점수 계산B학교 : 50명의 학생을 뽑아 평균점수 계산 표본 평균을 비교하여 두 학교의 시험 점수 차이가 통계적으로 유의미한지 확인 2. 대응표본 (=짝비교, Paired Sample) - 두 표본이 동일한 개체나 관련된 개체에서 추출됨- 같은 사람의 두 시점에 대한 데이터를 비교하거나, 동일한 대상을 두 가지 방법으로 평가- 주로 시간에 따른 변화나, 실험 전후 차이.. 기초통계학 14 | 모평균 · 모분산 · 모비율 1. 모평균 1. 정규모집단 가정 : N(μ, σ²)- 정규분포를 따른다고 가정하는 것- 모집단이 정규분포를 따른다면, 표본크기가 작아도 신뢰할 수 있는 결과를 얻을 가능성이 높음- 데이터가 실제로 정규분포를 따르는지 확인하는 절차 필요 2. Student t-분포- 모집단의 분산(표준편차)를 모를 때 특히 작은 표본 크기에서 모집단 평균에 대한 추정이나 가설 검정을 수행할 때 사용하는 확률 분포- 정규분포와 유사하지만, 표본 크기가 작을수록 꼬리가 두꺼운 분포를 가짐 (극단값이 나올 확률이 높음)- 자유도(v)가 작을수록 꼬리가 두꺼움 (v = n - 1)- 표본크기가 커지면 정규분포에 가까워짐 3. 모평균 구간추정- 모집단 평균(μ)에 대해 표본 데이터를 바탕으로 모집단 평균이 포함.. 기초통계학 13 | 가설검정 · 검정통계량 · 유의수준 · 검정력 · 유의확률 1. 가설검정 1. 가설검정 (Testing Hypothesis)- 어떤 주장이 참인지 또는 주어진 데이터에 기반하여 특정한 결론을 도출할 수 있는지 판단하는 통계학적 방법 2. 가설 (Hypothesis)- 어떤 현상이나 관계에 대해 예측하는 논리적이고 검증가능한 주장이나 이론- '이렇게 될 것이다'라는 예측을 나타내는 것- 실험이나 연구로 검증할 수 있어야 함 ① 귀무가설 (Null Hypothesis, H₀)- 처음에 가정하는 가설로, '차이가 없다' 또는 '효과가 없다'는 주장을 담음 ex) 두 약물은 효과가 같다 ② 대립가설 (Alternative Hypothesis, H₁)- 실제로 차이가 있다는 것 또는 효과가 있다는 주장을 담음 ex) 두 약물의 효과는 다르다 3. 단측검정.. 기초통계학 12 | 통계적 추론 · 추정법 · 점추정량 · 구간추정 · 신뢰구간 1. 통계적 추론 1. 통계적 추론- 표본 데이터로 모집단에 대한 결론 도출 과정- 분포 가정 유무 / 모수 처리 방식 / 추론 목적로 통계적 추론 분류 가능 2. 분포 가정 유무에 따른 통계적 추론 분류 ① 모수적 추론 (Parametric Inference)- 모집단이 특정 확률분포를 따른다고 가정- 데이터가 적어도 정확한 추론 가능- 분포 가정이 맞지 않을 경우 신뢰성 저하- t-검정, ANOVA · · · ex) 정규분포 : 2개의 모수→ 평균 μ, 분산 σ² ② 비모수적 추론 (Non-Parametric Inference)- 모집단의 분포에 대한 가정 없이 데이터 분석- 다양한 데이터에 유연하게 대응- 데이터 양이 많아야 정확도가 높아지고, 계산량이 많아질 수 있음- 순위(Rank), .. 이전 1 2 3 다음 목록 더보기