반응형 Data Science/statistics15 기초통계학 8 | 분산 · 표준편차 · 결합분포 · 주변분포 · 베르누이 시행 · 확률변수 1. 분산과 표준편차 1. 모분산 (Population variance)- 모집단의 데이터들이 평균에서 얼마나 떨어져 있는지를 나타내는 분산을 측정하는 값 2. 이산균일분포 - 유한한 개수의 값들이 있고, 모든 같은 확률로 나타나는 분포 2. 결합분포와 주변분포 1. 결합분포 (Joint Distribution)- 2개 이상의 확률 변수가 동시에 발생할 확률을 나타내는 분포 ① 이산형 결합분포 (Discrete Joint Distribution)- 2개 이상의 이산형 확률변수가 특정값을 동시에 가질 확률을 나타냄 ② 연속형 결합분포 (Continuous Joint Distribution)- 2개 이상의 연속형 확률변수가 특정 범위 내에서 동시에 나타날 가능성을 나타내는 확률밀도함수 .. 2025. 1. 7. 기초통계학 7 | 확률변수 · 확률질량함수 · 확률밀도함수 · 기댓값 1. 확률변수 (Random Variable) 1. 확률변수 (Random Variable)- 표본공간에서 정의된 실함수 (Real-valued Function)(확률실험 결과를 숫자로 표현) 2. 확률실험- 정의역이 표본공간 Ω 이고, 공역이 실수인 함수- 불확실성을 가지는 사회적·자연적 현상을 일종의 확률실험으로 이해 3. 이산확률변수 (Discrete random variable)- 셀 수 있을 정도로 한정된 개수의 값만 나오는 확률변수 즉, 몇 가지 특정 값만 가능한 변수 ex) 동전 던지기의 표본공간 (Ω) : {앞면,뒷면} 4. 연속확률변수 (Continuous random variable)- 값이 연속적으로 나올 수 있는 확률변수- 셀 수 없이 많은 값을 가짐 ex) 시간,.. 2025. 1. 6. 기초통계학 6 | 확률 · 조건부확률 · 독립사건 · 베이즈정리 1. 확률 1. 부울의 부등식 (Boole's inequality)- 사건들의 합집합의 확률이 각 사건들의 확률의 합보다 작거나 같음 = A₁,A₂,…,Aₙ : 여러 개의 사건들 P(Aᵢ) : 각 사건 Aᵢ의 확률 : 각 사건의 확률을 합한 값 2. 본페로니 부등식 (Bonferroni's inequality)- 사건들의 합집합 확률을 구할 때, 상한선과 하한선을 제공함 2. 조건부확률 1. 조건부확률 (Conditional probability)- 확률실험에서 새로운 정보나 조건이 추가되었을 때, 사건 B의 확률P(B|A) : 사건 A가 발생한 조건 하에서 사건 B가 발생할 확률P(A∩B) : 사건 A와 사건 B가 동시에 발생할 확률P(A) : 사건 A가 발생할 확률 (단,.. 2025. 1. 5. 기초통계학 5 | 확률 · 경우의 수 · 통계적 확률 1. 확률 (Probability) 1. 확률- 특정 사건이 발생할 가능성을 수치로 표현- 불확실성 : 모든 결과는 알 수 있지만, 어떤 사건이 발생할 지 확실하게 예측할 수 없음 2. 확률의 범위- 모든 가능한 사건의 확률을 더하면 항상 1 0 ≤ P(A) ≤ 10: 사건이 절대 발생하지 않음.1: 사건이 반드시 발생. 3. 확률실험 (Random Experiment)- 결과를 사전에 예측할 수 없지만, 가능한 모든 결과를 알 수 있는 실험이나 관찰- 확률을 언급하려면 확률실험이 전제되어야 하고, 표본공간과 사건이 설정되어야 함 ① 무작위성 (Randomness)- 실험결과가 불확실하고 사전에 특정 결과를 정확히 예측불가 ex) 동전 던지기에서 앞/면 중 뭐가 나올지 모름 ② 표본공간 (.. 2025. 1. 5. 기초통계학 4 | 분할표 · 비교그림 · 산점도 · 공분산 · 상관계수 1. 분할표 (Cotingency table)- 2개 이상의 변수 간 관계를 표현- 각 변수 값에 따라 교차된 빈도를 나타내며, 범주형 데이터 간 관계를 분석할 때 사용 1. 분할표 (Cotingency table)- 2개 이상의 변수를 동시에 고려해 각각의 범주에 관측개체의 빈도를 정리한 교차표 (Cross tabulation) - 칸(Cell) : 각 범주에 교차되는 부분- 행(Row) : 하나의 변수의 범주들- 열(Column) : 또 다른 변수의 범주들흡연여부 \ 성별남여합계흡연503080비흡연120150270합계170180350 2. 비율(상대도수) 표시- 전체 중에서 특정 범주가 차지하는 비율- 비율은 분석목적 또는 자료 수집 방법에 따라 다르게 표시됨 3. 차이 또는 관련 여부.. 2025. 1. 4. 기초통계학 3 | 자료의 중심위치 · 산포 · 분포 형태 1. 수치를 이용한 자료정리중심위치- n개의 수치자료 x₁, x₂, x₃, ... , xₙ- xᵢ : i 번째 표본의 값 (관측값)- n : 표본 크기 (Sample size) 1. 표본평균 (Sample mean)- 주어진 표본 데이터의 평균- 전체 모집단을 조사할 수 없는 경우, 모집단 특성을 유추할 때 사용 2. 표본비율 (Sample proportion)- 표본 데이터에서 특정 조건을 만족하는 비율- y = x₁ + x₂ + x₃ + ... + xₙ (해당 범주에 포함된 표본의 수)- 표본비율 = y/n 3. 이상점 (Outlier)- 데이터셋에서 다른 값들과 크게 벗어난 데이터 값- 다양한 원인으로 평균이나 표준편차 계산에 영향을 주어 왜곡될 수 있기 때문에 주의해야함- 이상점을 대체.. 2025. 1. 4. 이전 1 2 3 다음 반응형