본문 바로가기
반응형

Data Science/statistics15

기초통계학 8 | 분산 · 표준편차 · 결합분포 · 주변분포 · 베르누이 시행 · 확률변수 1. 분산과 표준편차  1. 모분산 (Population variance)- 모집단의 데이터들이 평균에서 얼마나 떨어져 있는지를 나타내는 분산을 측정하는 값   2. 이산균일분포 - 유한한 개수의 값들이 있고, 모든 같은 확률로 나타나는 분포       2. 결합분포와 주변분포  1. 결합분포 (Joint Distribution)- 2개 이상의 확률 변수가 동시에 발생할 확률을 나타내는 분포  ① 이산형 결합분포 (Discrete Joint Distribution)- 2개 이상의 이산형 확률변수가 특정값을 동시에 가질 확률을 나타냄  ② 연속형 결합분포 (Continuous Joint Distribution)- 2개 이상의 연속형 확률변수가 특정 범위 내에서 동시에 나타날 가능성을 나타내는 확률밀도함수 .. 2025. 1. 7.
기초통계학 7 | 확률변수 · 확률질량함수 · 확률밀도함수 · 기댓값 1. 확률변수 (Random Variable)  1. 확률변수 (Random Variable)- 표본공간에서 정의된 실함수 (Real-valued Function)(확률실험 결과를 숫자로 표현)   2. 확률실험- 정의역이 표본공간 Ω 이고, 공역이 실수인 함수- 불확실성을 가지는 사회적·자연적 현상을 일종의 확률실험으로 이해     3. 이산확률변수 (Discrete random variable)- 셀 수 있을 정도로 한정된 개수의 값만 나오는 확률변수  즉, 몇 가지 특정 값만 가능한 변수 ex) 동전 던지기의 표본공간 (Ω) : {앞면,뒷면}   4. 연속확률변수 (Continuous random variable)- 값이 연속적으로 나올 수 있는 확률변수- 셀 수 없이 많은 값을 가짐 ex) 시간,.. 2025. 1. 6.
기초통계학 6 | 확률 · 조건부확률 · 독립사건 · 베이즈정리 1. 확률  1. 부울의 부등식 (Boole's inequality)- 사건들의 합집합의 확률이 각 사건들의 확률의 합보다 작거나 같음  = A₁,A₂​,…,Aₙ : 여러 개의 사건들 P(Aᵢ​) : 각 사건 Aᵢ​의 확률 :  각 사건의 확률을 합한 값   2. 본페로니 부등식 (Bonferroni's inequality)- 사건들의 합집합 확률을 구할 때,   상한선과 하한선을 제공함      2. 조건부확률  1. 조건부확률 (Conditional probability)- 확률실험에서 새로운 정보나 조건이 추가되었을 때, 사건 B의 확률P(B|A) : 사건 A가 발생한 조건 하에서 사건 B가 발생할 확률P(A∩B) : 사건 A와 사건 B가 동시에 발생할 확률P(A) : 사건 A가 발생할 확률 (단,.. 2025. 1. 5.
기초통계학 5 | 확률 · 경우의 수 · 통계적 확률 1. 확률 (Probability)  1. 확률- 특정 사건이 발생할 가능성을 수치로 표현- 불확실성 : 모든 결과는 알 수 있지만, 어떤 사건이 발생할 지 확실하게 예측할 수 없음   2. 확률의 범위- 모든 가능한 사건의 확률을 더하면 항상 1 0 ≤ P(A) ≤ 10: 사건이 절대 발생하지 않음.1: 사건이 반드시 발생.  3. 확률실험 (Random Experiment)- 결과를 사전에 예측할 수 없지만,  가능한 모든 결과를 알 수 있는 실험이나 관찰- 확률을 언급하려면 확률실험이 전제되어야 하고,  표본공간과 사건이 설정되어야 함  ① 무작위성 (Randomness)- 실험결과가 불확실하고 사전에 특정 결과를 정확히 예측불가 ex) 동전 던지기에서 앞/면 중 뭐가 나올지 모름  ② 표본공간 (.. 2025. 1. 5.
기초통계학 4 | 분할표 · 비교그림 · 산점도 · 공분산 · 상관계수 1. 분할표 (Cotingency table)- 2개 이상의 변수 간 관계를 표현- 각 변수 값에 따라 교차된 빈도를 나타내며, 범주형 데이터 간 관계를 분석할 때 사용    1. 분할표 (Cotingency table)- 2개 이상의 변수를 동시에 고려해  각각의 범주에 관측개체의 빈도를 정리한 교차표 (Cross tabulation) - 칸(Cell) : 각 범주에 교차되는 부분- 행(Row) : 하나의 변수의 범주들- 열(Column) : 또 다른 변수의 범주들흡연여부 \ 성별남여합계흡연503080비흡연120150270합계170180350   2. 비율(상대도수) 표시- 전체 중에서 특정 범주가 차지하는 비율- 비율은 분석목적 또는 자료 수집 방법에 따라 다르게 표시됨   3. 차이 또는 관련 여부.. 2025. 1. 4.
기초통계학 3 | 자료의 중심위치 · 산포 · 분포 형태 1. 수치를 이용한 자료정리중심위치- n개의 수치자료 x₁, x₂, x₃, ... , xₙ- xᵢ :  i 번째 표본의 값 (관측값)- n : 표본 크기 (Sample size) 1. 표본평균 (Sample mean)- 주어진 표본 데이터의 평균- 전체 모집단을 조사할 수 없는 경우,  모집단 특성을 유추할 때 사용   2. 표본비율 (Sample proportion)- 표본 데이터에서 특정 조건을 만족하는 비율- y = x₁ + x₂ + x₃ + ... + xₙ (해당 범주에 포함된 표본의 수)- 표본비율 = y/n  3. 이상점 (Outlier)- 데이터셋에서 다른 값들과 크게 벗어난 데이터 값- 다양한 원인으로 평균이나 표준편차 계산에 영향을 주어  왜곡될 수 있기 때문에 주의해야함- 이상점을 대체.. 2025. 1. 4.
반응형