Statistics 12

[STAT 101] 자유도와 카이제곱 분포, 검정

카이제곱에 대한 설명에 들어가기 앞서, 자유도에 대해 먼저 간략히 설명해 보겠다.자유도 Degree of Freedom자유도는 주어진 통계 모델에서 독립적으로 변동할 수 있는 변수의 개수다.이는 역설적으로 통계 모델에서 오는 제약조건이 있기 때문에 사용하는 개념이다.다시 말해, 자유도란 모델 내에서 제약 조건에서 자유롭게 변화할 수 있는 정보의 양을 나타낸다. 예를 들어, 확률 변수 X1​, X2​에 대해서, X1​+X2​=1 이라는 제약 조건이 있을 때,​라는 통계량을 구하는 상황에서, 하나의 확률변수만 알아도, 나머지 하나는 값이 정해지기 때문에, 두 확률 변수를 모두 알 필요는 없다.그러므로 이 상황에서의 자유도는 2 - 1, 1이 된다. 보통 자유도는 관찰 (혹은 정보)의 수에서 추정된 매개변수의..

Statistics 2024.08.14

[STAT 101] ANOVA 검정과 다중 검정의 문제

분산분석 Analysis of Variance, ANOVA Test데이터가 서로 다른 세 개 이상의 모집단으로부터 추출된 경우에 사용하는 분석으로, 각 집단의 평균을 비교하는 분석인데 통계적 유의성을 검증할 때 분산을 이용해서 분산분석이라 일컫는다. 분산분석 사용의 이유3개 이상의 집단에서 1:1 분석을 하지 못하는 이유는 다음과 같다.먼저, A, B, C 세 집단이 있을 때,A:B, A:C, B:C를 각각 비교하고, A>B, B>C이면 A>B>C이지 않나?라는 의문이 들 수 있다.  하지만 유의수준의 차원에서 이를 봤을 때, 표본을 모집단으로 확장했을 때A>B이지 않을 5%의 확률이 존재하고, 마찬가지로 B>C이지 않을 확률 또한 5% 존재한다.그러므로, A>B>C가 틀릴 확률은 단순히 생각해도 5%를..

Statistics 2024.08.13

[STAT 101] T 검정과 BEST검정

기존의 T 검정https://thebuck104.tistory.com/34 [STAT 101] T - TestT-test 두 그룹의 평균을 비교할 때 - student's T-test           ㄴ 두 개 이상은 ANOVA test를 활용 – Analysis of Variance test            ㄴ 평균의 차이 유무를 보는 것                 thebuck104.tistory.com 모집단의 분산이나 표준편차를 알지 못할 때, 표본 n이 30 이하인 비교적 적은 수의 표본에 대해모집단을 대표하는 표본으로부터 추정된 분산이나 표준편차를 가지고 검정하는 방법. "두 모집단 의 평균 간에 차이가 없다."라는 귀무가설과"두 모집단의 평균 간에 차이가 있다."라는 대립가설중 하나를..

Statistics 2024.08.13

[STAT 101] 베이지안 AB Test의 전환율 검정과 기대수익 분석

베이지안 확률 Bayesian Probability동전을 여러번 던졌을 때 앞면이 나올 확률 처럼 시행 횟수를 여러번 할 수 있는 빈도 확률 (Frequentist Probability)와는 다르게, 예를 들어 화산 폭발의 확률 처럼 세상에는 빈도수를 늘릴 수 없는 일이 많다.일어나지 않ㄴ은 일에 대한 확률을 불확실성 (Uncertainty)의 개념, 즉 사건과 관련된 여러 확률을 도합적으로 이용해 새롭게 일어날 사건을 추정하는 것이 베이지안 확률이다.  P(A) 사전 확률 Prior Probability: 결과가 나타나기 전에 결정되어 있는 A(원인)의 확률P(B|A) 우도 확률 Likelihood Probability: A(원인)가 발생했다는 조건 하에 B가 발생할 확률P(A|B) 사후 확률 Post..

Statistics 2024.08.13

[STAT 101] 베르누이 분포와 이항 분포, 그리고 포아송 분포

베르누이 시행 Bernoulli Trial결과가 두 가지 중 하나로만 나오는 실험이나 시행을 베르누이 시행이라고 한다.예시로, 동전을 던져 앞면, 뒷면이 나오게 하는 것이 베르누이 시행이다. 베르누이 확률 변수 Bernoulli Random Variable이는 베르누이 시행의 결과를 0과 1로 표시한 것으로, 이산 확률 변수 (Discrete Random Variable)이다.  베르누이 확률 분포 Bernoulli Probability Distribution베르누이 확률 변수의 분포를 일컫는 말로, 확률 변수 X가 베르누이 분포에 의해 발생한다면1이 나올 확률 및 기대값을 p = Mu,0이 나올 확률을 q = ( 1 - Mu )라 하고,이 때 분산은 pq = Mu( 1 - Mu )가 된다.  베르누이 ..

Statistics 2024.08.12

[STAT 101] 정규분포(Normal Distribution)와 t분포(Student's t-distribution)

1. 정규분포 Normal Distribution1.1 이항분포의 근사 확률이 p인 사건을 N번 시행하여 사건 발생 횟수에 따른 확률들을 구하면 그것을확률 p, 시행횟수 N인 이항분포 B(N, p)로 표현하고,평균은 Np, 분산은 Np(1-p) 혹은 Npq 라고 한다. 예컨대 동전을 10번 던져 앞면이 나오는 사건의 횟수와 확률은B(10, 1/2)의 분포를,주사위를 15번 던져 1이 나오는 사건의 횟수와 확률은B(15, 1/6)의 분포를 따른다. 이 때, 동전과 주사위를 무한히 던진다면??아래와 같은 확률분포를 확인할 수 있게된다.  동전을 100번 던졌을 때, 앞면이 60번, 70번 나올 확률혹은 앞면이 20번 30번 나올 확률 보다는50번(+-alpha) 정도 나오는 확률이 제일 많은 것.  마찬가지..

Statistics 2024.08.09

[STAT 101] 모집단과 표본, 그 속 통계 값들과 표본 추출 방법

1. 모집단 Population 모집단은 관심의 대상이 되는 전체 집단을 의미한다. 예컨대, "대한민국 여성과 남성의 평균 키 차이"를 구하고 싶다면, 조사해야 하는 모집단은 "대한민국의 모든 여성과 남성"이 된다. 그러므로 모집단의 크기는 매우 클수도, 심지어 무한할수도 있고,그래서 일반적으로 모집단의 모든 구성원에 대한 데이터를 수집하는 것은불가능하거나 금전적, 시간적 제약이 크다. # 모집단의 특성 (평균, 비율, 표준편차 등등)은 모수 (Parameter)라고 한다. 2. 표본 Sample표본은 모집단의 일부로써 모집단을 대표할 수 있는 작은 그룹을 뜻한다.모집단 전체를 알아보기에는 제약이 크니,  허용할 수 있는 오차/신뢰도를 만족하는 최소한의 표본을 추출하고 활용해서 모집단의 특성을 추정하는 ..

Statistics 2024.08.07

[STAT 101] 잔차와 오차, 그리고 결정계수

[STAT 101] 단순선형회귀, 공분산과 상관관계 에서 이어지는 포스트입니다.https://thebuck104.tistory.com/35 [STAT 101] 단순선형회귀, 공분산과 상관계1.     단순선형회귀단순 선형 회귀는 두 변수 사이의 관계를 모델링하는 통계기법이다.이 때, 하나는 독립 변수 X (설명 변수), 나머지 하나는 종속 변수 Y (반응 변수)로 하며, 선형 회귀는 둘thebuck104.tistory.com  3.     잔차와 오차잔차 (Residual)와 오차 (Error)는 데이터 분석 및 회귀 분석에서 중요한 개념으로 모델이 실제 데이터를 얼마나 잘 반영하는지 평가하는 데 사용된다. 잔차와 오차는 실제 관측값과 회귀모델이 추정한 예측값의 차이를 뜻한다.하지만, 둘은 비슷한 개념이..

Statistics 2024.07.16

[STAT 101] 단순선형회귀, 공분산과 상관관계

1.     단순선형회귀단순 선형 회귀는 두 변수 사이의 관계를 모델링하는 통계기법이다.이 때, 하나는 독립 변수 X (설명 변수), 나머지 하나는 종속 변수 Y (반응 변수)로 하며, 선형 회귀는 둘 사이의 선형관계를 찾는다.  Beta-0는 Y 절편 (Y-intercept)Beta-1은 기울기 (Slope)ϵ은 오차 항(Error Term), 혹은 확률변동 (Random Disturbance) 라고 한다.  ㄴ 실제 자료와 참회귀선 (y = beta0 + beta1 x) 의 차이를 나타낸다. 최소 제곱법위는 최소 제곱법 (Least Square Method)을 활용해서각 점으로부터 구하고자 하는 최적의 직선까지의 수직거리의 제곱합을 최소로 하는 직선방정식을 구한다. 이는 RMSE (Root-mean ..

Statistics 2024.07.04

[STAT 101] T - Test

T-test 두 그룹의 평균을 비교할 때 - student's T-test           ㄴ 두 개 이상은 ANOVA test를 활용 – Analysis of Variance test            ㄴ 평균의 차이 유무를 보는 것                     ㄴ 평균의 차이가 높을수록 유의미한 통계분석을 할 수 있을 테니            ㄴ 모집단의 표준편차를 알고 있을 때는 Z-test를 활용함                     ㄴ 허나 모집단의 분포를 제대로 아는 것은 거의 불가능에 가까움                     ㄴ T-test를 통해 모집단의 표준편차를 표본표준편차로 수정해 확인하는 것                     ㄴ 허나 n > 30일때는 중심극한이론에 따..

Statistics 2024.07.04