Statistics

[STAT 101] T - Test

thebuck104 2024. 7. 4. 16:50

 

 

T-test

 

두 그룹의 평균을 비교할 때 - student's T-test

           ㄴ 두 개 이상은 ANOVA test를 활용 – Analysis of Variance test

 

           ㄴ 평균의 차이 유무를 보는 것

                     ㄴ 평균의 차이가 높을수록 유의미한 통계분석을 할 수 있을 테니

 

           ㄴ 모집단의 표준편차를 알고 있을 때는 Z-test를 활용함

                     ㄴ 허나 모집단의 분포를 제대로 아는 것은 거의 불가능에 가까움

                     T-test를 통해 모집단의 표준편차를 표본표준편차로 수정해 확인하는 것

                     ㄴ 허나 n > 30일때는 중심극한이론에 따라 Z-test를 실행하기도 함

                                ㄴ 반대로 표본이 작다면 T-test를 하면 됨

 

T-test의 귀무가설

           ㄴ 두 집단의 평균의 차는 0이다.

T-test의 대립가설

           ㄴ 두 집단의 평균의 차는 0이 아니다.

 

Data

1. 독립적이어야 한다.

2. 대략적으로 정규분포를 따라야 한다.

           ㄴ 그렇지 않으면 Mann-Whitney test를 실행

           ㄴ 모집단이 정규분포를 따를 때

3. 각 그룹의 분산 값이 비슷한 값을 가져야 함

           Homogeneity of Variance

           ㄴ 모집단의 분산과 표준편차를 알지 못할 때

 

           ㄴ 이 조건을 충족하지 않는다면 Nonparametric을 활용해야 함

                                Wilcoxon Signed-Rank test - variance가 다를 때

 

============================================================================================

 

Types of t test

1. 두 그룹의 모집단이 같은지? 다른지?

2. whether you want to test the difference in a specific direction

 

paired, two-sample, one-sample

1. 모집단이 같다 - paired t test

           within-subjects design

2. 모집단이 다르다 - two-sample t test - independent t test

           between-subjects design

3. 하나의 샘플을 Standard Value와 비교할 때 - one-sample t test

          

one tailed? two tailed?

1. 두 샘플이 서로 다른지 확인한다

           two-tailed t test

2. 하나의 샘플의 평균이 다른 하나보다 높은지 아닌지가 궁금하면

           one-tailed t test

 

Result values

t value: 절대값이 중요! 음수도 ㅇㅋ!

degrees of freedom: 높을 수록 좋음!

p value: 0.05보다 작음 됨?!

           null hypothesis being rejected

alternative hypothesis:

confidence interval: 95%라고 하면 95%의 상황동안

mean:

 

 

Sample R Code

t.test(Petal.Length ~ Species, data = flower.data)

 

flower.data %>%

group_by(Species) %>%

summarize(mean_length = mean(Petal.Length),

sd_length = sd(Petal.Length))

 

The difference in petal length between iris species 1 (M = 1.46; SD = 0.206) and iris species 2 (M = 5.54; SD = 0.569) was significant (t (30) = 33.7190; p < 2.2e-16).

 

ANOVA test분산분석

           2개 이상의 집단에서는 분산으로 차이를 본다

 

집단내분산

집단간분산

           ㄴ 평균이 다르다면 집단이 다르다는 뜻

           ㄴ 집단내 분산이 커지고 집단간 분산이 작아지면 집단간의 평균이 같다는 귀무가설을 기각하기 어려워 진다