Statistics

[STAT 101] 가설과 가설 검정

thebuck104 2024. 7. 4. 16:50

 

Hypothesis H0

 

Null Hypothesis

statement that there are no relationship between the measured phenomenon (the dependent variables) and the independent variables (variables that the experimenter controls or changes).

 

To see that the variables are related, null hypothesis should be rejected

 

H0는 내가 원하는 결과의 반대라고 보면 됨

10대가 수학을 더 잘하는가?

           H0 = 나이와 수학은 상관관계가 없다.

           H1 = 나이와 수학은 상관관계가 있다.

                     p value < 0.05  => H0 귀무가설이 reject 되어 H1 이 채택됨

아스피린을 매일 먹으면 심장마비 확률이 줄어드는가?

           H0 = 아스피린을 먹는 것과 심장마비의 확률은 상관관계가 없다.

두 집단의 평균의 차를 t-test를 통해 확인한다

           H0 = 두 집단의 평균의 차는 0이다

           H1 = 두 집단의 평균의 차는 0이 아니다.

 


가설검정

 

모수검정 모집단이 특정 분포를 따른다는 가정을 둔 가설검정

예시 – T Test는 모집단이 정규분포를 따른다는 가정을 둠

 

1.     두 집단 평균 비교

T Test: 귀무가설 집단 평균은 같다

대립가설 집단 평균은 다르다

           ㄴ 가) 모집단이 정규분포를 따라야 함

           ㄴ 나) 모집단이 둘이라면 둘은 분산이 같아야 함

두 집단 분산이 같거나 비슷할 때 – Student’s T-test

두 집단의 분산이 다를 때 – Welch’s T-test

2.     정규성 조사 위의 가)를 위함

-       Q-Q 플롯 시각적 판단

-       샤피로-윌크 검정 가설검정

-       콜모고로프-스미르노프 이론적 분포와 비교

귀무가설 모집단이 정규분포다 (P >= 0.05이면 정규분포)

대립가설 모집단이 정규분포가 아니다

3.     등분산성 조사 위의 나)를 위함

-       바틀렛 검정

-       레빈 검정

귀무가설 - 2개의 모집단의 분산은 같다. (P >= 0.05이면 등분산)

대립가설 - 2개의 모집단의 분산은 다르다.

4.     분산분석 – ANOVA

귀무가설 - 집단들의 평균은 같다

대립가설 적어도 한 쌍에는 의미 있는 차이가 있다

5.     다중비교

ANOVA 이후 어느 짝에 어느 차이가 있는지 확인하는 것들

-       본페로니 교정 검정력 낮음

-       튜키 검정 검정력 높음

-       던넷 검정 대조군과의 비교에만 관심

-       윌리엄스 검정 집단간 순위를 매길 수 있음

 

정규성이 없는 집단이 1개 이상이라면

           Anova 대신 비모수 검정방법인 크리스컬-윌리스 검정 사용

6.     비율비교

-       범주형 데이터

이항검정 확률 p 1-p로 이루어져 있는지 검사

귀무가설 동전이 치우치지 않음

대립가설 동전이 어딘가 치우쳐 짐

 

===========

카이제곱 정규분포의 랜덤 표본의 제곱의 합의 분포

      ㄴ 오차검증 시 숨겨진 의미가 있는 오차인지 판별할 수 있음

 

카이제곱 검정: 적합도 검정 (Goodness of fit)

      ㄴ 한 범주형 변수의 각 그룹 별 비율과 특정 상수비가 같은지?

      ㄴ 멘델의 완두콩 비율이 9:3:3:1이 맞는지? (기존에 알려진 기준이 존재)

                 ㄴ 이산확률분포에 이항검정의 방식을 적용하고 싶을 때

      귀무가설 모집단은 상정한 이산확률분포이다

      대립가설 모집단은 상정한 이산확률분포가 아니다

 

카이제곱 교차분석:

      ㄴ 범주형 변수가 여러 개인 경우

카이제곱 검정: 동질성 검정 (Test of homogeneity)

      ㄴ 각 집단이 서로 유사한 성향을 갖는지?

      ㄴ 성별에 따라 음료 선호 유형이 다른가?

                 ㄴ 행 변수를 고정하고 실행

 

카이제곱 검정: 독립성 검정 (Test of independence)

      ㄴ 두 범주형 변수가 서로 독립인지?

      ㄴ 성별과 전공선택이 서로 관계가 있는가?

      ㄴ 나무 종류에 따라 암수 비율이 달라지는가?

                 ㄴ 전체 표본수 N을 고정

                     귀무가설 - 2개의 변수는 독립이다

                     대립가설 - 2개의 변수는 독립이 아니다

 

=======================

1, 2종 오류

Type 1 Error – 귀무가설이 참이어서 채택해야 하지만 표본의 오차 때문에 채택하지 않음

           ㄴ 차이가 없는데 있다고 하는 것 - Alpha

Type 2 Error – 귀무가설이 거짓이어서 채택하지 말아야 하지만 표본의 오차로 채택함

           ㄴ 차이가 있는데 없다고 하는 것 - Beta

 

예시)

귀무가설 신약은 효과가 없다.

Type 1 Error – 신약은 효과가 없는데 있다고 해 버림

           ㄴ 보다 엄격한 보완 검증을 해야 함

Type 2 Error – 신약은 효과가 있는데 없다고 해 버림

           ㄴ 보다 완화된 보완 검증을 해야 함

 

전체적으로:

1.     적절한 표본 크기를 선택해 검증의 정확성을 높인다

2.     검증 기준을 잘 설정해 1종과 2종 오류의 균형을 맞춘다

3.     여러 검증 방법을 동시에 활용해 오류 가능성을 낮춘다

 

검정력 – Power (1-beta)

실제로 차이가 있으면서, 귀무가설을 기각하는 것

           ㄴ 올바른 Outcome

 

Mean Squared Error