분류 전체보기 73

[TIL 240813] 오늘의 통계, AB Test와 T 검정

오늘은 하루종일 통계 스터디를 했다. 먼저 실무에서 많이들 사용한다는 AB Test에 관해 알아보았다.Frequentist의 관점에서, AB 테스트는 사실상 independent two-sample T test에 가까우며,이는 Bayesian의 관점을 더 해서 더 복잡하지만 더 Reliable한 결과를 도출할 수 있게된다. 다음은 이를 정리한 본인의 블로그 글이다.https://thebuck104.tistory.com/66 [STAT 101] 베이지안 AB Test의 전환율 검정과 기대수익 분석베이지안 확률 Bayesian Probability동전을 여러번 던졌을 때 앞면이 나올 확률 처럼 시행 횟수를 여러번 할 수 있는 빈도 확률 (Frequentist Probability)와는 다르게, 예를 들어 화..

오늘 나는 (TIL) 2024.08.13

[TIL 240812] 머신러닝과 딥러닝의 간략한 차이

오늘은 다음 아티클에 관한 스터디를 했다.머신러닝 딥러닝 차이점 5가지 - 크몽 (kmong.com) 머신러닝 딥러닝 차이점 5가지 - 크몽머신러닝과 딥러닝, 비슷한듯 다른 이 두 기술의 차이점은 무엇일까요? 머신러닝 모델과 딥러닝 모델 등을 자세히 알아봅시다.kmong.com머신러닝과 딥러닝의 차이점 머신러닝이란컴퓨터 프로그램이 데이터를 학습하고 이를 활용해 작업을 수행하는 인공지능의 한 분야1.     예측 및 분류2.     패턴인식3.     자동화 및 최적화4.     의사 결정 지원5.     자연어 처리 딥러닝이란인공 신경망을 사용해 인공지능을 만드는 머신러닝의 한 분야1.     표현 학습2.     자동화된 특징 추출3.     이미지 및 비디오 처리4.     패턴인식5.     연구 ..

오늘 나는 (TIL) 2024.08.13

[STAT 101] ANOVA 검정과 다중 검정의 문제

분산분석 Analysis of Variance, ANOVA Test데이터가 서로 다른 세 개 이상의 모집단으로부터 추출된 경우에 사용하는 분석으로, 각 집단의 평균을 비교하는 분석인데 통계적 유의성을 검증할 때 분산을 이용해서 분산분석이라 일컫는다. 분산분석 사용의 이유3개 이상의 집단에서 1:1 분석을 하지 못하는 이유는 다음과 같다.먼저, A, B, C 세 집단이 있을 때,A:B, A:C, B:C를 각각 비교하고, A>B, B>C이면 A>B>C이지 않나?라는 의문이 들 수 있다.  하지만 유의수준의 차원에서 이를 봤을 때, 표본을 모집단으로 확장했을 때A>B이지 않을 5%의 확률이 존재하고, 마찬가지로 B>C이지 않을 확률 또한 5% 존재한다.그러므로, A>B>C가 틀릴 확률은 단순히 생각해도 5%를..

Statistics 2024.08.13

[STAT 101] T 검정과 BEST검정

기존의 T 검정https://thebuck104.tistory.com/34 [STAT 101] T - TestT-test 두 그룹의 평균을 비교할 때 - student's T-test           ㄴ 두 개 이상은 ANOVA test를 활용 – Analysis of Variance test            ㄴ 평균의 차이 유무를 보는 것                 thebuck104.tistory.com 모집단의 분산이나 표준편차를 알지 못할 때, 표본 n이 30 이하인 비교적 적은 수의 표본에 대해모집단을 대표하는 표본으로부터 추정된 분산이나 표준편차를 가지고 검정하는 방법. "두 모집단 의 평균 간에 차이가 없다."라는 귀무가설과"두 모집단의 평균 간에 차이가 있다."라는 대립가설중 하나를..

Statistics 2024.08.13

[STAT 101] 베이지안 AB Test의 전환율 검정과 기대수익 분석

베이지안 확률 Bayesian Probability동전을 여러번 던졌을 때 앞면이 나올 확률 처럼 시행 횟수를 여러번 할 수 있는 빈도 확률 (Frequentist Probability)와는 다르게, 예를 들어 화산 폭발의 확률 처럼 세상에는 빈도수를 늘릴 수 없는 일이 많다.일어나지 않ㄴ은 일에 대한 확률을 불확실성 (Uncertainty)의 개념, 즉 사건과 관련된 여러 확률을 도합적으로 이용해 새롭게 일어날 사건을 추정하는 것이 베이지안 확률이다.  P(A) 사전 확률 Prior Probability: 결과가 나타나기 전에 결정되어 있는 A(원인)의 확률P(B|A) 우도 확률 Likelihood Probability: A(원인)가 발생했다는 조건 하에 B가 발생할 확률P(A|B) 사후 확률 Post..

Statistics 2024.08.13

[STAT 101] 베르누이 분포와 이항 분포, 그리고 포아송 분포

베르누이 시행 Bernoulli Trial결과가 두 가지 중 하나로만 나오는 실험이나 시행을 베르누이 시행이라고 한다.예시로, 동전을 던져 앞면, 뒷면이 나오게 하는 것이 베르누이 시행이다. 베르누이 확률 변수 Bernoulli Random Variable이는 베르누이 시행의 결과를 0과 1로 표시한 것으로, 이산 확률 변수 (Discrete Random Variable)이다.  베르누이 확률 분포 Bernoulli Probability Distribution베르누이 확률 변수의 분포를 일컫는 말로, 확률 변수 X가 베르누이 분포에 의해 발생한다면1이 나올 확률 및 기대값을 p = Mu,0이 나올 확률을 q = ( 1 - Mu )라 하고,이 때 분산은 pq = Mu( 1 - Mu )가 된다.  베르누이 ..

Statistics 2024.08.12

[STAT 101] 정규분포(Normal Distribution)와 t분포(Student's t-distribution)

1. 정규분포 Normal Distribution1.1 이항분포의 근사 확률이 p인 사건을 N번 시행하여 사건 발생 횟수에 따른 확률들을 구하면 그것을확률 p, 시행횟수 N인 이항분포 B(N, p)로 표현하고,평균은 Np, 분산은 Np(1-p) 혹은 Npq 라고 한다. 예컨대 동전을 10번 던져 앞면이 나오는 사건의 횟수와 확률은B(10, 1/2)의 분포를,주사위를 15번 던져 1이 나오는 사건의 횟수와 확률은B(15, 1/6)의 분포를 따른다. 이 때, 동전과 주사위를 무한히 던진다면??아래와 같은 확률분포를 확인할 수 있게된다.  동전을 100번 던졌을 때, 앞면이 60번, 70번 나올 확률혹은 앞면이 20번 30번 나올 확률 보다는50번(+-alpha) 정도 나오는 확률이 제일 많은 것.  마찬가지..

Statistics 2024.08.09

[TIL 240809] 데이터 해석 시 흔히 하는 실수들

그 데이터는 잘 못 해석되었습니다.https://yozm.wishket.com/magazine/detail/1816/ 그 데이터는 잘못 해석되었습니다 | 요즘IT무엇이든 데이터가 있으면 쉽게 결정을 내릴 수 있을 것 같습니다. 하지만 현업에서는 데이터가 있어도 결정을 내리기 어려운 상황들이 있습니다. 특히 데이터를 통한 의사결정을 내릴 때, 가장yozm.wishket.com  잘못 해석되는 데이터의 상황 별 유형  1.     생존자 편향의 오류 대상은 전체 이용자를 대상으로 해야 한다.이탈자만을 대상으로 하면 편향된 오류가 생길 수 있다.  2.     심슨의 역설 전체가 말하는 것이 세분화 그룹이 말하는 것과 다른 것 전체 집단의 큰 지표가 아닌, 집단을 더 나누어 지표를 확인하는 과정이 필요함.종합..

오늘 나는 (TIL) 2024.08.08

[게임 데이터] 전수조사 (Census)와 표본조사 (Sample Survey)

전수조사 데이터 분석전수조사(Census)는 특정 모집단의 모든 데이터를 수집하는 방법이다. 장점정확성: 모든 데이터를 수집하기 때문에 표본오차가 없다.세부 분석 가능: 모집단의 모든 구성원에 대한 데이터를 가지고 있으므로, 세부적인 분석과 작은 하위 그룹에 대한 분석이 가능하다.데이터 완전성: 모든 데이터를 수집하여 누락된 정보가 없기 때문에 분석 결과의 신뢰도가 높다. 단점비용: 모든 데이터를 수집하데 시간과 비용이 많이 든다.처리 복잡성: 데이터 양이 방대하기 때문에 데이터 저장, 처리 및 분석이 복잡하다.갱신의 어려움: 모든 데이터를 지속적으로 갱신하고 관리하는 것이 어렵다.표본조사 데이터 분석표본조사(Sample Survey)는 모집단의 일부를 선택하여 조사하는 방법이다. 장점비용 효율성: 모집..

Domain Study 2024.08.07

[STAT 101] 모집단과 표본, 그 속 통계 값들과 표본 추출 방법

1. 모집단 Population 모집단은 관심의 대상이 되는 전체 집단을 의미한다. 예컨대, "대한민국 여성과 남성의 평균 키 차이"를 구하고 싶다면, 조사해야 하는 모집단은 "대한민국의 모든 여성과 남성"이 된다. 그러므로 모집단의 크기는 매우 클수도, 심지어 무한할수도 있고,그래서 일반적으로 모집단의 모든 구성원에 대한 데이터를 수집하는 것은불가능하거나 금전적, 시간적 제약이 크다. # 모집단의 특성 (평균, 비율, 표준편차 등등)은 모수 (Parameter)라고 한다. 2. 표본 Sample표본은 모집단의 일부로써 모집단을 대표할 수 있는 작은 그룹을 뜻한다.모집단 전체를 알아보기에는 제약이 크니,  허용할 수 있는 오차/신뢰도를 만족하는 최소한의 표본을 추출하고 활용해서 모집단의 특성을 추정하는 ..

Statistics 2024.08.07