그 데이터는 잘 못 해석되었습니다.
https://yozm.wishket.com/magazine/detail/1816/
잘못 해석되는 데이터의 상황 별 유형
1. 생존자 편향의 오류
대상은 전체 이용자를 대상으로 해야 한다.
이탈자만을 대상으로 하면 편향된 오류가 생길 수 있다.
2. 심슨의 역설
전체가 말하는 것이 세분화 그룹이 말하는 것과 다른 것
전체 집단의 큰 지표가 아닌, 집단을 더 나누어 지표를 확인하는 과정이 필요함.
종합 만족도만 봤을 때 A 서비스와 B 서비스 중 B 서비스가 더 좋은 서비스로 보이지만,
성별의 만족도만 보면 A 서비스가 더 좋은 서비스처럼 보인다.
추가로 성별 별 사용자 수를 추가함으로 남자는 A 서비스를 더, 여자는 B 서비스를 더 선호하는 것을 알 수 있게 된다.
3. 상관관계를 통한 성급한 일반화
상관성이 있어 보인다 해도, “인과성”이 없을 수 있다.
이럴 경우 두 지표 사이에 “제 3의 공통 원인”이 존재할 가능성이 크다.
“아이스크림 판매율”과 “해변가 익사율”은 “평균 기온”이라는 공통 원인을 기반으로 양의 상관관계를 가질 수 있다.
4. 목적에 맞지 않는 지표 선택
CTA (Call To Action) 버튼의 개선점을 찾기 위한 지표
1. CTA 버튼 조회 유저 수 대비 CTA 버튼 클릭 유저 수 (중복 제거)
인지한 유저 중 실제로 전환된 유저 수를 알려줌
ㄴ CTA 버튼의 효과
ㄴ 유저 기준
2. CTA 버튼 조회수 대비 CTA 버튼 클릭 수
“유저 수와 무관하게 더 많이 클릭되는 버튼 만들기”에 알맞은 지표
ㄴ 이벤트 기준
이것들 말고도 또 무엇을 조심해야 할까?
1. 더닝-크루거 효과 Dunning Kruger Effect
지식이 부족한 사람이 자신의 능력을 과대평가하여 과감한 결정을 내리거나, 반대로 지식이 많은 사람이 자신의 능력을 과소평가하는 경우.
2. 가로등 효과 Streetlight Effect
문제를 해결하거나 정보를 찾을 때 가장 편리하거나 잘 보이는 곳에서만 찾으려는 경향.
3. 확증 편향 Confirmation Bias, 선택 편향, 관찰 편향
자신의 신념이나 가설을 확인하려는 경향으로, 자신에게 유리한 정보만 선택적으로 수집하거나 해석하는 것.
4. 누적 오류 Cumulative Error
작은 오류들이 쌓여서 큰 오류를 초래하는 현상.
5. 파레토 법칙 Pareto Principle
전체 결과의 80%가 원인의 20%에서 비롯된다는 법칙.
모집단이 정규분포가 아니게 됨. -> 비모수 긴꼬리 그래프
6. 우즐 효과 Woozle Effect
원래의 의미가 왜곡된 상태로 퍼지는 현상. 잘 못된 연구 결과가 반복 인용되면서 점점 더 널리 알려지고, 결국 사람들이 이를 진실로 받아들이는 경우.
'오늘 나는 (TIL)' 카테고리의 다른 글
[TIL 240813] 오늘의 통계, AB Test와 T 검정 (0) | 2024.08.13 |
---|---|
[TIL 240812] 머신러닝과 딥러닝의 간략한 차이 (5) | 2024.08.13 |
[TIL 240808] Python의 Itertools 라이브러리 순열과 조합 (0) | 2024.08.07 |
[TIL 240807] Python의 정규 표현식 Regular Expression (0) | 2024.08.06 |
[TIL 240806] Python의 Collections 라이브러리 (0) | 2024.08.05 |