오늘 나는 (TIL)

[TIL 240809] 데이터 해석 시 흔히 하는 실수들

thebuck104 2024. 8. 8. 11:12

그 데이터는 잘 못 해석되었습니다.

https://yozm.wishket.com/magazine/detail/1816/

 

그 데이터는 잘못 해석되었습니다 | 요즘IT

무엇이든 데이터가 있으면 쉽게 결정을 내릴 수 있을 것 같습니다. 하지만 현업에서는 데이터가 있어도 결정을 내리기 어려운 상황들이 있습니다. 특히 데이터를 통한 의사결정을 내릴 때, 가장

yozm.wishket.com

 

 

잘못 해석되는 데이터의 상황 별 유형

 

 

1.     생존자 편향의 오류

 

대상은 전체 이용자를 대상으로 해야 한다.

이탈자만을 대상으로 하면 편향된 오류가 생길 수 있다.

 

 

2.     심슨의 역설

 

전체가 말하는 것이 세분화 그룹이 말하는 것과 다른 것

 

전체 집단의 큰 지표가 아닌, 집단을 더 나누어 지표를 확인하는 과정이 필요함.

종합 만족도만 봤을 때 A 서비스와 B 서비스 중 B 서비스가 더 좋은 서비스로 보이지만,

성별의 만족도만 보면 A 서비스가 더 좋은 서비스처럼 보인다.

추가로 성별 별 사용자 수를 추가함으로 남자는 A 서비스를 더, 여자는 B 서비스를 더 선호하는 것을 알 수 있게 된다.

 

3.     상관관계를 통한 성급한 일반화

 

상관성이 있어 보인다 해도, 인과성이 없을 수 있다.

이럴 경우 두 지표 사이에 3의 공통 원인이 존재할 가능성이 크다.

 

아이스크림 판매율해변가 익사율평균 기온이라는 공통 원인을 기반으로 양의 상관관계를 가질 수 있다.

 

 

4.     목적에 맞지 않는 지표 선택

 

CTA (Call To Action) 버튼의 개선점을 찾기 위한 지표

 

     1.     CTA 버튼 조회 유저 수 대비 CTA 버튼 클릭 유저 수 (중복 제거)

인지한 유저 중 실제로 전환된 유저 수를 알려줌

      CTA 버튼의 효과

      ㄴ 유저 기준

 

     2.     CTA 버튼 조회수 대비 CTA 버튼 클릭 수

유저 수와 무관하게 더 많이 클릭되는 버튼 만들기에 알맞은 지표

      ㄴ 이벤트 기준


 

이것들 말고도 또 무엇을 조심해야 할까?

 

1.     더닝-크루거 효과 Dunning Kruger Effect

지식이 부족한 사람이 자신의 능력을 과대평가하여 과감한 결정을 내리거나, 반대로 지식이 많은 사람이 자신의 능력을 과소평가하는 경우.

 

2.     가로등 효과 Streetlight Effect

문제를 해결하거나 정보를 찾을 때 가장 편리하거나 잘 보이는 곳에서만 찾으려는 경향.

 

3.     확증 편향 Confirmation Bias, 선택 편향, 관찰 편향

자신의 신념이나 가설을 확인하려는 경향으로, 자신에게 유리한 정보만 선택적으로 수집하거나 해석하는 것.

 

4.     누적 오류 Cumulative Error

작은 오류들이 쌓여서 큰 오류를 초래하는 현상.

 

5.     파레토 법칙 Pareto Principle

전체 결과의 80%가 원인의 20%에서 비롯된다는 법칙.

모집단이 정규분포가 아니게 됨. -> 비모수 긴꼬리 그래프

 

6.     우즐 효과 Woozle Effect

원래의 의미가 왜곡된 상태로 퍼지는 현상. 잘 못된 연구 결과가 반복 인용되면서 점점 더 널리 알려지고, 결국 사람들이 이를 진실로 받아들이는 경우.