Datalogy

[Data Literacy_01] 데이터의 오류, 활용, 접근법

thebuck104 2024. 7. 3. 20:05

데이터들이 가질 수 있는 오류들의 예시

 

1. Simpson's Paradox 심슨의 역설

"부분"에서 성립한 대소 관계가 여러 "부분"들을 종합한 "전체"에서는 성립하지 않는 모순.

 

전체에 대한 결론이, 언제나 개별 집단에 적용되는 것은 아니다.

그러므로 데이터를 기반한 결론이라도 맹목적으로 이를 받아들여서는 안된다.

 

예시)

  확진자 수 확진 후 28일 이내 사망자 수 치명률
연령 백신 미접종 백신 접종 백신 미접종 백신 접종 백신 미접종 백신 접종
전체 151,054 47,008 253 402 0.17% 0.86%
<50 147,612 25,536 48 13 0.03% 0.05%
>=50 3,440 21,472 205 389 5.96% 1.81%

 

전체만 보면 백신 접종자의 치명률이 오히려 높음

하지만 연령을 "부분"들로 나누어 봤을 때 그 양상이 많이 다름을 알 수 있음.

 

 

 

2. 시각화를 활용한 왜곡

있는 그대로, 로그, 100분율 등등으로 달라지는 그래프는

그래프를 보는 사람으로 하여금 왜곡된 시각을 가지게 할 수 있다.

 

 

 

3. 샘플링 편향

고르게 Random Sampling이 실행되지 않으면

전체를 대표하지 못하는 편향된 샘플들이 선정되어 오류를 야기할 수 있다.

 

 

 

4. 상관관계와 인과관계

 

상관관계

두 변수가 얼마나 상호 의존적인지를 파악하는 것

한 변수가 증가하면 다른 하나는 증가/감소 한다

 

인과관계

실질적으로 하나의 요인으로 인해 다른 요인의 수치가 변하는 형태

원인과 결과가 명확하

 


 

데이터 활용 예제

 

1. 그래프를 볼 때, 이 그래프를 통해 어떤 것을 말할 수 있나?

 

- 단순히 데이터를 읽는 것

 

2. 그 그래프를 작성한 사람은 무엇을 말하고 싶었을까?

 

- 데이터 작업 전 알고싶은 것을 생각해보는 목적 사고적 방식

 

 


 

데이터 분석 접근법

 

1. 문제 및 가설 정의 - 생각

 

2. 데이터 분석 - 작업

 

3. 결과 해석 및 액션 도출 - 생각

 

데이터 분석 자체가 목적이 되지 않도록

"생각을 통해 '왜?' 를 도출해야 한다."