오늘 나는 (TIL)

[TIL 240715] 데이터 분석가에게 중요한 것들과 EDA

thebuck104 2024. 7. 15. 19:49

오늘은 "데이터 분석가가 되어보니 중요한 것들" 이라는 아티클의 스터디를 진행했다.

출처: https://yozm.wishket.com/magazine/detail/1863/

 

데이터 분석가가 되어보니 중요한 것들 | 요즘IT

개발자, 디자이너, 기획자, HR, 오퍼레이션 등 대부분의 직무에서 우리가 일하기 전 예상했던 업무와 실제 업무에는 차이점이 존재합니다. 비즈니스는 빠르게 변화하기 때문에, 학생 때 배운 교

yozm.wishket.com

 

또한, SQL 챌린지 반 1회차를 수강했다.

https://thebuck104.tistory.com/48

 

[SQL챌린지] 01.

 

thebuck104.tistory.com

 

오늘의 TIL에는 아티클 스터디에 관해 작성해 보겠다.


데이터 분석가란?

 

데이터에 기반해 성공확률이 높은 의사결정을 지속적으로 하도록 돕는 사람.

데이터 분석가에게 중요한 점은 아래와 같이 크게 세 가지가 있다.

 

1.     데이터 기반

데이터 분석가는 데이터에 기반해 의견을 낸다. 따라서, 데이터 분석가는 데이터가 흐르는 조직을 만들어야 한다.

 

1.1  데이터가 흐르는 조직

데이터가 흘러야 실험, 목표설정, 스토리텔링 분석이 가능하고, 이를 통해 분석의 고도화를 이룰 수 있다.

데이터가 흐르는 조직을 만들기 위해서는 데이터를

-       쉽게 확인할 수 있고

-       주요 지표를 잘 인지할 수 있게 만들어야 한다.

 

1.1.1       BI 툴 도입

많은 지표들의 계기판인 BI 툴을 도입해 대시보드를 만들어야 한다. 지표가 많아질수록 지표를 잘 찾을 수 있도록 BI를 설계해야 하는데, 카테고리별 분류와 위계 및 중요도를 시각적 표현해가며 진행해야 한다. 또한, 사용자로 하여금 분석에 사용할 수 있는 필터 (성별이나 멤버십 가입 여부 등)를 제공해야 한다.

 

1.1.2       SQL 교육과 데이터 마트

SQL을 교육함으로 비데이터 직군 구성원도 데이터를 확인하면서, 단순 쿼리 요청이 줄어들고 직접 데이터가 어떤 형태로 존재하는지 파악하며 내용을 구체적이고 심도 있게 분석하게 할 수 있다.

하지만 데이터가 어디에 어떻게 있는지 확인하는 것이 SQL 교육의 큰 걸림돌이 되는데, 이를 미리 문서화하고 여러 데이터를 모아 목적에 따라 가공한 데이터 마트를 미리 만들어, 마트에 접근하도록 유도해야 한다. 이 때, 메트릭 스토어를 도입하는 등 하나의 통합된 지표를 사용하는 방법도 있다.

 

1.1.3       주요 지표 인지하기

데이터가 흐르지 않는 조직은 매출과 거래량이 어느 정도인지 구성원이 파악하지 못하는 경우가 있는데, 이 때 상황을 요약하는 리포트 등을 꾸준히 공유해야 한다. 리포트는 결과 지표를 포함해 다음을 추가하면 좋다.

a.     결과 지표 추이를 통해 예상되는 미래 상황과 목표를 고려했을 때 얼마나 잘 하고 있는지,

b.     결과 지표에 선행하는 것으로 보이는 지표는 무엇인지,

c.     최근 액션에 대응하는 결과를 볼 수 있는 지표가 무엇인지,

d.     현재 상황이 어떤지

이 때, 구성원에 따라 특정 지표의 오너십을 부여해 해당 구성원을 메트릭 오너 (Metric Owner)로 임명해 책임감을 더해줄 수 있다.

 

2.     성공 확률이 높은 의사결정

단순 빅데이터를 쌓을 수 있다는 사실을 넘어, 데이터 기반의 의사결정은 성공확률을 높이는 결정이 된다. 다만, 이를 이루기 위해서는 다음과 같은 작업을 필요로 한다.

 

2.1  상황을 정확하게 해석하기

같은 지표라도, 직무, 조직내 위치, 성향 등에 따라 다르게 해석할 여지가 다분하다. 데이터 분석가는 여러 지표를 적절히 조합하고 분석해서 편향되지 않는 판단으로 진단을 내려야 한다. 하지만 언제나 그럴 수는 없기에, 그렇지 못했을 경우 상황에 대한 해석을 업데이트 하고, 왜 이렇게 해석했는지 이유를 알려야 한다.

또한 올바른 해석을 위해 도메인 지식을 지속적으로 기르는 것도 중요하다. 실제 사례 속의 중요 지표들은 도메인 지식이 없는 사람은 알아차릴 수 없는 지표인 경우가 많다. 이렇듯 생각의 프레임워크를 사실에 가깝게 구성해야 한다. 생각의 프레임워크를 통해 작업 시간을 줄이고 커뮤니케이션을 더 명확하게 할 수 있다.

 

2.2  목표 설정과 성과 측정

목표 설정 실행 측정 축적이라는 일련의 과정을 통해 체계적으로 조직을 운영을 하고 더 전략적으로 성공확률을 높여야 한다.

 

2.2.1       목표 설정하기

목표치는 크게 다음과 같이 나눌 수 있다.

a.     구조화된 로직에 과거 데이터를 활용한 예상치

b.     새로운 액션에 대한 확신 수준, 시장이나 경쟁사 상황, 불확실성을 반영한 기대치

c.     의지치

위와 같이 예상치에 구조화된 로직에 기대치와 의지치로 로직의 수치를 변경하는 것

로직을 세분화해 더욱 자세한 목표치를 설정할 수 있지만, 언제까지나 혈실적이지만 조금은 어려운 수준에서 공동의 목표를 만들고 구성원의 몰입을 끌어내는 것이 중요하다.

 

2.2.2       성과 측정하기

성과의 축적도 중요하지만 좋은 성과를 가려내기 위해 이를 잘 측정하는 것도 중요하다. 가장 보편적으로는 해당 시기 이후 지표가 어떻게 변했는지를 확인하는 것으로, 예로는 전형적인 지표의 변화를 통한 성과 측정이 있다.

하지만 성과의 측정이 정말 지표의 변화 때문인지 확실히 알 수는 없기에, A/B 테스트 실험을 통해 이를 확인할 수 있다. A/B 테스트를 통해 무작위로 할당된 그룹 간 지표 차이를 통해 성과를 측정할 수 있고, 외부 요인으로 인한 지표 변화는 모든 그룹에 공통되기 때문에 실험을 통한 성과 측정에 영향을 주지 않는다. 하지만 A/B 테스트는 상대적으로 단기적인 성과만 측정이 가능해, 각 방법론의 장점과 한계 등을 인지해 좋은 성과 측정 방법을 제안할 수 있어야 한다.

 

3.     지속성

데이터 기반 의사결정이 언제나 옳을 수는 없지만, 장기적으로 보면 결과적으로 가장 높은 성공 확률을 갖추게 된다. 이러한 지속성을 위해 데이터 분석가는 비즈니스 사이클에 맞춰 분석을 해야 한다. 먼저, 분석 주제가 현재 회사가 집중하는 것과 같아야 하며, 다음으로 분석 주제가 비즈니스 사이클에 필요한 적절한 것이어야 한다.

a.     기회 발굴, 아이디어 수집, 정책 설계 등의 플래닝 단계

-       탐색적 분석과 데이터 및 성과 측정 방법 설계

b.     플래닝의 결과 실행 및 배포 단계

-       데이터 확인과 대시보드 관리

c.     성과 측정 및 후속 분석 단계

-       성과 측정 및 추가 데이터 분석으로 인사이트 도출, 플래닝 단계에 반영

데이터 분석가는 지속성을 위해 위와 같은 세 단계의 비즈니스 사이클에 맞춰 데이터 분석 및 성과 측정을 해야 한다.

 


EDA?

 

EDA (Exploratory Data Analysis 탐색적 분석)

EDA는 데이터 분석 초기 단계에서 매우 중요한 역할을 하며, 데이터에 대한 깊은 이해를 바탕으로 이후의 분석 단계나 모델링 과정을 성공적으로 수행할 수 있도록 돕는다. 다양한 시각화, 통계학 기법을 통해 데이터를 탐색하고 데이터의 본질을 파악하는 것이 EDA의 핵심 목적이다.

 

EDA의 목적:

1.     데이터의 이해

데이터에 대한 전반적인 이해와 변수간의 관계와 구조를 파악

2.     이상치 탐지

데이터 셋 내의 아웃라이어 및 오류들을 반견

3.     가설 설정

이를 기반으로 새로운 가설을 세우고, 분석 뱡향 결정

4.     모델 선택

적절한 모델을 선택하거나 개발

 

EDA의 단계:

1.     데이터 수집 및 준비

데이터 소스 결정, 수집, 정제

2.     데이터 요약

평균값, 중요값, 분산, 표준편차, 최대, 최소값 등의 데이터의 통계적 요약

3.     데이터 시각화

히스토그램, 박스플롯, 산점도, 파이차트, 히트맵 등을 활용

4.     변수간 관계 분석

상관분석, 교차표 등을 통해 변수간 관계 분석

5.     이상치 탐지

이상치, 혹은 이상한 패턴 발견 후 처리

 

EDA 주요 기법:

1.     기술 통계

2.     시각화

3.     상관분석

피어슨 상관계수, 스피어만 상관계수 등을 통함

4.     피벗 테이블

데이터 요약 후 그룹별 통계 계산