Datalogy 7

[데이터 시각화] Python 라이브러리 Matplotlib, Seaborn

Matplotlib과 Seaborn은 Python 내의 라이브러리 중 하나로, 데이터의 시각화에 주로 활용 된다.Matplotlib을 위주로 작성을 해보겠다.  Matplotlib 예시 코드들기본import matplotlib.pyplot as pltx = [1,2,3,4,5]y = [2,4,6,8,10]plt.plot(x,y)plt.xlabel("x-axis")plt.ylabel("y-axis")plt.title("Example")plt.show()  도구들import pandas as pddf = pd.DataFrame({ "A": [1,2,3,4,5] , "B": [5,4,3,2,1]})df.plot(x = "A", y = "B")plt.show()  스타일 설정하기df.plot(x = ..

Datalogy 2024.07.18

[데이터 전처리] Python 라이브러리 Pandas

Python Library - Pandas파이썬은 다음과 같은 유용한 라이브러리들이 많다  Pandas는 데이터를 전처리 할 때 사용할 수 있는 Python의 라이브러리 중 하나로,크게 다음과 같은 데이터 오브젝트 형태를 가진다.   Pandas 기본 코드들불러오고 저장하기import pandas as pdimport seaborn as snsdata = sns.load_dataset('tips')data.to_csv("tips_data.csv", index = False)df = pd.read_csv("tips_data.csv")#df = pd.read_csv("tips_data.csv", index_col = 0)df.to_excel("tips_data.xlsx", index = False)  Ind..

Datalogy 2024.07.18

[Data Literacy_05] 결론 도출

결과와 결론 결과: 계산과 분석을 통해 나온 결과물결론: 결과가 목적에 대해 어떤 의미가 있는지 설명하는 것 결론이 주관적 견해가 최대한 배제된,주어진 데이터의 범주에서 설명 가능한 내용들로 이루어진일종의 "스토리 텔링"이다.  결론 잘 정리하기 0. "문제 정의"와 "지표 설정"위 단계에서 세운 목표를 상기하며 결론 작성 1. 단순하고 쉽게 전달하기핵심 지표 위주로 보고지표 해석 방법도 설명해당 지표를 활용할만한 포인트를 제안하고액션 아이템을 제안한다 2. 흥미유발모든 내용을 담지 말고, 상대가 궁금할 만한 데이터만 제공 3. 대상 관점에서의 접근공유 받는 사람의 시점에서 이해하기 쉽도록 정리"지식의 저주"에 빠지지 말고, 첨부 자료와 시각화를 잘 활용 4. 시각화 팁대상이 직관적으로 이해할 수 있는 ..

Datalogy 2024.07.04

[Data Literacy_04] 지표 설정과 북극성 지표

지표란? 특정 목표나 성과를 측정하기 위한 구체적인 측정 가능한 기준목표 달성도를 평가하고, 전략적 결정에 필요한 핵심 정보를 제공정의한 문제를 정확하게 파악하는데 필요한 요소 예시목표: 날씬해지기핵심지표: 체지방률, BMI 수단 1: 주 5회 이상 운동지표 1: 운동 이행률 (n일/5일) 수단 2: 매일 7시 이후 금식지표 2: 식단달성률 (n일/30일) 위와 같이 널리 사용되는 주요 지표와 이 프로젝트 안에서의 개별 지표를 활용할 수 있음  주요 지표 예시 1. Active User (활성 유저) 서비스에 들어오는 모든 유저가 액티브 유저는 아님정의를 어떻게 하느냐에 따라 전략과 방향이 달라지고, "이탈 유저"가 정의 1. 사이트에만 들어온 유저 (허들은 가장 낮지만, 효율과 이익이 가장 낮음)2. ..

Datalogy 2024.07.04

[Data Literacy_03] 데이터의 유형

정석적 데이터 (Qualitative Data)비수치적 데이터로 텍스트, 비디오, 오디오의 형태를 가지는 주관적 요소를 포함. 정형화, 구조화 되기 어렵고 새로운 현상이나 개념에 대한 이해를 심화하는데 사용함. 정량적 데이터 (Quantitative Data)양적인 측정을 통해 얻을 수 있는 수치적으로 표현되는 정보를 포함.숫자로 존제하는 데이터기 때문에 통계 분석과 지표 만들기에 용이하고 객관성을 가짐. 정성적 데이터를 정량화 해서 사용하기도 한다.예시) 매우만족 - 5점, 만족-4점, 불만-1점 등등예시) 인구 통계 데이터, 수치형 설문조사 데이터, 비즈니스 데이터, 행동 로그 데이터 (웹페이지 등등), 마케팅 데이터 정량적 데이터의 활용1. DAU (Daily Active User)나 Retenti..

Datalogy 2024.07.04

[Data Literacy_02] 문제 정의

우리는 문제를 제대로 정의하지 않고 작업으로 뛰어들곤 한다.  문제 정의란? - 데이터 분석 프로젝트의 성공을 위한 초석- 분석하려는 특정 상황이나 현상에 대한 명확하고 구체적인 진술- 프로젝트의 목표를 설정하고 분석 방향을 결정  문제 정의 사례 상황: 패션 플랫폼 A, 매출 증가가 목표 잘못된 문제 정의: "매출을 어떻게 늘릴 수 있을까?" - 모호하고 구체적이지 않음- 어떤 고객층, 제품에 초점을 맞출지 명확한 지침이 없음그러므로 방향성을 잡기가 어려움 올바른 문제 정의: "지난 6개월 동안 25-35세 여성 고객층의 구매 전환률이 급격히 감소했다.이 고객층의 전환률을 현재의 2%에서 5%로 끌어올리기 위해 어떤 마케팅 전략을적용할 수 있을까?" 구체적인 고객층과 목표치에 대한 지침이 있음.  문제..

Datalogy 2024.07.03

[Data Literacy_01] 데이터의 오류, 활용, 접근법

데이터들이 가질 수 있는 오류들의 예시 1. Simpson's Paradox 심슨의 역설"부분"에서 성립한 대소 관계가 여러 "부분"들을 종합한 "전체"에서는 성립하지 않는 모순. 전체에 대한 결론이, 언제나 개별 집단에 적용되는 것은 아니다.그러므로 데이터를 기반한 결론이라도 맹목적으로 이를 받아들여서는 안된다. 예시) 확진자 수확진 후 28일 이내 사망자 수치명률연령백신 미접종백신 접종백신 미접종백신 접종백신 미접종백신 접종전체151,05447,0082534020.17%0.86%147,61225,53648130.03%0.05%>=503,44021,4722053895.96%1.81% 전체만 보면 백신 접종자의 치명률이 오히려 높음하지만 연령을 "부분"들로 나누어 봤을 때 그 양상이 많이 다름을 알 수 ..

Datalogy 2024.07.03