전체 글 73

[TIL 240906] 딥러닝 속 ANN (Artificial Neural Network)과 GA (Genetic Algorithm)

딥러닝"컴퓨터가 스스로 생각을 할 수 있을까?" 라는 질문에서 시작한 인공지능 (Artificial Intelligence, AI) 는 이제는"컴퓨터는 우리가 명시적으로 지시한 특정 목표를 달성할 수 있는가?"의 생각 아래 머신 러닝 (Machine Learning, ML)의 단계까지 도달하게 되었다. 질문과 해답을 넣어주면 둘 사이의 규칙을 알려주는 머신 러닝은 이제는 인간의 신경망 처럼 질문과 해답 사이에 수많은 은닉층 (Hidden Layer)을 통해 더욱 복잡한 규칙을 구현할 수 있게 되었으며 진화 알고리즘의 자연선택에서 영감을 받은 유전적 알고리즘 또한 최적화 문제에 많이 사용되고 있다. Artificial Neural NetworkANN은 기본적으로 데이터로부터의 학습이 필요하다. 이 때, 데..

오늘 나는 (TIL) 2024.09.06

[TIL 240904] Pandas 데이터 프레임 변형 (Pivot, Stack and Melt 등등)

판다스에는 데이터 프레임을 변형할 수 있는 여러가지 방법이 있다. Pivotpivot() 자료들은 보통 "Record"나 "Wide" 포맷으로 되어있다.이 포맷은 하나의 레코드가 여러 컬럼마다 하나의 값을 가지는 형식인데,이를 피벗화 해주면 컬럼 별 레코드를 확인할 수 있다.예를들어, "시간 별 컬럼 1의 변화량"을 보고 싶다면 pivot을 활용하면 편리하다.  이를 파이썬을 활용해 구하면 아래와 같다. df_pivoted = df.pivot(index="date", columns="variable", values="value")##outcomevariable A B C Ddate 2020-01-03 0 3 6 92020-01-04 1 4 7 ..

오늘 나는 (TIL) 2024.09.04

[P2.2_Wow the Brazil] 브라질 이커머스 데이터와 RFM 군집 분석

분석 결과 1. 고객 별 군집 머신러닝 군집 모델 선발 우리는 기본적으로 k-means 머신러닝 알고리즘을 통해 군집화 분석을 진행했으며,전처리된 RFM을 통해 군집화를 진행하기 앞서, 더 나은 모델을 선발하기 위해 기준점을 잡기 위해전처리 (Transfomation 및 Scaling)가 되지 않은 RFM의 모델 성능을 먼저 확인해보았다.    이 때 최고 실루엣 점수는 k=3일 때 0.337이었으며, 군집의 시각화도 위와 같았다.  우리는 나아가 분석가의 재량 하에 유연성을 보이는 RFM 군집법의 특성을 이용해각각의 R, F, M에 따로 가중치를 주었다.이 중 Frequency의 경우, 그 쏠림이 제일 심했으며,우리는 이를 완화하기 위해 곱해준 "도시 별 인구수" 데이터가 군집 시 너무 큰 영향을 주지..

Projects 2024.09.03

[P2.1_Wow the Brazil] 브라질 이커머스 데이터와 RFM 군집 분석

프로젝트 개요 프로젝트에 들어가기 앞서, 우리 팀은 "브라질 이커머스 기업을 인수한 쿠팡의 현지에서의 기업가지 제고를 위한 데이터 분석"을 맡은 분석가들이라고 페르소나를 정했다. 나아가 해당 데이터들을 기반으로 브라질 고객들을 군집하고 군집 별 아이디어를 도출하는 것을 최종 목적으로 했다. 문제점 가설과 목적분석 절차 이번 프로젝트는 위와 같은 절차로 이루어졌다. 데이터 전처리 및 EDA1. 데이터 병합 먼저 위와 같이 기본으로 주어진 5개의 테이블과, 외부에서 따로 얻은 2개의 데이터를 병합하는 과정을 가졌다.외부 데이터는 customer_city, 즉 도시 이름으로 분류 되어있는 도시 별 인구수 (population) 자료와zip_code, 즉 우편 변호로 이루어진 위도와 경도 (geolocation..

Projects 2024.09.03

[P1_기본 프로젝트] Spotify 고객 분위 별 맞춤 전략 제시안

프로젝트 개요 프로젝트에 들어가기 앞서, 우리 팀은 우리를Spotify의 미국 데이터를 다루는 데이터 분석가들 이라고 페르소나를 정했고, Spotify의 수익성 개선을 위해 이용 고객들의 행동 데이터를 기반으로 고객 분위별 맞춤 개선안들을 제시해보기로 했다. 문제점 스포티파이의 문제점은 세계 시장 장악성과는 다른 수익성이었는데,이는 대부분의 유저들이 무료 이용자인데 반해,스포티파이의 수익의 대부분은 구독자에서 오기 때문이다. 가설과 목적 이에 우리는 스포티파이의 주 수입은 구독이다 라는 가설을 기반으로구독률 향상을 최종 목표로 고객 분위 별 맞춤 전략을 제시하기로 했다. 분석 절차1. 전처리 및 EDA  우선 우리가 갖고있는 데이터는 결측치는 따로 없었기에 결측치 처리는 진행하지 않았다.허나 이 중 눈여..

Projects 2024.09.03

[TIL 240903] Tableau의 예측 프로세스 속 이동 평균과 평활법

오늘은 아래의 아티클을 읽고 이를 정리해보았다. 태블로 Tableau란? 기능 소개, 사용 방법, 가격 후기 - 뉴스젤리 : 데이터 시각화 전문 기업데이터에 대한 생각을 바꾸는 Tableaunewsjel.ly 추가로, 태블로에 예측 기능이 있는 것을 알았고 이에 대해 리서치를 해보았다.   1. 많은 양의 데이터를 빠르게 연동하기태블로는 파일, 서버에 연결하는 두 가지 방법으로 데이터를 업로드 할 수 있다.파일의 경우 엑셀, csv, pdf 등 여러 형태를 업로드할 수 있다. 2. 추천 시스템을 통한 쉬운 차트 시각화드래그 앤 드롭 방식으로 손쉽게 시트를 시각화할 수 있다.데이터의 차원과 측정값을 동시에 선택해 우측 화면에 '표현 방식'을 보는 것으로 원하는 시각화를 할 수 있다. 3. 통계 기능을 통해..

오늘 나는 (TIL) 2024.09.03

[TIL 240820] 머신러닝 10가지 알고리즘

확실히 알아두면 만사가 편해지는 머신러닝 10가지 알고리즘아티클에 대한 정리확실히 알아두면 만사가 편해지는 머신러닝 10가지 알고리즘 | 요즘IT (wishket.com) 확실히 알아두면 만사가 편해지는 머신러닝 10가지 알고리즘 | 요즘IT실무에서 원활히 머신러닝으로 데이터를 분석하는 데 얼마나 많은 알고리즘을 알고 있어야 할까요? 선형, 군집, 트리 같은 기본 개념을 알고 XGBoost와 LightGBM 같은 최신 알고리즘을 알면 우선 현yozm.wishket.com1.     Linear Regression머신러닝의 기초 알고리즘. 구분: 지도학습유형: 회귀데이터 유형: 종속변수와 독립변수가 선형 관계에 있는 데이터장점: 간단하고 해석이 쉬움. 모델링에 긴 시간이 걸리지 않음.단점: 예측력이 비교적..

오늘 나는 (TIL) 2024.08.20

[TIL 240816] 데이터 분석가의 커뮤니케이션

오늘은 아래의 아티클들에 대한 아티클 스터디를 했다.  개발 지식이 없는 클라이언트와 효과적으로 소통하는 방법 5가지 | 요즘IT클라이언트와 원활한 커뮤니케이션을 하기 어려우신가요? 각자 다른 경험과 지식을 갖고 있기 때문에 당연한 일이지요. 개발 지식이 없는 클라이언트가 이해하기 쉽게 여러분의 요점을 전달하yozm.wishket.com [커뮤니케이션] 데이터 분석가와 클라이언트 간의 눈높이 맞추기Intro 데이터 분석가로 일하면서 느낀점은 생각보다 "말할 일이 많다." 였습니다. 수다맨(갑자기 세대차이?) 만큼은 아닙니다만 데이터 분석가도 말할 일이 많습니다. 그리고, 그만큼 대화를 하면gibles-deepmind.tistory.com  개발자와의 커뮤니케이션이 당황스러웠던 이유 | 요즘IT개발 부서와..

오늘 나는 (TIL) 2024.08.16

[STAT 101] 자유도와 카이제곱 분포, 검정

카이제곱에 대한 설명에 들어가기 앞서, 자유도에 대해 먼저 간략히 설명해 보겠다.자유도 Degree of Freedom자유도는 주어진 통계 모델에서 독립적으로 변동할 수 있는 변수의 개수다.이는 역설적으로 통계 모델에서 오는 제약조건이 있기 때문에 사용하는 개념이다.다시 말해, 자유도란 모델 내에서 제약 조건에서 자유롭게 변화할 수 있는 정보의 양을 나타낸다. 예를 들어, 확률 변수 X1​, X2​에 대해서, X1​+X2​=1 이라는 제약 조건이 있을 때,​라는 통계량을 구하는 상황에서, 하나의 확률변수만 알아도, 나머지 하나는 값이 정해지기 때문에, 두 확률 변수를 모두 알 필요는 없다.그러므로 이 상황에서의 자유도는 2 - 1, 1이 된다. 보통 자유도는 관찰 (혹은 정보)의 수에서 추정된 매개변수의..

Statistics 2024.08.14

[TIL 240814] 분산분석 ANOVA 검정과 다중 검정의 문제

오늘은 다중 검정의 일종으로, 3개 이상의 집단의 평균을 비교하는 분산분석 ANOVA와, F 값과 F의 분포, 그리고 다중 검정에서의 문제와 이를 해결하는 사후분석 Post-hoc들을 알아보았다. 아래는 이를 정리한 본인의 글이다.https://thebuck104.tistory.com/68 [STAT 101] ANOVA 검정과 다중 검정의 문제분산분석 Analysis of Variance, ANOVA Test데이터가 서로 다른 세 개 이상의 모집단으로부터 추출된 경우에 사용하는 분석으로, 각 집단의 평균을 비교하는 분석인데 통계적 유의성을 검증할 때 분산을thebuck104.tistory.com

오늘 나는 (TIL) 2024.08.13