프로젝트 개요
프로젝트에 들어가기 앞서, 우리 팀은 우리를
Spotify의 미국 데이터를 다루는 데이터 분석가들 이라고 페르소나를 정했고,
Spotify의 수익성 개선을 위해 이용 고객들의 행동 데이터를 기반으로
고객 분위별 맞춤 개선안들을 제시해보기로 했다.
문제점
스포티파이의 문제점은 세계 시장 장악성과는 다른 수익성이었는데,
이는 대부분의 유저들이 무료 이용자인데 반해,
스포티파이의 수익의 대부분은 구독자에서 오기 때문이다.
가설과 목적
이에 우리는
스포티파이의 주 수입은 구독이다 라는 가설을 기반으로
구독률 향상을 최종 목표로 고객 분위 별 맞춤 전략을 제시하기로 했다.
분석 절차
1. 전처리 및 EDA
우선 우리가 갖고있는 데이터는 결측치는 따로 없었기에 결측치 처리는 진행하지 않았다.
허나 이 중 눈여겨 볼 것들은 아래와 같았다.
- 대부분의 레코드가 '여성' 이었다.
- 대부분의 데이터가 '20-32세' 였다.
- 대부분의 데이터가 '비구독자' 였다.
위와같이 데이터가 심하게 치우쳐져있는 부분을 보였고,
그 외 선호 컨텐츠, 사용 주기, 선호 이용 디바이스 등 많은 컬럼이 "명목형"으로 되어있었다.
수치형이 아닌 데이터들을 가지고 EDA를 하는 것은 쉽지 않았으나,
고객 분위 클러스터링을 위한 방법으로 "RFM"을 선택했기에
이와 관련된 컬럼들에 우선 주목하기로 했다.
2. RFM 클러스터링
우선 RFM이란 Recency, Frequency, Monetary의 약자로,
고객들을 최신 구매 일, 구매 빈도수, 총 구매 액수를 기반으로 나누는 기법이다.
RFM은 나이, 성별, 인구통계학적 지표를 포함하는 고객 정보를 기반으로
고객을 관리하는 CRM 중 하나라고 할 수 있다.
기본적으로 RFM은 수치형 데이터들을 기반으로 이루어지지만, 명목형 데이터 밖에 없던 우리는 분석가의 재량껏 파라미터를 바꾸거나 가중치를 달리할 수 있는 RFM의 유연성을 기반으로다음과같이 RFM 파라미터를 바꿔보았다.
Recency (최근성)에 활용되는 이상적인 데이터는 날짜 기반 데이터겠지만,본 데이터는 날짜 데이터가 없었기에 이를 Spotify Usage Period, 즉 스포티파이 사용 기간으로 대체하였다.즉, 스포티파이를 오래 사용한 고객일 수록 R에서 높은 점수를 받도록 했다.
Frequency (빈도수)에 활용되는 이상적인 데이터는 역시 구매 빈도이고,본 데이터에서는 총 구독 횟수 같은 데이터가 이상적인 F가 됐을 것이다.하지만 본 데이터는 이에대한 데이터가 부족했고, 우리는 대신 명목형 컬럼이던 Music Listening Frequency, Pod Listening Frequency를 사용했다.해당 컬럼의 Value들은 근무 중, 공부 중, 통근 중 등으로 이루어져 있었다.
RFM을 계산하려면 명목형 데이터를 수치화 해야했기에, 각 지표 별 미국인들의 연간 평균 소요 시간을 검색했고, 이를 기반으로 각각의 컬럼의 Value들의 순위를 정했다.예컨대, 미국인 평균 근무 시간이 해당 시간들 중 최상위에 속했기에, '근무 중 (Office Hour)'를 답변한 레코드들에 높은 F 점수를 주었다.추가로 복수 답변을 체택한 레코드들에게도 가중치를 주었다.
Monetary (구매력)에 활용할 수 있는 데이터는 역시 총 구매 액수, 평균 구매 액수 등일 것이다.
하지만 이런 수치적 데이터가 부족한 본 데이터에서는 위와 같은 데이터를 통해 이를 대체해야 했다.
구독률 향상이 본 프로젝트의 최종 목적이었기 때문에, 구매력 부분에서 더 세세한 체점을 하기로 했고,
spotify subscription plan, 구독 여부로 구독 고객인지 아닌지를 확인,
premium sub willingness, 구독 희망 여부를 통해 앞으로의 구독 의향을 보고,
최종적으로 세세하게 선호나는 구독 종류가 있는지를 보았다.
이렇게 우리만의 RFM 파라미터를 정했고,
결과적으로 36점의 총점을 갖는 RFM 클러스터링 모델이 되었다.
각 레코드에 RFM 점수를 부여했으며,
이를 기반으로 상위 20%가 1분위 고객이 되게끔,
하위 20%가 5분위 고객이 되게끔 고객을 클러스터링 했다.
분석 결과
그 결과 위와 같은 베스트, 로얄, 포텐셜, 일반, 그리고 콰이어트 고객으로
모든 고객들을 나눌 수 있었고, 아래와 같이 분위 별 고객들의 특성들을 다시 볼 수 있었다.
1분위 Best Customers
1분위의 베스트 고객들은 대부분 스포티파이를 가장 오래 사용했으며,
사용 빈도도 높고, 구독까지 하고 있는 고객들이므로 말그대로 VIP들이라고 할 수 있다.
1분위의 특징으로는 컴퓨터와 노트북등을 사용하는 인구가 전체 대비 급증한 점이었는데,
이렇게 휴대성이 떨어지는 기기들의 사용율이 늘어난 점은
이동 중이 아닐 때도 스포티파이를 적극적으로 사용한다는 점이라고 파악했고,
이는
업무시간 내내 음악을 틀어 놓아야 하는 여러 자영업 가게에서의 스포티파이 사용률이 반영되었을 수 있다.
그러므로 1분위 고객들을 대상으로 우리의 목표는 구독률 유지,
혹은 더 높은 구독플랜으로의 전환을 유도하는 것이었고,
총 플레이시간에 따른 여러 혜택을 구독 플랜 별로 다르게 제공 한다거나,
자영업자들의 사용률을 더 늘리기 위해 자영업자 맞춤 혜택을 강화하는 것도 좋아보였다.
2분위 Loyal Customers
2분위의 로얄 고객들은 베스트 고객들 만큼은 아니지만 대체적으로 높은 RFM을 보이며,
구독 여부에 따라 1분위에 위치하게 될 수도 있을 고객들이다.
구독률 자체는 낮은 편이지만 전체 대비로는 높은 편이며, 스포티파이를 사용한지 1년이 안된 인원이 다수고,
구독 의향이 다수 있는 고객들이 모인 분위이다.
1분위대비 2분위는 6개월에서 1년 사이의 사용빈도가 높은 고객들이 주로 집중되어 있으며
이제 막 스포티파이를 접했고, 1분위 대비 알고리즘 활용도가 높은 점을 보아
알고리즘 추천에 신선함을 느끼는 것으로 추정되었다.
팟캐스트 사용자 중 12-20세가 다른 세그먼트보다 많은 것도 눈여겨볼 특징이었으며,
10대 비율이 다른 분위들보다 높은 편에 속하지만, 그럼에도 학생 플랜보다 개인 플랜을 더 선호하는 점에서
복합적 이유로 스포티파이를 호의적으로 바라봐주는 분위라고 볼 수 있었다.
하지만, 학생들이 학생 플랜을 더 잘 사용할 수 있게끔 학생 플랜의 혜택에 변화가 필요해 보였으며,
팟캐스트 사용자 중 12-20세가 많은 점을 기반으로 10대들을 겨냥한 여러 팟캐스트 프로그램들을 개발하면
구독률 향상에도 기여를 할 것으로 보였다.
3분위 Potential Customers
3분위 잠재성 고객들은 특별한 고객들인데, 이는 구독 측면에서만 낮은 수치를 보이지만
최근성과 빈도성에서는 오히려 2분위보다 전체적으로 높았고,
이를 기반으로 RFM 평균을 끌어올린 고객들이기 때문이다.
2분위와는 다르게 1년 이상 사용자가 제일 많았으며, 사용빈도도 상위권이다.
하지만 3분위부터 구독률이 0%가 되기 시작하고, 구독 의향도 매우 낮아지기 시작한다.
특징으로는 가장 비싼 Duo 플랜과 가장 저렴한 학생 플랜을 공통으로 선호하는 경향을 보인다는 점인데
Duo는 친구, 가족, 룸메이트 등과 함께 나눌 수 있다는 점에서 메리트가 있었던 것으로 보인다.
사용 기간과 빈도수는 높지만 구독 의향이 낮기 때문에
현재 무료로도 얼마든지 사용 가능한 스포티파이 시스템에 적응하고 만족하는 고객 클러스터의 시작이라고 볼 수 있으며,
이들을 위한 확실한 구독 혜택의 어필이 필요해 보이며,
둘이 나누는 Duo 플랜의 값, 학생 플랜의 값보다 더 저렴한 체험 플랜 등을 구상해,
3분위 고객들로 하여금 구독의 필요성을 각인 시켜줄 필요가 있다고 볼 수 있었다.
4분위 Ordinary Customers
4분위는 가장 일반적인 고객들로 스포티파이를 꽤나 오래, 자주 사용하지만
구독을 전혀 하지 않는 고객들이다.
즉, 현재 무료로 즐길 수 있는 스포티파이의 이점을 최대한으로 이용하고 있는 고객들이라고 할 수 있다.
스포티파이 사용률을 보면 3분위와도 비슷한 측면을 보이지만
구독 의향조차 전혀 없다는 점이 둘을 나누고 있었다.
그래서 4분위의 목적은 비구독자를 구독자로 전환하기보다는,
그들의 구독 의향부터, 즉 스포티파이 프리미엄의 이미지 개선이 먼저라고 생각했다.
4분위의 특징으로는 쉬는 시간 및 공부시간에 스마트 기기 활용을 많이 하는 인구와
클래식 뮤직 장르를 선호하는 인구들이 선호 플랜으로 학생 플랜을 더 많이 답변했다는 점인데,
해당 인구들이 4분위내 잠재적 수익성이 뛰어나다는 점을 봤을 때,
3분위와 마찬가지로 구독의 필요성 및 좋은 점들을 더 어필하면서
학생 플랜을 위주로 스마트 기기와의 새로운 연동성을 확보한다면
구독 의향을 높이는데 일조할 수 있을거라 생각했다.
5분위 Quiet Customers
다음은 Spotify의 현재 문제점이 절실히 드러나는 5분위, 침묵 고객들이다.
모든 면에서 최 하위점을 받은 고객들이지만, 그 인원수는 세그먼트 중 제일 많은 총 136명으로,
비율도 전체 중 약 26%나 차지하는 분위였다.
사용 기간도 6개월을 못미치는 인원이 많았고,
구독률은 0%이면서 뮤직 컨텐츠와 추천 알고리즘 활용률이 압도적으로 많았다.
그렇기에 5분위의 고객들은 스포티파이의 최대 장점인 무료 음악 감상기능과
추천 알고리즘 기능이 잘 광고되어 이제 막 스포티파이를 접해보려고 유입된 인구들이라고 파악했다.
구독률도 구독의향도 0%인 스포티파이를 알아가는 유입 고객들을 상대로
구독을 강요한다면 반발력이 심할 것으로 생각되었으며,
구독 혜택과 구독률 인하 같은 구독 장려 프로모 보다는
외부적으로 더 많은 아티스트와의 협업이나 오프라인 행사 등을 통해
뮤직 컨텐츠와 추천 알고리즘이 스포티파이의 전부가 아님을 알려줘
스포티파이의 다양성과 풍부함을 인식시켜주는 것이 먼저라고 판단했다.
마치며
데이터에 정량적인 수치 데이터가 많았더라면 더 완벽한 RFM 클러스터링을 수행했을 수 있을 것 같다.
나아가, 머신러닝 군집 알고리즘이나 통계 분석을 활용했다면
클러스터링을 더 잘 수행할 수 있었을 것이며,
기초 프로젝트였기에 해당 부분들을 모두 제외하고 진행했다는 점에서
나쁘지않은 절차와 결과를 만들어낸 것 같다.
'Projects' 카테고리의 다른 글
[P2.2_Wow the Brazil] 브라질 이커머스 데이터와 RFM 군집 분석 (5) | 2024.09.03 |
---|---|
[P2.1_Wow the Brazil] 브라질 이커머스 데이터와 RFM 군집 분석 (6) | 2024.09.03 |