ݺߣ

ݺߣShare a Scribd company logo
우종호 / kakaomobility(데이터 엔지니어)
Data Driven Decision을
위한 데이터 플랫폼 구축기
Kakaomobility. Data Engineer
Experimentation Platform
ML Platform
User Behavior Analytics & User Segmentation
Kubernetes is Awesome!
Data Driven Decision을 위해 노력한 이야기
feat. 데이터 엔지니어
Data Driven Decision을 위해 노력한 이야기
feat. 데이터 엔지니어
SQL & 테이블에 대한 이해가 부족하더라도 지표를 확인할 수 있게!
파편화된 정보를 바로 활용할 수 있게 정재해놓기.
쉽게 정보를 공유하고, 타 시스템과 Integration이 가능하게 지원.
새로운 아이디어를 빠르게 실험하고 결과를 바로 확인할 수 있는 시스템을 지원.
Data Driven Decision을 위한 데이터플랫폼구축기@kakaomobility
Data Driven Decision을 위한 데이터플랫폼구축기@kakaomobility
Supply Side
Demand Side User Activity Event Driver
Payment Location, GPS Weather
Customer data
수많은 서비스와 다양한 데이터 형태
SQL, Table Analysis, Reporting Automation, Data Pipeline
I need DATA
데이터를 서비스에 데이터를 활용하기 위한 Data Pipeline & Data Platform
Feature Store & AI/ML Platform
Driving Habit Pipeline
Location Platform
User Behavior Analytics Pipeline
User Segmentation Pipeline
Experimentation Platform
. . .
• Demand & Supply Forecasting
• Matching
• Prediction
• Dynamic Pricing
• 유저의 행동 패턴을 확인.
• 유저 세그먼트를 만들어서 타켓팅에 사용.
• AB Test 실험을 통해 유저의 반응을 확인.
• 주요 유저 Event를 발생시키는 고객군 cohort 분석
• Funnel 분석
click
click
수 많은 서비스와 수 많은 Event Log
수천 여개의 Event Definition, 일별 약 10억 개의 Event Log, 서비스 별로 수십GB 발생
대용량 데이터 처리
where
who
what
why??
Event는 발생시점에 다양한 정보를 담고있어야 한다.
Event & Event Property User Property
Event Name: 택시호출버튼클릭
Event Kind: Click
page: 택시호출중
custom property
- 출발지, 도착지
- 예상거리
- 예상시간
- 노출된선택유형 : 스마트호출 4800 /...
- 선택호출유형: 일반호출
os: IOS
os version : 14.1
vertical service: kakaoT
회원가입: 2020.05.13
최근로그인: 2021.08.01
최근6개월동안 택시 사용횟수: 8회
로열티등급: Gold
포인트: 23,000P
자동결제 카드등록여부 : True
마케팅동의 여부: True
User Segmentation DB
Event Schema Definition
ge event name kind custom prop
page event name kind custom prop
택시호출중 택시호출화면노출 PageView 호출상품, ..
page event name kind custom prop
택시호출중 택시호출버튼클릭 Click 호출상품, ..
택시호출중 앱종료 Exit 호출상품, ..
Amplitude - Taxonomy Template
Segment - Tracking Plan (Basic)
Data-led Academy: The Ultimate Tracking Plan Template
Event Schema를 관리 & Google Sheet
서비스가 커지면서, 관리해야 할 이벤트의 개수가 폭발적으로 증가.
History관리의 한계.
다른 사람이 만든 이벤트는 건들기 힘듦. 내가 만든 이벤트도 기억이 나지 않음.
정의는 되어있지만, 나중에 확인해 보니 데이터가 적재되지 않은 경우.
반대로 삭제되었지만, 계속해서 데이터가 발생하는 경우.
데이터 분석의 자동화가 힘듦.
데이터의 Quality가 떨어지고, 불필요한 Legacy 데이터가 점점 증가.
...
발생하는 Event Log를 정의하고, Quality를 관리. 자동화를 위해 메타데이터로 관리.
Event Log Management & Governance
• Event Schema Definition & Management. 수정, 삭제 등 이벤트 정의를 전반적으로 관리 해야함.
• Volume & Trend. 이벤트가 제대로 수집되고있는지 특정 버전에서 이벤트가 누락이 되었는지 실시간으로 파악
• Quality & Validation. 정의한대로 이벤트가 수집되고있는지 체크. 중복이나 필드의 누락 여부를 확인해서
데이터의 품질을 관리 해야함.
• Audit & History.
Event Data Governance
Data Collecting
Web Dashboard
Meta DB
Data Processing
API
• Aggregation
• Check Validation
• Custom properties 분석
Metric Storage
Data Analysis
Metric Cube
외부 시스템과 연동
Event Log Data Pipeline
User
https://adssettings.google.com/authenticated
• User의 성향에 따라, 개인화 요소를 적용 시킬 수 있다.
• 미리 고객군을 나누어 놓고 분석을 해놓는 작업이 필요.
• User마다 labeling을 해놓고 고객군을 만들때 feature로 사용.
Segmentation & Targeting
Behavioral
Customer data
Demographic
Psychographic
Firmographic
2800만명의 전체 사용자
- 매주 택시를 사용하는 고객군.
- 택시 + 바이크를 함께 사용하는 고객군.
- 6개월동안 결제 금액이 상위 10%인 고객군.
- 지난달에 비해 이번달에 사용 횟수가 줄어든 고객군
....
New
Active
Resurrected
Churn
CLV
NAU, NAU7, NAU30..
AU, AU7, AU30
AU_IN (부활유저)
AU_OUT (휴면유저)
RU (재방문유저)
User Segmentation
Custom Segment
• 다양한 데이터 소스로부터 2800만 사용자의 User property를 관리하고 통합
• Loyalty 고객군과 같이 미리 데이터 분석을 통해 정해진 Segment도 있지만
• 사용자의 행동 로그를 기반으로 User Segment를 Custom하게 생성하여 사용.
• User property DB에 SQL로 Segment를 생성할 수 도 있지만, 테이블에 대한 이해와 도메인 지식도 필요.
• User Segment를 지속적으로 관리할 수 있고, 타 시스템과 쉽게 연동이 가능
Custom Segment 생성 & 관리
User
Information Account
Information
Service
Transcation
Action Event
User Property DB
Data Source
User Type
Segment
User Rank
Segment
User
Property
User
Event Log
User
Custom
Segment
Segment
Service
DB
Event Log
RFM기반으로 유저 점수, 등급
AU, NAU, RU..
시간에 따른 유저의 행동 로그
유저의 모든 정보
(tagging, labeling)
User Segmentation Pipeline
• 데이터분석
• API 형태로 제공되어 타시스템과 연동.
• ML Model의 개인화 Feature
• AD & Marketing Targeting
• Experiment Audience Targeting
Experiment Analytics Targeting
Experimentation
Data Driven Decision을 위한 AB Test
User 행동 데이터 분석을 통해 문제점을 파악했다면,
새로운 아이디어를 서비스에 적용
새로운 아이디어(가설)를 전면적으로 적용하기에는 확신이 없을 수 있다.
어느 정도의 영향이 있는지 정량적으로 파악하고 싶다.
AB Test
A B
예상요금을 한눈에 비교하면,
불필요한 화면전환이 줄어들어,
사용자 편의성이 좋아질것이다.
유료상품의 호출량이 줄어들면
매출이 줄지 모른다.
또 예상요금이 실제요금과
차이가 있기때문에,
실제 차이가 크면 문제가 될수 있다.
서비스가 확장되면서, 다양한 호출상품이 개발됨.
사용자가 비교하면서 호출상품을 선택.
예상요금, 상품의 특징을 가지고 비교.
기존에는 예상요금을 한눈에 비교하기 힘든 UI
사용자가 편하게 비교해 볼 수 있게 편의성을 제공하자
A B
Audience 실험의 참여자.
- 전체 앱사용자중 sampling해서 실험
- 특정 고객군으로 Targeting해서 실험
Variation Strategy
- Traffic allocation
- Time slice
- 대조군 전환률 & 표준편차
- 실험군 전환률 & 표준편차
- 대조군 전환 대비 실험군 전환 증가율
- p-value
- Z-score
- 두 표본그룹의 평균간 차이 불확실도
기존버전(A, control, 대조군)과 새로운 버전(B, variant, 실험군)을
방문하는 사용자별로 랜덤하게 (random sampling) 보여준 뒤,
어떤 버전이 더 나은지(winner)
데이터 기반의 정량적인 수치(지표, 그래프)로 검증
가설을 세우고 실험 설계
@기획자 아이디어를 실험
@개발팀 실제 A, B..안을 구현
@분석팀 실험 결과 상세 분석
가설을 세우고 실험 설계 SDK/API를 사용해 개발
실험 정보 & 상태 관리
Kakaomobility Experimentation Platform
결과 지표 확인
Winner로 선정된 variation을 배포없이 바로 적용가능
Fast
Deployment
실험의 상태가 start가 되고 난 후부터 A/B 분기
Remote Config
Audience Targeting & Segmentation
Targeting
실시간성 지표확인가능 / 빠른 Feedback 반영
API
Gateway
Metric Storage
Meta Data Management
• User & Segment
• Event Log
• Experiment
Realtime pipeline
Batch pipeline
Experimentation Platform Architecture
Funnel & Critical Path
호출전
(검색, 탐색)
호출중 매칭완료
(운행중, 호출취소)
운행완료
● 유저의 70%는 최근 목적지 설정하는 패턴 발견
● 최근 5회 이용 기록 내에서 다른 2곳까지 추천시 예상 목적지 커버확률 80%까지 상승
● 당일 네비 목적지 활용 시 출발지 커버확률 증가
Event Log로 부터 사용패턴 & Insight 도출
신규유저
이용기록이 없는 유저 커뮤니케이션 형식의 UI를 제공하여 고객이 해야하는 Task를 유도
초보유저
사용빈도가 많지 않아
아직 사용패턴이 형성되지 않은 유저
- 이전 호출했던 패턴을 그대로 활용하여 데이터 입력 자동화
- 화면 접근시 요금까지 모두 계산되어 있어 한번에 호출 가능
파워유저
서비스 사용패턴이 있으며,
내비, 주차등 타 버티컬도 이용
- 최빈 도착지 데이터를 분석하여 도착지 추천 확률을 높임
- 내비 및 타 서비스 데이터를 통해 차량위치 파악하여 출발지를 추천함
User Segment 별로 나누어서 상황을 분석.
1.데이터 기반 출도착지 자동입력
● 당일 네비게이션 도착지 활용한 출발지 자동입력
● 최근 5회 이용기록을 분석하여 고객 예상 도착지를 자동입력 및
숏컷 제공
2.운행요금 노출 간소화
● 운행요금을 기존보다 덜 집중되도록 개선하여 요금 민감도 최소
화 전략
3. “2Depth 호출”에서 “원터치 호출”로 변경
● 이용율이 낮은 결제 정보를 함축하여 보여주고 주취자도 쉽게
호출 할 수 있도록 ‘원터치 호출’ 경험 제공
출발-도착지입력 요금확인 및 호출
개편 후 (원터치 호출)
개편 전 (2Depth 호출)
1
2
3
A B
AB Test 및 아이디어 검증
지금까지 Data Driven Decision을 위해 노력한 이야기
feat. 데이터엔지니어
Data Driven Decision은 Culture
한 가지 알게된것
Culture를 만들어가는것은 수많은 사람
feat. 외손은 거들뿐
feat. 데이터 엔지니어는 거들뿐
Thanks

More Related Content

Data Driven Decision을 위한 데이터플랫폼구축기@kakaomobility

  • 1. 우종호 / kakaomobility(데이터 엔지니어) Data Driven Decision을 위한 데이터 플랫폼 구축기
  • 2. Kakaomobility. Data Engineer Experimentation Platform ML Platform User Behavior Analytics & User Segmentation Kubernetes is Awesome!
  • 3. Data Driven Decision을 위해 노력한 이야기 feat. 데이터 엔지니어
  • 4. Data Driven Decision을 위해 노력한 이야기 feat. 데이터 엔지니어 SQL & 테이블에 대한 이해가 부족하더라도 지표를 확인할 수 있게! 파편화된 정보를 바로 활용할 수 있게 정재해놓기. 쉽게 정보를 공유하고, 타 시스템과 Integration이 가능하게 지원. 새로운 아이디어를 빠르게 실험하고 결과를 바로 확인할 수 있는 시스템을 지원.
  • 7. Supply Side Demand Side User Activity Event Driver Payment Location, GPS Weather Customer data 수많은 서비스와 다양한 데이터 형태 SQL, Table Analysis, Reporting Automation, Data Pipeline I need DATA
  • 8. 데이터를 서비스에 데이터를 활용하기 위한 Data Pipeline & Data Platform Feature Store & AI/ML Platform Driving Habit Pipeline Location Platform User Behavior Analytics Pipeline User Segmentation Pipeline Experimentation Platform . . . • Demand & Supply Forecasting • Matching • Prediction • Dynamic Pricing • 유저의 행동 패턴을 확인. • 유저 세그먼트를 만들어서 타켓팅에 사용. • AB Test 실험을 통해 유저의 반응을 확인. • 주요 유저 Event를 발생시키는 고객군 cohort 분석 • Funnel 분석
  • 10. click 수 많은 서비스와 수 많은 Event Log 수천 여개의 Event Definition, 일별 약 10억 개의 Event Log, 서비스 별로 수십GB 발생 대용량 데이터 처리
  • 11. where who what why?? Event는 발생시점에 다양한 정보를 담고있어야 한다.
  • 12. Event & Event Property User Property Event Name: 택시호출버튼클릭 Event Kind: Click page: 택시호출중 custom property - 출발지, 도착지 - 예상거리 - 예상시간 - 노출된선택유형 : 스마트호출 4800 /... - 선택호출유형: 일반호출 os: IOS os version : 14.1 vertical service: kakaoT 회원가입: 2020.05.13 최근로그인: 2021.08.01 최근6개월동안 택시 사용횟수: 8회 로열티등급: Gold 포인트: 23,000P 자동결제 카드등록여부 : True 마케팅동의 여부: True User Segmentation DB Event Schema Definition
  • 13. ge event name kind custom prop page event name kind custom prop 택시호출중 택시호출화면노출 PageView 호출상품, .. page event name kind custom prop 택시호출중 택시호출버튼클릭 Click 호출상품, .. 택시호출중 앱종료 Exit 호출상품, .. Amplitude - Taxonomy Template Segment - Tracking Plan (Basic) Data-led Academy: The Ultimate Tracking Plan Template Event Schema를 관리 & Google Sheet
  • 14. 서비스가 커지면서, 관리해야 할 이벤트의 개수가 폭발적으로 증가. History관리의 한계. 다른 사람이 만든 이벤트는 건들기 힘듦. 내가 만든 이벤트도 기억이 나지 않음. 정의는 되어있지만, 나중에 확인해 보니 데이터가 적재되지 않은 경우. 반대로 삭제되었지만, 계속해서 데이터가 발생하는 경우. 데이터 분석의 자동화가 힘듦. 데이터의 Quality가 떨어지고, 불필요한 Legacy 데이터가 점점 증가. ... 발생하는 Event Log를 정의하고, Quality를 관리. 자동화를 위해 메타데이터로 관리. Event Log Management & Governance
  • 15. • Event Schema Definition & Management. 수정, 삭제 등 이벤트 정의를 전반적으로 관리 해야함. • Volume & Trend. 이벤트가 제대로 수집되고있는지 특정 버전에서 이벤트가 누락이 되었는지 실시간으로 파악 • Quality & Validation. 정의한대로 이벤트가 수집되고있는지 체크. 중복이나 필드의 누락 여부를 확인해서 데이터의 품질을 관리 해야함. • Audit & History. Event Data Governance
  • 16. Data Collecting Web Dashboard Meta DB Data Processing API • Aggregation • Check Validation • Custom properties 분석 Metric Storage Data Analysis Metric Cube 외부 시스템과 연동 Event Log Data Pipeline
  • 17. User
  • 18. https://adssettings.google.com/authenticated • User의 성향에 따라, 개인화 요소를 적용 시킬 수 있다. • 미리 고객군을 나누어 놓고 분석을 해놓는 작업이 필요. • User마다 labeling을 해놓고 고객군을 만들때 feature로 사용. Segmentation & Targeting Behavioral Customer data Demographic Psychographic Firmographic
  • 19. 2800만명의 전체 사용자 - 매주 택시를 사용하는 고객군. - 택시 + 바이크를 함께 사용하는 고객군. - 6개월동안 결제 금액이 상위 10%인 고객군. - 지난달에 비해 이번달에 사용 횟수가 줄어든 고객군 .... New Active Resurrected Churn CLV NAU, NAU7, NAU30.. AU, AU7, AU30 AU_IN (부활유저) AU_OUT (휴면유저) RU (재방문유저) User Segmentation Custom Segment
  • 20. • 다양한 데이터 소스로부터 2800만 사용자의 User property를 관리하고 통합 • Loyalty 고객군과 같이 미리 데이터 분석을 통해 정해진 Segment도 있지만 • 사용자의 행동 로그를 기반으로 User Segment를 Custom하게 생성하여 사용. • User property DB에 SQL로 Segment를 생성할 수 도 있지만, 테이블에 대한 이해와 도메인 지식도 필요. • User Segment를 지속적으로 관리할 수 있고, 타 시스템과 쉽게 연동이 가능 Custom Segment 생성 & 관리
  • 21. User Information Account Information Service Transcation Action Event User Property DB Data Source User Type Segment User Rank Segment User Property User Event Log User Custom Segment Segment Service DB Event Log RFM기반으로 유저 점수, 등급 AU, NAU, RU.. 시간에 따른 유저의 행동 로그 유저의 모든 정보 (tagging, labeling) User Segmentation Pipeline • 데이터분석 • API 형태로 제공되어 타시스템과 연동. • ML Model의 개인화 Feature • AD & Marketing Targeting • Experiment Audience Targeting Experiment Analytics Targeting
  • 23. User 행동 데이터 분석을 통해 문제점을 파악했다면, 새로운 아이디어를 서비스에 적용 새로운 아이디어(가설)를 전면적으로 적용하기에는 확신이 없을 수 있다. 어느 정도의 영향이 있는지 정량적으로 파악하고 싶다. AB Test
  • 24. A B 예상요금을 한눈에 비교하면, 불필요한 화면전환이 줄어들어, 사용자 편의성이 좋아질것이다. 유료상품의 호출량이 줄어들면 매출이 줄지 모른다. 또 예상요금이 실제요금과 차이가 있기때문에, 실제 차이가 크면 문제가 될수 있다. 서비스가 확장되면서, 다양한 호출상품이 개발됨. 사용자가 비교하면서 호출상품을 선택. 예상요금, 상품의 특징을 가지고 비교. 기존에는 예상요금을 한눈에 비교하기 힘든 UI 사용자가 편하게 비교해 볼 수 있게 편의성을 제공하자
  • 25. A B Audience 실험의 참여자. - 전체 앱사용자중 sampling해서 실험 - 특정 고객군으로 Targeting해서 실험 Variation Strategy - Traffic allocation - Time slice - 대조군 전환률 & 표준편차 - 실험군 전환률 & 표준편차 - 대조군 전환 대비 실험군 전환 증가율 - p-value - Z-score - 두 표본그룹의 평균간 차이 불확실도 기존버전(A, control, 대조군)과 새로운 버전(B, variant, 실험군)을 방문하는 사용자별로 랜덤하게 (random sampling) 보여준 뒤, 어떤 버전이 더 나은지(winner) 데이터 기반의 정량적인 수치(지표, 그래프)로 검증 가설을 세우고 실험 설계 @기획자 아이디어를 실험 @개발팀 실제 A, B..안을 구현 @분석팀 실험 결과 상세 분석
  • 26. 가설을 세우고 실험 설계 SDK/API를 사용해 개발 실험 정보 & 상태 관리 Kakaomobility Experimentation Platform 결과 지표 확인 Winner로 선정된 variation을 배포없이 바로 적용가능 Fast Deployment 실험의 상태가 start가 되고 난 후부터 A/B 분기 Remote Config Audience Targeting & Segmentation Targeting 실시간성 지표확인가능 / 빠른 Feedback 반영
  • 27. API Gateway Metric Storage Meta Data Management • User & Segment • Event Log • Experiment Realtime pipeline Batch pipeline Experimentation Platform Architecture
  • 30. ● 유저의 70%는 최근 목적지 설정하는 패턴 발견 ● 최근 5회 이용 기록 내에서 다른 2곳까지 추천시 예상 목적지 커버확률 80%까지 상승 ● 당일 네비 목적지 활용 시 출발지 커버확률 증가 Event Log로 부터 사용패턴 & Insight 도출
  • 31. 신규유저 이용기록이 없는 유저 커뮤니케이션 형식의 UI를 제공하여 고객이 해야하는 Task를 유도 초보유저 사용빈도가 많지 않아 아직 사용패턴이 형성되지 않은 유저 - 이전 호출했던 패턴을 그대로 활용하여 데이터 입력 자동화 - 화면 접근시 요금까지 모두 계산되어 있어 한번에 호출 가능 파워유저 서비스 사용패턴이 있으며, 내비, 주차등 타 버티컬도 이용 - 최빈 도착지 데이터를 분석하여 도착지 추천 확률을 높임 - 내비 및 타 서비스 데이터를 통해 차량위치 파악하여 출발지를 추천함 User Segment 별로 나누어서 상황을 분석.
  • 32. 1.데이터 기반 출도착지 자동입력 ● 당일 네비게이션 도착지 활용한 출발지 자동입력 ● 최근 5회 이용기록을 분석하여 고객 예상 도착지를 자동입력 및 숏컷 제공 2.운행요금 노출 간소화 ● 운행요금을 기존보다 덜 집중되도록 개선하여 요금 민감도 최소 화 전략 3. “2Depth 호출”에서 “원터치 호출”로 변경 ● 이용율이 낮은 결제 정보를 함축하여 보여주고 주취자도 쉽게 호출 할 수 있도록 ‘원터치 호출’ 경험 제공 출발-도착지입력 요금확인 및 호출 개편 후 (원터치 호출) 개편 전 (2Depth 호출) 1 2 3 A B AB Test 및 아이디어 검증
  • 33. 지금까지 Data Driven Decision을 위해 노력한 이야기 feat. 데이터엔지니어
  • 34. Data Driven Decision은 Culture 한 가지 알게된것
  • 35. Culture를 만들어가는것은 수많은 사람 feat. 외손은 거들뿐 feat. 데이터 엔지니어는 거들뿐