狠狠撸

狠狠撸Share a Scribd company logo
Analytics Innovation
Company
Analytics Innovation
Company
顿惭笔の分析机能を実现する技术
2018/11/15
株式会社ブレインパッド
マーケティングプラットフォーム本部 開発部
下村
Analytics Innovation Company
?BrainPad Inc.
2
自己紹介
● 名前:下村環太朗
● 所属:マーケティングプラットフォーム本部?開発部
○ 自社サービス開発の部署
○ プライベートDMP Rtoasterの開発を担当
● Pairsプロフ:
○ 年齢:30歳
○ 居住地:日本 東京
○ 身長:170cm
○ 職種:WEB業界
○ 体型:やや細め
○ タバコ:吸わない
Analytics Innovation Company
?BrainPad Inc.
3
DMP (Data Management Platform)
● マーケティングツールの一種
● ユーザーが所有するデータを活用するための様々な機能を持つ
Analytics Innovation Company
?BrainPad Inc.
4
Rtoaster開発体制
● エンジニアは全体で20名程度
○ 機能ごとにもう少し小さいチームに分かれる
○ 今日お話しする分析機能の開発チームは3~4名(多い方)
Analytics Innovation Company
?BrainPad Inc.
5
ユーザー分析機能
● ウェブサイト?アプリの行動ログや顧客属性の集計?可視化機能
○ GUI上での探索的な分析
○ 機械学習を使って自動でセグメンテーション
○ レコメンド配信システムやDSPにセグメントを連携
Analytics Innovation Company
?BrainPad Inc.
6
開発?運用している要素
● DWH
○ 様々なデータを集約?統合
○ テーブルは最大で数十億行の規模
● 大規模データ処理
○ ETL処理
○ 機械学習などDWHだけではできない処理
● スケジューリング
○ 依存関係のある数千/日のバッチ実行
● 集計
○ 分析条件にあわせて適切なクエリを生成してDWHに投げる
● 管理画面
○ 普通のシングルページアプリケーション
○ (UIや可視化部分はデザイナーが担当)
● 他システムとのつなぎこみ
○ 見かけ上の管理画面は共通
○ 裏は完全に別なので同期用のAPIを生やしている
● etc...
Analytics Innovation Company
?BrainPad Inc.
7
現在の構成 ※一部簡略化しています
行動ログ収集
レコメンド配信
外部連携
Rtoaster ユーザー
Analytics Innovation Company
?BrainPad Inc.
8
現在の構成 ※一部簡略化しています
分散処理クラスタバッチ実行基盤 ウェブアプリ
行動ログ収集
レコメンド配信
外部連携
Rtoaster ユーザー
Analytics Innovation Company
?BrainPad Inc.
9
バッチ実行基盤
ジョブワークフローエンジンとしてAirflowを採用
? ワーカーを増やすだけでスケールする
? 柔軟なワークフローを構築できる
? 管理画面が便利
? 環境構築に一手間かかる
? タスクが多すぎると動作が不安定に
Analytics Innovation Company
?BrainPad Inc.
10
分散処理クラスタ
Amazon EMR上にPresto (+Spark thrift server) でDWHを構築
Sparkバッチの実行環境としても利用
? ノードを増やすだけでスケールする
? 環境構築が簡単
? ストレージとメタデータをクエリエンジンを分離
? リソース管理はHadoop (Yarn) やPrestoにおまかせ
? 基本的にはマネージドといえどシステム構成は複雑
? 手動で各種パラメータの調整が必要な場合もある
? SparkバッチだけScalaで実装しているので言語学習コストがある
Analytics Innovation Company
?BrainPad Inc.
11
ウェブアプリ
クライアントサイドのフレームワークにVue.jsを導入
サーバーサイドのRest (風) API サーバーはPyramidで構築
? ドキュメントが充実
? 選べるライブラリの幅が広い
? チームによってそれぞれ別々のフレームワークを使っている
Analytics Innovation Company
?BrainPad Inc.
12
まとめ
● OSSやPaaSの標準的なツールを標準的に使っています
Analytics Innovation Company
?BrainPad Inc.
13
これだけだと味気ないので、最近の取り組みも少し紹介します
Analytics Innovation Company
?BrainPad Inc.
14
課題
● 増える機能
○ 複雑化する仕様
○ データの整合性の担保が困難
○ 他システムとの結合度も増加
● 増えるユーザー
○ 回りきらないバッチ処理
○ 分散処理まわりにボトルネックがあることはわかっているものの
開発の優先度もあってまともに調査?改善できていない
● 増える要望
○ データを握っているが故の需要が集まる
● 人数も増やせば解決?
○ そう簡単に増えない
○ 新人が覚えることは増えている
? 基盤的な役割と機能開発の両立って大変かも?
Analytics Innovation Company
?BrainPad Inc.
15
今後実現したいこと
● DWHは別システムとして新規に構築
○ 体制も含めそれぞれの責任を明確に
○ ユーザー分析機能以外への展開を容易に
● よりマネージドな構成
○ 運用負荷を低減
○ 開発の高速化
BigQuery
Cloud
Composer
Analytics Innovation Company
?BrainPad Inc.
16
まとめ+
● OSSやPaaSの標準的なツールを標準的に使っています
● プロダクトの成長やビジネスの変化に合わせたシステムの見直しも大事

More Related Content

What's hot (20)

公司文化をサービスデザインスタイルに
公司文化をサービスデザインスタイルに公司文化をサービスデザインスタイルに
公司文化をサービスデザインスタイルに
Recruit Technologies
?
ブレインパッドにおける机械学习プロジェクトの进め方
ブレインパッドにおける机械学习プロジェクトの进め方ブレインパッドにおける机械学习プロジェクトの进め方
ブレインパッドにおける机械学习プロジェクトの进め方
BrainPad Inc.
?
プロトタイプで终わらせない死の谷を超える机械学习プロジェクトの进め方 #惭尝颁罢4
プロトタイプで终わらせない死の谷を超える机械学习プロジェクトの进め方 #惭尝颁罢4プロトタイプで终わらせない死の谷を超える机械学习プロジェクトの进め方 #惭尝颁罢4
プロトタイプで终わらせない死の谷を超える机械学习プロジェクトの进め方 #惭尝颁罢4
shakezo
?
Factor analysis for ml by padoc 6 r
Factor analysis for ml by padoc 6 rFactor analysis for ml by padoc 6 r
Factor analysis for ml by padoc 6 r
Masato Nakai
?
データサイエンス业务と「ツール」
データサイエンス业务と「ツール」データサイエンス业务と「ツール」
データサイエンス业务と「ツール」
The Japan DataScientist Society
?
機械学習システムを受託開発 する時に気をつけておきたい事
機械学習システムを受託開発 する時に気をつけておきたい事機械学習システムを受託開発 する時に気をつけておきたい事
機械学習システムを受託開発 する時に気をつけておきたい事
BrainPad Inc.
?
ラボラトリーオートメーションのためのソフトウェア思想教育(非プログラマ―が知っておくべきプログラミングの本质)
ラボラトリーオートメーションのためのソフトウェア思想教育(非プログラマ―が知っておくべきプログラミングの本质)ラボラトリーオートメーションのためのソフトウェア思想教育(非プログラマ―が知っておくべきプログラミングの本质)
ラボラトリーオートメーションのためのソフトウェア思想教育(非プログラマ―が知っておくべきプログラミングの本质)
Tokoroten Nakayama
?
笔别辫辫别谤+独自会话エンジン
笔别辫辫别谤+独自会话エンジン笔别辫辫别谤+独自会话エンジン
笔别辫辫别谤+独自会话エンジン
Recruit Technologies
?
顿补迟补搁辞产辞迟活用状况蔼リクルートテクノロジーズ
顿补迟补搁辞产辞迟活用状况蔼リクルートテクノロジーズ顿补迟补搁辞产辞迟活用状况蔼リクルートテクノロジーズ
顿补迟补搁辞产辞迟活用状况蔼リクルートテクノロジーズ
Recruit Technologies
?
Azure における強化学習への取り組み
Azure における強化学習への取り組みAzure における強化学習への取り組み
Azure における強化学習への取り組み
Keita Onabuta
?
分析手法のご绍介
分析手法のご绍介分析手法のご绍介
分析手法のご绍介
Recruit Technologies
?
リクルート式サービス开発 カスタマーの本音×人工知能
リクルート式サービス开発 カスタマーの本音×人工知能リクルート式サービス开発 カスタマーの本音×人工知能
リクルート式サービス开発 カスタマーの本音×人工知能
Recruit Technologies
?
メルペイの与信モデリングにおける特徴量の品质向上の施策
メルペイの与信モデリングにおける特徴量の品质向上の施策メルペイの与信モデリングにおける特徴量の品质向上の施策
メルペイの与信モデリングにおける特徴量の品质向上の施策
Mai Nakagawa
?
データ定义情报の管理と奥别产による公开
データ定义情报の管理と奥别产による公开データ定义情报の管理と奥别产による公开
データ定义情报の管理と奥别产による公开
Recruit Technologies
?
[Track4-5] CDLEへの招待~CDLEハッカソンが、自分の人生のターニングポイントになった話~
[Track4-5] CDLEへの招待~CDLEハッカソンが、自分の人生のターニングポイントになった話~[Track4-5] CDLEへの招待~CDLEハッカソンが、自分の人生のターニングポイントになった話~
[Track4-5] CDLEへの招待~CDLEハッカソンが、自分の人生のターニングポイントになった話~
Deep Learning Lab(ディープラーニング?ラボ)
?
カスタマーサクセスのためのデータ整备人の活动记録
カスタマーサクセスのためのデータ整备人の活动记録カスタマーサクセスのためのデータ整备人の活动记録
カスタマーサクセスのためのデータ整备人の活动记録
syou6162
?
Icon2015開会宣言 imj竹内 加藤
Icon2015開会宣言 imj竹内 加藤Icon2015開会宣言 imj竹内 加藤
Icon2015開会宣言 imj竹内 加藤
IMJ Corporation
?
[Track1-5] 製造業における最新AI適用事例のご紹介
[Track1-5] 製造業における最新AI適用事例のご紹介[Track1-5] 製造業における最新AI適用事例のご紹介
[Track1-5] 製造業における最新AI適用事例のご紹介
Deep Learning Lab(ディープラーニング?ラボ)
?
「リクルートデータセット」 ~公開までの道のりとこれから~
「リクルートデータセット」 ~公開までの道のりとこれから~「リクルートデータセット」 ~公開までの道のりとこれから~
「リクルートデータセット」 ~公開までの道のりとこれから~
Recruit Technologies
?
リクルート式ビッグデータ活用术
リクルート式ビッグデータ活用术リクルート式ビッグデータ活用术
リクルート式ビッグデータ活用术
Recruit Technologies
?
公司文化をサービスデザインスタイルに
公司文化をサービスデザインスタイルに公司文化をサービスデザインスタイルに
公司文化をサービスデザインスタイルに
Recruit Technologies
?
ブレインパッドにおける机械学习プロジェクトの进め方
ブレインパッドにおける机械学习プロジェクトの进め方ブレインパッドにおける机械学习プロジェクトの进め方
ブレインパッドにおける机械学习プロジェクトの进め方
BrainPad Inc.
?
プロトタイプで终わらせない死の谷を超える机械学习プロジェクトの进め方 #惭尝颁罢4
プロトタイプで终わらせない死の谷を超える机械学习プロジェクトの进め方 #惭尝颁罢4プロトタイプで终わらせない死の谷を超える机械学习プロジェクトの进め方 #惭尝颁罢4
プロトタイプで终わらせない死の谷を超える机械学习プロジェクトの进め方 #惭尝颁罢4
shakezo
?
Factor analysis for ml by padoc 6 r
Factor analysis for ml by padoc 6 rFactor analysis for ml by padoc 6 r
Factor analysis for ml by padoc 6 r
Masato Nakai
?
機械学習システムを受託開発 する時に気をつけておきたい事
機械学習システムを受託開発 する時に気をつけておきたい事機械学習システムを受託開発 する時に気をつけておきたい事
機械学習システムを受託開発 する時に気をつけておきたい事
BrainPad Inc.
?
ラボラトリーオートメーションのためのソフトウェア思想教育(非プログラマ―が知っておくべきプログラミングの本质)
ラボラトリーオートメーションのためのソフトウェア思想教育(非プログラマ―が知っておくべきプログラミングの本质)ラボラトリーオートメーションのためのソフトウェア思想教育(非プログラマ―が知っておくべきプログラミングの本质)
ラボラトリーオートメーションのためのソフトウェア思想教育(非プログラマ―が知っておくべきプログラミングの本质)
Tokoroten Nakayama
?
笔别辫辫别谤+独自会话エンジン
笔别辫辫别谤+独自会话エンジン笔别辫辫别谤+独自会话エンジン
笔别辫辫别谤+独自会话エンジン
Recruit Technologies
?
顿补迟补搁辞产辞迟活用状况蔼リクルートテクノロジーズ
顿补迟补搁辞产辞迟活用状况蔼リクルートテクノロジーズ顿补迟补搁辞产辞迟活用状况蔼リクルートテクノロジーズ
顿补迟补搁辞产辞迟活用状况蔼リクルートテクノロジーズ
Recruit Technologies
?
Azure における強化学習への取り組み
Azure における強化学習への取り組みAzure における強化学習への取り組み
Azure における強化学習への取り組み
Keita Onabuta
?
リクルート式サービス开発 カスタマーの本音×人工知能
リクルート式サービス开発 カスタマーの本音×人工知能リクルート式サービス开発 カスタマーの本音×人工知能
リクルート式サービス开発 カスタマーの本音×人工知能
Recruit Technologies
?
メルペイの与信モデリングにおける特徴量の品质向上の施策
メルペイの与信モデリングにおける特徴量の品质向上の施策メルペイの与信モデリングにおける特徴量の品质向上の施策
メルペイの与信モデリングにおける特徴量の品质向上の施策
Mai Nakagawa
?
データ定义情报の管理と奥别产による公开
データ定义情报の管理と奥别产による公开データ定义情报の管理と奥别产による公开
データ定义情报の管理と奥别产による公开
Recruit Technologies
?
[Track4-5] CDLEへの招待~CDLEハッカソンが、自分の人生のターニングポイントになった話~
[Track4-5] CDLEへの招待~CDLEハッカソンが、自分の人生のターニングポイントになった話~[Track4-5] CDLEへの招待~CDLEハッカソンが、自分の人生のターニングポイントになった話~
[Track4-5] CDLEへの招待~CDLEハッカソンが、自分の人生のターニングポイントになった話~
Deep Learning Lab(ディープラーニング?ラボ)
?
カスタマーサクセスのためのデータ整备人の活动记録
カスタマーサクセスのためのデータ整备人の活动记録カスタマーサクセスのためのデータ整备人の活动记録
カスタマーサクセスのためのデータ整备人の活动记録
syou6162
?
Icon2015開会宣言 imj竹内 加藤
Icon2015開会宣言 imj竹内 加藤Icon2015開会宣言 imj竹内 加藤
Icon2015開会宣言 imj竹内 加藤
IMJ Corporation
?
「リクルートデータセット」 ~公開までの道のりとこれから~
「リクルートデータセット」 ~公開までの道のりとこれから~「リクルートデータセット」 ~公開までの道のりとこれから~
「リクルートデータセット」 ~公開までの道のりとこれから~
Recruit Technologies
?
リクルート式ビッグデータ活用术
リクルート式ビッグデータ活用术リクルート式ビッグデータ活用术
リクルート式ビッグデータ活用术
Recruit Technologies
?

Similar to 顿惭笔の分析机能を実现する技术 (20)

【デブサミ秋厂3】エンジニア目线で见たデジタルマーケティング业界のこれまでとこれから
【デブサミ秋厂3】エンジニア目线で见たデジタルマーケティング业界のこれまでとこれから【デブサミ秋厂3】エンジニア目线で见たデジタルマーケティング业界のこれまでとこれから
【デブサミ秋厂3】エンジニア目线で见たデジタルマーケティング业界のこれまでとこれから
Developers Summit
?
Big Data Analytics Tokyo講演資料
Big Data Analytics Tokyo講演資料Big Data Analytics Tokyo講演資料
Big Data Analytics Tokyo講演資料
BrainPad Inc.
?
狈笔厂と贬颁顿を组み合わせた顾客体験分析の取り组み
狈笔厂と贬颁顿を组み合わせた顾客体験分析の取り组み狈笔厂と贬颁顿を组み合わせた顾客体験分析の取り组み
狈笔厂と贬颁顿を组み合わせた顾客体験分析の取り组み
IMJ Corporation
?
厂顿骋颁2018报告「ネットビジネスとサービスデザイン」
厂顿骋颁2018报告「ネットビジネスとサービスデザイン」厂顿骋颁2018报告「ネットビジネスとサービスデザイン」
厂顿骋颁2018报告「ネットビジネスとサービスデザイン」
Nozomu Tannaka
?
SDGC2018 redux Tannaka
SDGC2018 redux TannakaSDGC2018 redux Tannaka
SDGC2018 redux Tannaka
Service Design Network Japan Chapter
?
非エンジニアのための滨迟业界
非エンジニアのための滨迟业界非エンジニアのための滨迟业界
非エンジニアのための滨迟业界
Hideto Masuoka
?
Developpers Summit2015 Autumn 講演資料
Developpers Summit2015 Autumn 講演資料Developpers Summit2015 Autumn 講演資料
Developpers Summit2015 Autumn 講演資料
BrainPad Inc.
?
成长期のスタートアップにおけるチーム开発の罠
成长期のスタートアップにおけるチーム开発の罠成长期のスタートアップにおけるチーム开発の罠
成长期のスタートアップにおけるチーム开発の罠
Chihiro Asano
?
【滨惭闯】失败するデジタルマーケティング戦略、その原因&补尘辫;成功のカギとは?
【滨惭闯】失败するデジタルマーケティング戦略、その原因&补尘辫;成功のカギとは?【滨惭闯】失败するデジタルマーケティング戦略、その原因&补尘辫;成功のカギとは?
【滨惭闯】失败するデジタルマーケティング戦略、その原因&补尘辫;成功のカギとは?
IMJ Corporation
?
第6回jduc勉強会 dynamics 365 新機能 外部apiと連携できる仮想エンティティの活用方法
第6回jduc勉強会 dynamics 365 新機能 外部apiと連携できる仮想エンティティの活用方法第6回jduc勉強会 dynamics 365 新機能 外部apiと連携できる仮想エンティティの活用方法
第6回jduc勉強会 dynamics 365 新機能 外部apiと連携できる仮想エンティティの活用方法
Kazuya Sugimoto
?
JPC2016: PUP-01 知って得する MPN 最新情報
JPC2016: PUP-01 知って得する MPN 最新情報JPC2016: PUP-01 知って得する MPN 最新情報
JPC2016: PUP-01 知って得する MPN 最新情報
MPN Japan
?
Amazon dsp x IM-DMP
Amazon dsp x IM-DMPAmazon dsp x IM-DMP
Amazon dsp x IM-DMP
ssusercf60b9
?
Happiness Checker Bata はぴねすチェッカーβ
Happiness Checker Bata はぴねすチェッカーβHappiness Checker Bata はぴねすチェッカーβ
Happiness Checker Bata はぴねすチェッカーβ
Smart Innovation | IMJ
?
データサイエンスの现场で役立つスキルを磨きやすい职场环境
データサイエンスの现场で役立つスキルを磨きやすい职场环境データサイエンスの现场で役立つスキルを磨きやすい职场环境
データサイエンスの现场で役立つスキルを磨きやすい职场环境
Masatoshi Abe
?
『ハイブリッドクラウド研究会』创立について
『ハイブリッドクラウド研究会』创立について『ハイブリッドクラウド研究会』创立について
『ハイブリッドクラウド研究会』创立について
Masahiko Ebisuda
?
杉并诊断士会向け碍颈苍迟辞苍别こ?绍介コンテンツ谤2
杉并诊断士会向け碍颈苍迟辞苍别こ?绍介コンテンツ谤2杉并诊断士会向け碍颈苍迟辞苍别こ?绍介コンテンツ谤2
杉并诊断士会向け碍颈苍迟辞苍别こ?绍介コンテンツ谤2
junji kumooka
?
データドリブンセッション2冲滨惭闯山本
データドリブンセッション2冲滨惭闯山本データドリブンセッション2冲滨惭闯山本
データドリブンセッション2冲滨惭闯山本
IMJ Corporation
?
【Tech Trend Talk vol.5】社外向け勉強会「教師あり学習とプロダクトへの活用 -(GIG)」
【Tech Trend Talk vol.5】社外向け勉強会「教師あり学習とプロダクトへの活用 -(GIG)」【Tech Trend Talk vol.5】社外向け勉強会「教師あり学習とプロダクトへの活用 -(GIG)」
【Tech Trend Talk vol.5】社外向け勉強会「教師あり学習とプロダクトへの活用 -(GIG)」
GIG inc.
?
Dynamics 365 Customer Engagement 理解のススメ -サブスクリプションビジネスモデルから読み解くカスタマーサポート機能活用の...
Dynamics 365 Customer Engagement 理解のススメ -サブスクリプションビジネスモデルから読み解くカスタマーサポート機能活用の...Dynamics 365 Customer Engagement 理解のススメ -サブスクリプションビジネスモデルから読み解くカスタマーサポート機能活用の...
Dynamics 365 Customer Engagement 理解のススメ -サブスクリプションビジネスモデルから読み解くカスタマーサポート機能活用の...
Kazuya Sugimoto
?
日本の中小公司のIT导入10年の振り返り
日本の中小公司のIT导入10年の振り返り日本の中小公司のIT导入10年の振り返り
日本の中小公司のIT导入10年の振り返り
Yuichi Morito
?
【デブサミ秋厂3】エンジニア目线で见たデジタルマーケティング业界のこれまでとこれから
【デブサミ秋厂3】エンジニア目线で见たデジタルマーケティング业界のこれまでとこれから【デブサミ秋厂3】エンジニア目线で见たデジタルマーケティング业界のこれまでとこれから
【デブサミ秋厂3】エンジニア目线で见たデジタルマーケティング业界のこれまでとこれから
Developers Summit
?
Big Data Analytics Tokyo講演資料
Big Data Analytics Tokyo講演資料Big Data Analytics Tokyo講演資料
Big Data Analytics Tokyo講演資料
BrainPad Inc.
?
狈笔厂と贬颁顿を组み合わせた顾客体験分析の取り组み
狈笔厂と贬颁顿を组み合わせた顾客体験分析の取り组み狈笔厂と贬颁顿を组み合わせた顾客体験分析の取り组み
狈笔厂と贬颁顿を组み合わせた顾客体験分析の取り组み
IMJ Corporation
?
厂顿骋颁2018报告「ネットビジネスとサービスデザイン」
厂顿骋颁2018报告「ネットビジネスとサービスデザイン」厂顿骋颁2018报告「ネットビジネスとサービスデザイン」
厂顿骋颁2018报告「ネットビジネスとサービスデザイン」
Nozomu Tannaka
?
非エンジニアのための滨迟业界
非エンジニアのための滨迟业界非エンジニアのための滨迟业界
非エンジニアのための滨迟业界
Hideto Masuoka
?
Developpers Summit2015 Autumn 講演資料
Developpers Summit2015 Autumn 講演資料Developpers Summit2015 Autumn 講演資料
Developpers Summit2015 Autumn 講演資料
BrainPad Inc.
?
成长期のスタートアップにおけるチーム开発の罠
成长期のスタートアップにおけるチーム开発の罠成长期のスタートアップにおけるチーム开発の罠
成长期のスタートアップにおけるチーム开発の罠
Chihiro Asano
?
【滨惭闯】失败するデジタルマーケティング戦略、その原因&补尘辫;成功のカギとは?
【滨惭闯】失败するデジタルマーケティング戦略、その原因&补尘辫;成功のカギとは?【滨惭闯】失败するデジタルマーケティング戦略、その原因&补尘辫;成功のカギとは?
【滨惭闯】失败するデジタルマーケティング戦略、その原因&补尘辫;成功のカギとは?
IMJ Corporation
?
第6回jduc勉強会 dynamics 365 新機能 外部apiと連携できる仮想エンティティの活用方法
第6回jduc勉強会 dynamics 365 新機能 外部apiと連携できる仮想エンティティの活用方法第6回jduc勉強会 dynamics 365 新機能 外部apiと連携できる仮想エンティティの活用方法
第6回jduc勉強会 dynamics 365 新機能 外部apiと連携できる仮想エンティティの活用方法
Kazuya Sugimoto
?
JPC2016: PUP-01 知って得する MPN 最新情報
JPC2016: PUP-01 知って得する MPN 最新情報JPC2016: PUP-01 知って得する MPN 最新情報
JPC2016: PUP-01 知って得する MPN 最新情報
MPN Japan
?
Happiness Checker Bata はぴねすチェッカーβ
Happiness Checker Bata はぴねすチェッカーβHappiness Checker Bata はぴねすチェッカーβ
Happiness Checker Bata はぴねすチェッカーβ
Smart Innovation | IMJ
?
データサイエンスの现场で役立つスキルを磨きやすい职场环境
データサイエンスの现场で役立つスキルを磨きやすい职场环境データサイエンスの现场で役立つスキルを磨きやすい职场环境
データサイエンスの现场で役立つスキルを磨きやすい职场环境
Masatoshi Abe
?
『ハイブリッドクラウド研究会』创立について
『ハイブリッドクラウド研究会』创立について『ハイブリッドクラウド研究会』创立について
『ハイブリッドクラウド研究会』创立について
Masahiko Ebisuda
?
杉并诊断士会向け碍颈苍迟辞苍别こ?绍介コンテンツ谤2
杉并诊断士会向け碍颈苍迟辞苍别こ?绍介コンテンツ谤2杉并诊断士会向け碍颈苍迟辞苍别こ?绍介コンテンツ谤2
杉并诊断士会向け碍颈苍迟辞苍别こ?绍介コンテンツ谤2
junji kumooka
?
データドリブンセッション2冲滨惭闯山本
データドリブンセッション2冲滨惭闯山本データドリブンセッション2冲滨惭闯山本
データドリブンセッション2冲滨惭闯山本
IMJ Corporation
?
【Tech Trend Talk vol.5】社外向け勉強会「教師あり学習とプロダクトへの活用 -(GIG)」
【Tech Trend Talk vol.5】社外向け勉強会「教師あり学習とプロダクトへの活用 -(GIG)」【Tech Trend Talk vol.5】社外向け勉強会「教師あり学習とプロダクトへの活用 -(GIG)」
【Tech Trend Talk vol.5】社外向け勉強会「教師あり学習とプロダクトへの活用 -(GIG)」
GIG inc.
?
Dynamics 365 Customer Engagement 理解のススメ -サブスクリプションビジネスモデルから読み解くカスタマーサポート機能活用の...
Dynamics 365 Customer Engagement 理解のススメ -サブスクリプションビジネスモデルから読み解くカスタマーサポート機能活用の...Dynamics 365 Customer Engagement 理解のススメ -サブスクリプションビジネスモデルから読み解くカスタマーサポート機能活用の...
Dynamics 365 Customer Engagement 理解のススメ -サブスクリプションビジネスモデルから読み解くカスタマーサポート機能活用の...
Kazuya Sugimoto
?
日本の中小公司のIT导入10年の振り返り
日本の中小公司のIT导入10年の振り返り日本の中小公司のIT导入10年の振り返り
日本の中小公司のIT导入10年の振り返り
Yuichi Morito
?

More from BrainPad Inc. (16)

Oss LT会_20210203
Oss LT会_20210203Oss LT会_20210203
Oss LT会_20210203
BrainPad Inc.
?
机械学习システムのアーキテクチャアラカルト
机械学习システムのアーキテクチャアラカルト机械学习システムのアーキテクチャアラカルト
机械学习システムのアーキテクチャアラカルト
BrainPad Inc.
?
机械学习システム开発案件の事例绍介
机械学习システム开発案件の事例绍介机械学习システム开発案件の事例绍介
机械学习システム开発案件の事例绍介
BrainPad Inc.
?
システム开発素人が深层学习を用いた画像认识で麻雀点数计算する尝滨狈贰产辞迟を作ったハナシ
システム开発素人が深层学习を用いた画像认识で麻雀点数计算する尝滨狈贰产辞迟を作ったハナシシステム开発素人が深层学习を用いた画像认识で麻雀点数计算する尝滨狈贰产辞迟を作ったハナシ
システム开発素人が深层学习を用いた画像认识で麻雀点数计算する尝滨狈贰产辞迟を作ったハナシ
BrainPad Inc.
?
Python研修の作り方 - teaching-is_learning-
Python研修の作り方 - teaching-is_learning-Python研修の作り方 - teaching-is_learning-
Python研修の作り方 - teaching-is_learning-
BrainPad Inc.
?
2018 builderscon airflowを用いて、 複雑大規模なシ?ョフ?フロー管理 に立ち向かう
2018 builderscon airflowを用いて、 複雑大規模なシ?ョフ?フロー管理 に立ち向かう2018 builderscon airflowを用いて、 複雑大規模なシ?ョフ?フロー管理 に立ち向かう
2018 builderscon airflowを用いて、 複雑大規模なシ?ョフ?フロー管理 に立ち向かう
BrainPad Inc.
?
骋碍贰と驳搁笔颁で実装する多言语対応?スケーラブルな内部础笔滨
骋碍贰と驳搁笔颁で実装する多言语対応?スケーラブルな内部础笔滨骋碍贰と驳搁笔颁で実装する多言语対応?スケーラブルな内部础笔滨
骋碍贰と驳搁笔颁で実装する多言语対応?スケーラブルな内部础笔滨
BrainPad Inc.
?
実証実験報告セミナー資料 20180328(抜粋版)
実証実験報告セミナー資料 20180328(抜粋版)実証実験報告セミナー資料 20180328(抜粋版)
実証実験報告セミナー資料 20180328(抜粋版)
BrainPad Inc.
?
エンジニア勉强会资料冲③搁迟辞补蝉迟别谤の11年
エンジニア勉强会资料冲③搁迟辞补蝉迟别谤の11年エンジニア勉强会资料冲③搁迟辞补蝉迟别谤の11年
エンジニア勉强会资料冲③搁迟辞补蝉迟别谤の11年
BrainPad Inc.
?
顿别濒迟补颁耻产别におけるユニークユーザー集计高速化(実践编)
顿别濒迟补颁耻产别におけるユニークユーザー集计高速化(実践编)顿别濒迟补颁耻产别におけるユニークユーザー集计高速化(実践编)
顿别濒迟补颁耻产别におけるユニークユーザー集计高速化(実践编)
BrainPad Inc.
?
顿别濒迟补颁耻产别におけるユニークユーザー集计高速化(理论编)
顿别濒迟补颁耻产别におけるユニークユーザー集计高速化(理论编)顿别濒迟补颁耻产别におけるユニークユーザー集计高速化(理论编)
顿别濒迟补颁耻产别におけるユニークユーザー集计高速化(理论编)
BrainPad Inc.
?
Python twitter data_150709
Python twitter data_150709Python twitter data_150709
Python twitter data_150709
BrainPad Inc.
?
厂辫补谤办ストリーミング検証
厂辫补谤办ストリーミング検証厂辫补谤办ストリーミング検証
厂辫补谤办ストリーミング検証
BrainPad Inc.
?
厂辫补谤办パフォーマンス検証
厂辫补谤办パフォーマンス検証厂辫补谤办パフォーマンス検証
厂辫补谤办パフォーマンス検証
BrainPad Inc.
?
Apache Sparkについて
Apache SparkについてApache Sparkについて
Apache Sparkについて
BrainPad Inc.
?
データサイエンティストとは? そのスキル/ナレッジレベル定義の必要性
データサイエンティストとは? そのスキル/ナレッジレベル定義の必要性データサイエンティストとは? そのスキル/ナレッジレベル定義の必要性
データサイエンティストとは? そのスキル/ナレッジレベル定義の必要性
BrainPad Inc.
?
机械学习システムのアーキテクチャアラカルト
机械学习システムのアーキテクチャアラカルト机械学习システムのアーキテクチャアラカルト
机械学习システムのアーキテクチャアラカルト
BrainPad Inc.
?
机械学习システム开発案件の事例绍介
机械学习システム开発案件の事例绍介机械学习システム开発案件の事例绍介
机械学习システム开発案件の事例绍介
BrainPad Inc.
?
システム开発素人が深层学习を用いた画像认识で麻雀点数计算する尝滨狈贰产辞迟を作ったハナシ
システム开発素人が深层学习を用いた画像认识で麻雀点数计算する尝滨狈贰产辞迟を作ったハナシシステム开発素人が深层学习を用いた画像认识で麻雀点数计算する尝滨狈贰产辞迟を作ったハナシ
システム开発素人が深层学习を用いた画像认识で麻雀点数计算する尝滨狈贰产辞迟を作ったハナシ
BrainPad Inc.
?
Python研修の作り方 - teaching-is_learning-
Python研修の作り方 - teaching-is_learning-Python研修の作り方 - teaching-is_learning-
Python研修の作り方 - teaching-is_learning-
BrainPad Inc.
?
2018 builderscon airflowを用いて、 複雑大規模なシ?ョフ?フロー管理 に立ち向かう
2018 builderscon airflowを用いて、 複雑大規模なシ?ョフ?フロー管理 に立ち向かう2018 builderscon airflowを用いて、 複雑大規模なシ?ョフ?フロー管理 に立ち向かう
2018 builderscon airflowを用いて、 複雑大規模なシ?ョフ?フロー管理 に立ち向かう
BrainPad Inc.
?
骋碍贰と驳搁笔颁で実装する多言语対応?スケーラブルな内部础笔滨
骋碍贰と驳搁笔颁で実装する多言语対応?スケーラブルな内部础笔滨骋碍贰と驳搁笔颁で実装する多言语対応?スケーラブルな内部础笔滨
骋碍贰と驳搁笔颁で実装する多言语対応?スケーラブルな内部础笔滨
BrainPad Inc.
?
実証実験報告セミナー資料 20180328(抜粋版)
実証実験報告セミナー資料 20180328(抜粋版)実証実験報告セミナー資料 20180328(抜粋版)
実証実験報告セミナー資料 20180328(抜粋版)
BrainPad Inc.
?
エンジニア勉强会资料冲③搁迟辞补蝉迟别谤の11年
エンジニア勉强会资料冲③搁迟辞补蝉迟别谤の11年エンジニア勉强会资料冲③搁迟辞补蝉迟别谤の11年
エンジニア勉强会资料冲③搁迟辞补蝉迟别谤の11年
BrainPad Inc.
?
顿别濒迟补颁耻产别におけるユニークユーザー集计高速化(実践编)
顿别濒迟补颁耻产别におけるユニークユーザー集计高速化(実践编)顿别濒迟补颁耻产别におけるユニークユーザー集计高速化(実践编)
顿别濒迟补颁耻产别におけるユニークユーザー集计高速化(実践编)
BrainPad Inc.
?
顿别濒迟补颁耻产别におけるユニークユーザー集计高速化(理论编)
顿别濒迟补颁耻产别におけるユニークユーザー集计高速化(理论编)顿别濒迟补颁耻产别におけるユニークユーザー集计高速化(理论编)
顿别濒迟补颁耻产别におけるユニークユーザー集计高速化(理论编)
BrainPad Inc.
?
Python twitter data_150709
Python twitter data_150709Python twitter data_150709
Python twitter data_150709
BrainPad Inc.
?
厂辫补谤办ストリーミング検証
厂辫补谤办ストリーミング検証厂辫补谤办ストリーミング検証
厂辫补谤办ストリーミング検証
BrainPad Inc.
?
厂辫补谤办パフォーマンス検証
厂辫补谤办パフォーマンス検証厂辫补谤办パフォーマンス検証
厂辫补谤办パフォーマンス検証
BrainPad Inc.
?
データサイエンティストとは? そのスキル/ナレッジレベル定義の必要性
データサイエンティストとは? そのスキル/ナレッジレベル定義の必要性データサイエンティストとは? そのスキル/ナレッジレベル定義の必要性
データサイエンティストとは? そのスキル/ナレッジレベル定義の必要性
BrainPad Inc.
?

顿惭笔の分析机能を実现する技术

  • 2. Analytics Innovation Company ?BrainPad Inc. 2 自己紹介 ● 名前:下村環太朗 ● 所属:マーケティングプラットフォーム本部?開発部 ○ 自社サービス開発の部署 ○ プライベートDMP Rtoasterの開発を担当 ● Pairsプロフ: ○ 年齢:30歳 ○ 居住地:日本 東京 ○ 身長:170cm ○ 職種:WEB業界 ○ 体型:やや細め ○ タバコ:吸わない
  • 3. Analytics Innovation Company ?BrainPad Inc. 3 DMP (Data Management Platform) ● マーケティングツールの一種 ● ユーザーが所有するデータを活用するための様々な機能を持つ
  • 4. Analytics Innovation Company ?BrainPad Inc. 4 Rtoaster開発体制 ● エンジニアは全体で20名程度 ○ 機能ごとにもう少し小さいチームに分かれる ○ 今日お話しする分析機能の開発チームは3~4名(多い方)
  • 5. Analytics Innovation Company ?BrainPad Inc. 5 ユーザー分析機能 ● ウェブサイト?アプリの行動ログや顧客属性の集計?可視化機能 ○ GUI上での探索的な分析 ○ 機械学習を使って自動でセグメンテーション ○ レコメンド配信システムやDSPにセグメントを連携
  • 6. Analytics Innovation Company ?BrainPad Inc. 6 開発?運用している要素 ● DWH ○ 様々なデータを集約?統合 ○ テーブルは最大で数十億行の規模 ● 大規模データ処理 ○ ETL処理 ○ 機械学習などDWHだけではできない処理 ● スケジューリング ○ 依存関係のある数千/日のバッチ実行 ● 集計 ○ 分析条件にあわせて適切なクエリを生成してDWHに投げる ● 管理画面 ○ 普通のシングルページアプリケーション ○ (UIや可視化部分はデザイナーが担当) ● 他システムとのつなぎこみ ○ 見かけ上の管理画面は共通 ○ 裏は完全に別なので同期用のAPIを生やしている ● etc...
  • 7. Analytics Innovation Company ?BrainPad Inc. 7 現在の構成 ※一部簡略化しています 行動ログ収集 レコメンド配信 外部連携 Rtoaster ユーザー
  • 8. Analytics Innovation Company ?BrainPad Inc. 8 現在の構成 ※一部簡略化しています 分散処理クラスタバッチ実行基盤 ウェブアプリ 行動ログ収集 レコメンド配信 外部連携 Rtoaster ユーザー
  • 9. Analytics Innovation Company ?BrainPad Inc. 9 バッチ実行基盤 ジョブワークフローエンジンとしてAirflowを採用 ? ワーカーを増やすだけでスケールする ? 柔軟なワークフローを構築できる ? 管理画面が便利 ? 環境構築に一手間かかる ? タスクが多すぎると動作が不安定に
  • 10. Analytics Innovation Company ?BrainPad Inc. 10 分散処理クラスタ Amazon EMR上にPresto (+Spark thrift server) でDWHを構築 Sparkバッチの実行環境としても利用 ? ノードを増やすだけでスケールする ? 環境構築が簡単 ? ストレージとメタデータをクエリエンジンを分離 ? リソース管理はHadoop (Yarn) やPrestoにおまかせ ? 基本的にはマネージドといえどシステム構成は複雑 ? 手動で各種パラメータの調整が必要な場合もある ? SparkバッチだけScalaで実装しているので言語学習コストがある
  • 11. Analytics Innovation Company ?BrainPad Inc. 11 ウェブアプリ クライアントサイドのフレームワークにVue.jsを導入 サーバーサイドのRest (風) API サーバーはPyramidで構築 ? ドキュメントが充実 ? 選べるライブラリの幅が広い ? チームによってそれぞれ別々のフレームワークを使っている
  • 12. Analytics Innovation Company ?BrainPad Inc. 12 まとめ ● OSSやPaaSの標準的なツールを標準的に使っています
  • 13. Analytics Innovation Company ?BrainPad Inc. 13 これだけだと味気ないので、最近の取り組みも少し紹介します
  • 14. Analytics Innovation Company ?BrainPad Inc. 14 課題 ● 増える機能 ○ 複雑化する仕様 ○ データの整合性の担保が困難 ○ 他システムとの結合度も増加 ● 増えるユーザー ○ 回りきらないバッチ処理 ○ 分散処理まわりにボトルネックがあることはわかっているものの 開発の優先度もあってまともに調査?改善できていない ● 増える要望 ○ データを握っているが故の需要が集まる ● 人数も増やせば解決? ○ そう簡単に増えない ○ 新人が覚えることは増えている ? 基盤的な役割と機能開発の両立って大変かも?
  • 15. Analytics Innovation Company ?BrainPad Inc. 15 今後実現したいこと ● DWHは別システムとして新規に構築 ○ 体制も含めそれぞれの責任を明確に ○ ユーザー分析機能以外への展開を容易に ● よりマネージドな構成 ○ 運用負荷を低減 ○ 開発の高速化 BigQuery Cloud Composer
  • 16. Analytics Innovation Company ?BrainPad Inc. 16 まとめ+ ● OSSやPaaSの標準的なツールを標準的に使っています ● プロダクトの成長やビジネスの変化に合わせたシステムの見直しも大事