狠狠撸

狠狠撸Share a Scribd company logo
(C) Recruit Holdings Co.,Ltd. All rights reserved.
巨大なサービスと膨大なデータを支えるプラットフォーム
~リクルートでの Google BigQuery の活用とは?~
2018/3/8
Cloud Days2018 <関西> KEY NOTE
(C) Recruit Holdings Co.,Ltd. All rights reserved.
自己紹介
{"ID" :"fetaro"
"名前":"渡部 徹太郎"
"研究":"東京工業大学でデータベースと情報検索の研究
(@日本データベース学会)"
"仕事":{前職:["証券会社のオンライントレードシステムのWeb基盤",
"オープンソースなら何でも。主にMongoDB,NoSQL"],
現職:["リクルートの分析基盤,Exadata,BigQuery,EMR"]
副業:["ビッグデータコンサルタント", "非常勤講師" ]}
"エディタ":"emacs派",
"趣味": ["自宅サーバ","麻雀"]
}
(C) Recruit Holdings Co.,Ltd. All rights reserved.
目次
■ データプラットフォームの紹介
■ BigQuery の使い所
(C) Recruit Holdings Co.,Ltd. All rights reserved.
データプラットフォームの紹介
(C) Recruit Holdings Co.,Ltd. All rights reserved.
リクルートの事業領域
ライフイベント ライフスタイル
旅行
ライフスタイル
健康?美容
就職
結婚
転職
不動産
自動車
出産
教育
「ゆりかごから墓場まで」
(C) Recruit Holdings Co.,Ltd. All rights reserved.
リクルートのビジネスモデル
■ リボンモデル
(C) Recruit Holdings Co.,Ltd. All rights reserved.
リクルートのビジネスモデル
クライアント
カスタマ
集める
集める
動かす
動かす
結ぶ
(C) Recruit Holdings Co.,Ltd. All rights reserved.
ビッグデータの活用箇所
カスタマ クライアント
①集客のコスト削減
?メール?広告最適化
?ポイント付与最適化
③クライアント業務支援
?レポーティング
④KPI可視化
データドリブンな意思決定支援
②マッチング率向上
?UI/UX改善
?レコメンデーション
(C) Recruit Holdings Co.,Ltd. All rights reserved.
リクルートホールディングス データ?AI戦略統括部
リクルート
ホールディングス
リクルートキャリア
リクルート住まいカンパニー
リクルートライフスタイル
リクルートジョブズ
リクルートスタッフィング
リクルートマーケティングパートナーズ
???
リクルート テクノロジーズ
リクルートアドミニストレーション
リクルートコミュニケーションズ
事業会社
機能会社
データ?AI
戦略統括部
(C) Recruit Holdings Co.,Ltd. All rights reserved.
Recruit ID?リクルートポイント
■ 共通IDで行動を把握?分析。共通ポイントの付与
横断データ基盤
Recruit ID
(C) Recruit Holdings Co.,Ltd. All rights reserved.
横断データ基盤
(C) Recruit Holdings Co.,Ltd. All rights reserved.
横断データ基盤の構成要素
12
ポイント?メール?
広告
マスタデータRecruit
Service
Web?
アプリ
Exadata
RDS
S3
行動データ
API提供
集計/予測/分類
アドホック分析/データ共有
出力蓄積
データアプリケーション
Google Cloud Storage
Spanner
収集
?
?
?
50サイト
加工
セグメント抽出
BigQuery
BI?レポート
GKE k8s
(C) Recruit Holdings Co.,Ltd. All rights reserved.
横断データ基盤のプロファイル
■ データ
● データ量:2,000+TB
● サービス:50
● データベース:160
● テーブル:8000
■ 処理
● サーバ数:200+
● ジョブ数:10000
● クエリ数: 100,000,000/月
■ 体制
● 分析環境利用者数:400人
● 開発者数:87人
13
(C) Recruit Holdings Co.,Ltd. All rights reserved.
横断データ基盤の典型的な処理パターン
■ サイト横断でデータを取得、機械学習によりユーザを推定、
メール?ポイント最適化、UI/UX改善に利用する
14
Aサイト
行動
データ
Exadata
マスター
データ
S3
Web
機械学習による
属性推定
個人情報マスク
名寄せ
DWH化
API化
推定結果の
格納
Exadata
リスト作成
メール
ポイント
最適化
UI/UX
改善
ブ
ラ
ウ
ザ
Point
Aサイトに訪れたこと無いユーザでも、
Bサイトの情報から属性を推定できる
Bサイト
(C) Recruit Holdings Co.,Ltd. All rights reserved.
プラットフォームだけでなくデータガバナンスを強化
■ データガバナンス
● メタデータ管理 ??? できてる!
● データフロー管理 ??? できてきた!
● データ品質管理 ??? これから
15
(C) Recruit Holdings Co.,Ltd. All rights reserved.
メタデータ管理
■ メタデータ可視化Web
● データを探す機能
? データベース一覧?テーブル一覧
? キーワード検索
? 名前が似ているテーブル
● データの意味を知る機能
? テーブル定義
? コード値
? 利用者のコメント
? よく利用しているユーザ
● データの関係を知る機能
? 外部参照一覧
? JOINされることが多いテーブル
● データの変化を知る機能
? テーブル定義変更検知?通知 16
Web
アプリ
OLTP
DB
分析
DB
Web
アプリ
OLTP
DB
Web
アプリ
OLTP
DB
メタデータ可視化Web
リクルートのほぼ全サイトで導入
OLTP DB, 分析DBの両方から情報を収集
(C) Recruit Holdings Co.,Ltd. All rights reserved.
データフロー管理
■ データとジョブの関係を可視化
● データ数:7000
ジョブ数:800
■ 用途
● 障害発生時の影響調査
● 処理設計時のインプット
■ 管理方法
● YAMLをgitで管理 17
データマー
ト
ETL マート化
データマ
ート
マート化
DWH
src
src ETL
レポート
アプリケーション
ジョブコントローラ
独自Webアプリを開発
(C) Recruit Holdings Co.,Ltd. All rights reserved.
データ品質管理
■ データ品質
● データの鮮度
● データの正確性(欠損、重複はないか)
● など
■ できていること
● アプリケーション個別に件数チェック、重複チェック
■ やりたいこと
● プラットフォーム全体でデータ品質管理プラットフォームを準備
● データの重要度によってデータ品質チェックの量を変える
18
(C) Recruit Holdings Co.,Ltd. All rights reserved.
BigQuery の使い所
(C) Recruit Holdings Co.,Ltd. All rights reserved.
分析用SQLエンジンの進化
20
RDB(OLTP) RDB(DWH)
SQL on
Hadoop
Redshift
? MPP
? 専用のハードウェア
? 大量のディスク
? ロード?抽出?集計
に特化
? 汎用的なハードウ
ェア
? 無限にスケール
? UPDATE /
DELETEを捨てる
? クエリ毎にリソー
スの動的割当
Impara
Athena
2004年
(Google)
2012年
(Google)
BigQuery
(C) Recruit Holdings Co.,Ltd. All rights reserved.
BigQueryとは
■ BigQuery とは
● Google がHadoop(Hive)を進化させて作った分散SQLエンジン
● クエリ課金
● 速度が別格(1TBを1秒でスキャン)
● GROUP BYやJOIN等の重い処理は、処理量に合わせて計算ノードを動的に割り
当てて実行。利用できるノードは1000台以上
21
分散ストレージ Colossus File System
シャード シャード シャード シャード シャード
ミキサー ミキサー ミキサー
ルート
ミキサー
参考)オライリー?ジャパン社「BigQuery」
(C) Recruit Holdings Co.,Ltd. All rights reserved.
BigQuery をどこで使うか
カスタマ クライアント
①集客のコスト削減
?メール?広告最適化
?ポイント付与最適化
③クライアント業務支援
?レポーティング
④KPI可視化
データドリブンな意思決定支援
②マッチング率向上
?UI/UX改善
?レコメンデーション
(C) Recruit Holdings Co.,Ltd. All rights reserved.
BigQueryをどこで使うか
■ データ分析は二つのパターンが有る
アドホック分析
● 企画や戦略の立案社員全員が
担当のデータを見る
● ExcelやBI的なこと
● 皆がデータを見る
23
バックエンドシステム
● バッチとして実装し、
日々価値を生み出し続ける
● 夜間バッチ
● データ加工や機械学習
(C) Recruit Holdings Co.,Ltd. All rights reserved.
BigQuery をどこで使うか
カスタマ クライアント
①集客のコスト削減
?メール?広告最適化
?ポイント付与最適化
③クライアント業務支援
?レポーティング
②マッチング率向上
?UI/UX改善
?レコメンデーション
バックエンドシステムがメイン
(C) Recruit Holdings Co.,Ltd. All rights reserved.
BigQuery をどこで使うか
カスタマ クライアント
④KPI可視化
データドリブンな意思決定支援
アドホック分析がメイン
↓
BigQueryが向いている
(C) Recruit Holdings Co.,Ltd. All rights reserved.
BigQuery の使い所
Oracle Exadata Hortonworks BigQuery
出来ること SQL SQL (Hive)
機械学習 + その他
SQL
クエリ速度 △
リソースは一定
△
リソースは一定
?
クエリ毎にリソースを確保
値段 ?
専用ハードウェアが必要
△
一般的なハードウェア
?
クエリ課金
扱えるデータ量
(予算内で)
?
容量あたり蓄積コスト高
△ ?
全量OK
セキュリティ?安
定性
?
オンプレなので
?
オンプレなので
△
クラウドなので
高SLAのバッチ処理 機械学習モデルの
計算
全社員向け
公開データセット
バックエンドシステム アドホック分析
(C) Recruit Holdings Co.,Ltd. All rights reserved.
BigQuery がアドホック分析に向いている訳
■ 速い
● すぐに分析結果が出る
■ データ量を気にしなくて良い
● 容量は実質無限。GCS にためておくだけなら安い。
■ 使いやすい
● ブラウザがあればOK。クライアント環境構築が不要
■ 従量課金
● 使いたいときだけにコストが発生する
■ データの共有が簡単
● 1クリックでデータ共有が可能
● 例)全社 BigQuery に全社データから推定したユーザ属性を格納し、
各社の BigQuery からJOINしてつかってもらう
(C) Recruit Holdings Co.,Ltd. All rights reserved.
GCP の活用と今後のテーマ
■ GCP 活用中
● Google Pub/Sub を用いたユーザ行動ログに対するリアルタイム属性付与
● Cloud Spannerを用いたメールバナー出し分けツール
● Google Cloud Datastore を用いた、全ユーザx全属性を高速に取得できるAPI開発
■ 今後のテーマ
● BigQuery 全社公開
● Hadoopベースの機械学習から、Dataflow + GPUベースの機械学習へ
● BigQueryにデータ品質情報が表示される画面の開発
(C) Recruit Holdings Co.,Ltd. All rights reserved.
BigQueryにデータ品質情報が表示される画面(開発中)

More Related Content

What's hot (20)

初めてのデータ分析基盘构筑をまかされた、その时何を考えておくと良いのか
初めてのデータ分析基盘构筑をまかされた、その时何を考えておくと良いのか初めてのデータ分析基盘构筑をまかされた、その时何を考えておくと良いのか
初めてのデータ分析基盘构筑をまかされた、その时何を考えておくと良いのか
Techon Organization
?
PySparkによるジョブを、より速く、よりスケーラブルに実行するための最善の方法 ※講演は翻訳資料にて行います。 - Getting the Best...
PySparkによるジョブを、より速く、よりスケーラブルに実行するための最善の方法  ※講演は翻訳資料にて行います。 - Getting the Best...PySparkによるジョブを、より速く、よりスケーラブルに実行するための最善の方法  ※講演は翻訳資料にて行います。 - Getting the Best...
PySparkによるジョブを、より速く、よりスケーラブルに実行するための最善の方法 ※講演は翻訳資料にて行います。 - Getting the Best...
Holden Karau
?
Apache Bigtopによるオープンなビッグデータ処理基盤の構築(オープンデベロッパーズカンファレンス 2021 Online 発表資料)
Apache Bigtopによるオープンなビッグデータ処理基盤の構築(オープンデベロッパーズカンファレンス 2021 Online 発表資料)Apache Bigtopによるオープンなビッグデータ処理基盤の構築(オープンデベロッパーズカンファレンス 2021 Online 発表資料)
Apache Bigtopによるオープンなビッグデータ処理基盤の構築(オープンデベロッパーズカンファレンス 2021 Online 発表資料)
NTT DATA Technology & Innovation
?
ビッグデータ処理データベースの全体像と使い分け?2018年惫别谤蝉颈辞苍
ビッグデータ処理データベースの全体像と使い分け?2018年惫别谤蝉颈辞苍ビッグデータ処理データベースの全体像と使い分け?2018年惫别谤蝉颈辞苍
ビッグデータ処理データベースの全体像と使い分け?2018年惫别谤蝉颈辞苍
Tetsutaro Watanabe
?
データ活用を俊敏に進めるためのDataOps実践方法とその高度化のためのナレッジグラフ活用の取り組み(NTTデータ テクノロジーカンファレンス 2020 ...
データ活用を俊敏に進めるためのDataOps実践方法とその高度化のためのナレッジグラフ活用の取り組み(NTTデータ テクノロジーカンファレンス 2020 ...データ活用を俊敏に進めるためのDataOps実践方法とその高度化のためのナレッジグラフ活用の取り組み(NTTデータ テクノロジーカンファレンス 2020 ...
データ活用を俊敏に進めるためのDataOps実践方法とその高度化のためのナレッジグラフ活用の取り組み(NTTデータ テクノロジーカンファレンス 2020 ...
NTT DATA Technology & Innovation
?
データ仮想化を活用したデータ分析のフローと分析モデル作成の自动化のご绍介
データ仮想化を活用したデータ分析のフローと分析モデル作成の自动化のご绍介データ仮想化を活用したデータ分析のフローと分析モデル作成の自动化のご绍介
データ仮想化を活用したデータ分析のフローと分析モデル作成の自动化のご绍介
Denodo
?
贬补诲辞辞辫入门
贬补诲辞辞辫入门贬补诲辞辞辫入门
贬补诲辞辞辫入门
Preferred Networks
?
「指標」を支えるエンシ?ニアリンク?: DataOpsNight #1
「指標」を支えるエンシ?ニアリンク?: DataOpsNight #1「指標」を支えるエンシ?ニアリンク?: DataOpsNight #1
「指標」を支えるエンシ?ニアリンク?: DataOpsNight #1
株式会社MonotaRO Tech Team
?
贬补诲辞辞辫を叠蚕にマイグレしようとしてる话
贬补诲辞辞辫を叠蚕にマイグレしようとしてる话贬补诲辞辞辫を叠蚕にマイグレしようとしてる话
贬补诲辞辞辫を叠蚕にマイグレしようとしてる话
Recruit Technologies
?
MLOps に基づく AI/ML 実運用最前線 ~画像、動画データにおける MLOps 事例のご紹介~(映像情報メディア学会2021年冬季大会企画セッショ...
MLOps に基づく AI/ML 実運用最前線 ~画像、動画データにおける MLOps 事例のご紹介~(映像情報メディア学会2021年冬季大会企画セッショ...MLOps に基づく AI/ML 実運用最前線 ~画像、動画データにおける MLOps 事例のご紹介~(映像情報メディア学会2021年冬季大会企画セッショ...
MLOps に基づく AI/ML 実運用最前線 ~画像、動画データにおける MLOps 事例のご紹介~(映像情報メディア学会2021年冬季大会企画セッショ...
NTT DATA Technology & Innovation
?
【マーケティンク??テクノロシ?ーフェア 大阪 2023】 テ?ータから正しい意思決定を行うために ?全社横断て?実施したテ?ータ活用フ?ロシ?ェクトの取...
【マーケティンク??テクノロシ?ーフェア 大阪 2023】 テ?ータから正しい意思決定を行うために ?全社横断て?実施したテ?ータ活用フ?ロシ?ェクトの取...【マーケティンク??テクノロシ?ーフェア 大阪 2023】 テ?ータから正しい意思決定を行うために ?全社横断て?実施したテ?ータ活用フ?ロシ?ェクトの取...
【マーケティンク??テクノロシ?ーフェア 大阪 2023】 テ?ータから正しい意思決定を行うために ?全社横断て?実施したテ?ータ活用フ?ロシ?ェクトの取...
株式会社MonotaRO Tech Team
?
惭尝翱辫蝉はバズワード
惭尝翱辫蝉はバズワード惭尝翱辫蝉はバズワード
惭尝翱辫蝉はバズワード
Tetsutaro Watanabe
?
テ?ータ収集の基本と「闯补辫补苍罢补虫颈」アフ?リにおける実践例
テ?ータ収集の基本と「闯补辫补苍罢补虫颈」アフ?リにおける実践例テ?ータ収集の基本と「闯补辫补苍罢补虫颈」アフ?リにおける実践例
テ?ータ収集の基本と「闯补辫补苍罢补虫颈」アフ?リにおける実践例
Tetsutaro Watanabe
?
分散トレーシンク?技術について(Open tracingやjaeger)
分散トレーシンク?技術について(Open tracingやjaeger)分散トレーシンク?技術について(Open tracingやjaeger)
分散トレーシンク?技術について(Open tracingやjaeger)
NTT Communications Technology Development
?
ビッグデータ処理データベースの全体像と使い分け
ビッグデータ処理データベースの全体像と使い分けビッグデータ処理データベースの全体像と使い分け
ビッグデータ処理データベースの全体像と使い分け
Recruit Technologies
?
pg_bigmで全文検索するときに気を付けたい5つのポイント(第23回PostgreSQLアンカンファレンス@オンライン 発表資料)
pg_bigmで全文検索するときに気を付けたい5つのポイント(第23回PostgreSQLアンカンファレンス@オンライン 発表資料)pg_bigmで全文検索するときに気を付けたい5つのポイント(第23回PostgreSQLアンカンファレンス@オンライン 発表資料)
pg_bigmで全文検索するときに気を付けたい5つのポイント(第23回PostgreSQLアンカンファレンス@オンライン 発表資料)
NTT DATA Technology & Innovation
?
pg_hint_planを知る(第37回PostgreSQLアンカンファレンス@オンライン 発表資料)
pg_hint_planを知る(第37回PostgreSQLアンカンファレンス@オンライン 発表資料)pg_hint_planを知る(第37回PostgreSQLアンカンファレンス@オンライン 発表資料)
pg_hint_planを知る(第37回PostgreSQLアンカンファレンス@オンライン 発表資料)
NTT DATA Technology & Innovation
?
VSCodeで作るPostgreSQL開発環境(第25回 PostgreSQLアンカンファレンス@オンライン 発表資料)
VSCodeで作るPostgreSQL開発環境(第25回 PostgreSQLアンカンファレンス@オンライン 発表資料)VSCodeで作るPostgreSQL開発環境(第25回 PostgreSQLアンカンファレンス@オンライン 発表資料)
VSCodeで作るPostgreSQL開発環境(第25回 PostgreSQLアンカンファレンス@オンライン 発表資料)
NTT DATA Technology & Innovation
?
リクルートを支える横断テ?ータ基盘と机械学习の适用事例
リクルートを支える横断テ?ータ基盘と机械学习の适用事例リクルートを支える横断テ?ータ基盘と机械学习の适用事例
リクルートを支える横断テ?ータ基盘と机械学习の适用事例
Tetsutaro Watanabe
?
リクルートにおけるデータのインフラ化への取组
リクルートにおけるデータのインフラ化への取组リクルートにおけるデータのインフラ化への取组
リクルートにおけるデータのインフラ化への取组
Recruit Technologies
?
初めてのデータ分析基盘构筑をまかされた、その时何を考えておくと良いのか
初めてのデータ分析基盘构筑をまかされた、その时何を考えておくと良いのか初めてのデータ分析基盘构筑をまかされた、その时何を考えておくと良いのか
初めてのデータ分析基盘构筑をまかされた、その时何を考えておくと良いのか
Techon Organization
?
PySparkによるジョブを、より速く、よりスケーラブルに実行するための最善の方法 ※講演は翻訳資料にて行います。 - Getting the Best...
PySparkによるジョブを、より速く、よりスケーラブルに実行するための最善の方法  ※講演は翻訳資料にて行います。 - Getting the Best...PySparkによるジョブを、より速く、よりスケーラブルに実行するための最善の方法  ※講演は翻訳資料にて行います。 - Getting the Best...
PySparkによるジョブを、より速く、よりスケーラブルに実行するための最善の方法 ※講演は翻訳資料にて行います。 - Getting the Best...
Holden Karau
?
Apache Bigtopによるオープンなビッグデータ処理基盤の構築(オープンデベロッパーズカンファレンス 2021 Online 発表資料)
Apache Bigtopによるオープンなビッグデータ処理基盤の構築(オープンデベロッパーズカンファレンス 2021 Online 発表資料)Apache Bigtopによるオープンなビッグデータ処理基盤の構築(オープンデベロッパーズカンファレンス 2021 Online 発表資料)
Apache Bigtopによるオープンなビッグデータ処理基盤の構築(オープンデベロッパーズカンファレンス 2021 Online 発表資料)
NTT DATA Technology & Innovation
?
ビッグデータ処理データベースの全体像と使い分け?2018年惫别谤蝉颈辞苍
ビッグデータ処理データベースの全体像と使い分け?2018年惫别谤蝉颈辞苍ビッグデータ処理データベースの全体像と使い分け?2018年惫别谤蝉颈辞苍
ビッグデータ処理データベースの全体像と使い分け?2018年惫别谤蝉颈辞苍
Tetsutaro Watanabe
?
データ活用を俊敏に進めるためのDataOps実践方法とその高度化のためのナレッジグラフ活用の取り組み(NTTデータ テクノロジーカンファレンス 2020 ...
データ活用を俊敏に進めるためのDataOps実践方法とその高度化のためのナレッジグラフ活用の取り組み(NTTデータ テクノロジーカンファレンス 2020 ...データ活用を俊敏に進めるためのDataOps実践方法とその高度化のためのナレッジグラフ活用の取り組み(NTTデータ テクノロジーカンファレンス 2020 ...
データ活用を俊敏に進めるためのDataOps実践方法とその高度化のためのナレッジグラフ活用の取り組み(NTTデータ テクノロジーカンファレンス 2020 ...
NTT DATA Technology & Innovation
?
データ仮想化を活用したデータ分析のフローと分析モデル作成の自动化のご绍介
データ仮想化を活用したデータ分析のフローと分析モデル作成の自动化のご绍介データ仮想化を活用したデータ分析のフローと分析モデル作成の自动化のご绍介
データ仮想化を活用したデータ分析のフローと分析モデル作成の自动化のご绍介
Denodo
?
「指標」を支えるエンシ?ニアリンク?: DataOpsNight #1
「指標」を支えるエンシ?ニアリンク?: DataOpsNight #1「指標」を支えるエンシ?ニアリンク?: DataOpsNight #1
「指標」を支えるエンシ?ニアリンク?: DataOpsNight #1
株式会社MonotaRO Tech Team
?
贬补诲辞辞辫を叠蚕にマイグレしようとしてる话
贬补诲辞辞辫を叠蚕にマイグレしようとしてる话贬补诲辞辞辫を叠蚕にマイグレしようとしてる话
贬补诲辞辞辫を叠蚕にマイグレしようとしてる话
Recruit Technologies
?
MLOps に基づく AI/ML 実運用最前線 ~画像、動画データにおける MLOps 事例のご紹介~(映像情報メディア学会2021年冬季大会企画セッショ...
MLOps に基づく AI/ML 実運用最前線 ~画像、動画データにおける MLOps 事例のご紹介~(映像情報メディア学会2021年冬季大会企画セッショ...MLOps に基づく AI/ML 実運用最前線 ~画像、動画データにおける MLOps 事例のご紹介~(映像情報メディア学会2021年冬季大会企画セッショ...
MLOps に基づく AI/ML 実運用最前線 ~画像、動画データにおける MLOps 事例のご紹介~(映像情報メディア学会2021年冬季大会企画セッショ...
NTT DATA Technology & Innovation
?
【マーケティンク??テクノロシ?ーフェア 大阪 2023】 テ?ータから正しい意思決定を行うために ?全社横断て?実施したテ?ータ活用フ?ロシ?ェクトの取...
【マーケティンク??テクノロシ?ーフェア 大阪 2023】 テ?ータから正しい意思決定を行うために ?全社横断て?実施したテ?ータ活用フ?ロシ?ェクトの取...【マーケティンク??テクノロシ?ーフェア 大阪 2023】 テ?ータから正しい意思決定を行うために ?全社横断て?実施したテ?ータ活用フ?ロシ?ェクトの取...
【マーケティンク??テクノロシ?ーフェア 大阪 2023】 テ?ータから正しい意思決定を行うために ?全社横断て?実施したテ?ータ活用フ?ロシ?ェクトの取...
株式会社MonotaRO Tech Team
?
惭尝翱辫蝉はバズワード
惭尝翱辫蝉はバズワード惭尝翱辫蝉はバズワード
惭尝翱辫蝉はバズワード
Tetsutaro Watanabe
?
テ?ータ収集の基本と「闯补辫补苍罢补虫颈」アフ?リにおける実践例
テ?ータ収集の基本と「闯补辫补苍罢补虫颈」アフ?リにおける実践例テ?ータ収集の基本と「闯补辫补苍罢补虫颈」アフ?リにおける実践例
テ?ータ収集の基本と「闯补辫补苍罢补虫颈」アフ?リにおける実践例
Tetsutaro Watanabe
?
ビッグデータ処理データベースの全体像と使い分け
ビッグデータ処理データベースの全体像と使い分けビッグデータ処理データベースの全体像と使い分け
ビッグデータ処理データベースの全体像と使い分け
Recruit Technologies
?
pg_bigmで全文検索するときに気を付けたい5つのポイント(第23回PostgreSQLアンカンファレンス@オンライン 発表資料)
pg_bigmで全文検索するときに気を付けたい5つのポイント(第23回PostgreSQLアンカンファレンス@オンライン 発表資料)pg_bigmで全文検索するときに気を付けたい5つのポイント(第23回PostgreSQLアンカンファレンス@オンライン 発表資料)
pg_bigmで全文検索するときに気を付けたい5つのポイント(第23回PostgreSQLアンカンファレンス@オンライン 発表資料)
NTT DATA Technology & Innovation
?
pg_hint_planを知る(第37回PostgreSQLアンカンファレンス@オンライン 発表資料)
pg_hint_planを知る(第37回PostgreSQLアンカンファレンス@オンライン 発表資料)pg_hint_planを知る(第37回PostgreSQLアンカンファレンス@オンライン 発表資料)
pg_hint_planを知る(第37回PostgreSQLアンカンファレンス@オンライン 発表資料)
NTT DATA Technology & Innovation
?
VSCodeで作るPostgreSQL開発環境(第25回 PostgreSQLアンカンファレンス@オンライン 発表資料)
VSCodeで作るPostgreSQL開発環境(第25回 PostgreSQLアンカンファレンス@オンライン 発表資料)VSCodeで作るPostgreSQL開発環境(第25回 PostgreSQLアンカンファレンス@オンライン 発表資料)
VSCodeで作るPostgreSQL開発環境(第25回 PostgreSQLアンカンファレンス@オンライン 発表資料)
NTT DATA Technology & Innovation
?
リクルートを支える横断テ?ータ基盘と机械学习の适用事例
リクルートを支える横断テ?ータ基盘と机械学习の适用事例リクルートを支える横断テ?ータ基盘と机械学习の适用事例
リクルートを支える横断テ?ータ基盘と机械学习の适用事例
Tetsutaro Watanabe
?
リクルートにおけるデータのインフラ化への取组
リクルートにおけるデータのインフラ化への取组リクルートにおけるデータのインフラ化への取组
リクルートにおけるデータのインフラ化への取组
Recruit Technologies
?

Similar to 巨大なサービスと膨大なデータを支えるプラットフォーム? (20)

ビッグデータ処理データベースの全体像と使い分け - 2017年 Version -
ビッグデータ処理データベースの全体像と使い分け - 2017年 Version - ビッグデータ処理データベースの全体像と使い分け - 2017年 Version -
ビッグデータ処理データベースの全体像と使い分け - 2017年 Version -
Tetsutaro Watanabe
?
リクルートのビッグデータ活用基盘とデータ活用に向けた取组み
リクルートのビッグデータ活用基盘とデータ活用に向けた取组みリクルートのビッグデータ活用基盘とデータ活用に向けた取组み
リクルートのビッグデータ活用基盘とデータ活用に向けた取组み
Recruit Technologies
?
リクルートのビッグデータ活用基盘とビッグデータ活用のためのメタデータ管理奥别产のご绍介
リクルートのビッグデータ活用基盘とビッグデータ活用のためのメタデータ管理奥别产のご绍介リクルートのビッグデータ活用基盘とビッグデータ活用のためのメタデータ管理奥别产のご绍介
リクルートのビッグデータ活用基盘とビッグデータ活用のためのメタデータ管理奥别产のご绍介
Recruit Technologies
?
リクルート式贬补诲辞辞辫の使い方
リクルート式贬补诲辞辞辫の使い方リクルート式贬补诲辞辞辫の使い方
リクルート式贬补诲辞辞辫の使い方
Recruit Technologies
?
トレジャーデータ新サービス発表 2013/12/9
トレジャーデータ新サービス発表 2013/12/9トレジャーデータ新サービス発表 2013/12/9
トレジャーデータ新サービス発表 2013/12/9
Treasure Data, Inc.
?
ビッグデータ活用支援フォーラム
ビッグデータ活用支援フォーラムビッグデータ活用支援フォーラム
ビッグデータ活用支援フォーラム
Recruit Technologies
?
复数顿叠のバックアップ?切り戻し运用手顺が异なって大変?!运用性の大幅改善、その先に。。
复数顿叠のバックアップ?切り戻し运用手顺が异なって大変?!运用性の大幅改善、その先に。。 复数顿叠のバックアップ?切り戻し运用手顺が异なって大変?!运用性の大幅改善、その先に。。
复数顿叠のバックアップ?切り戻し运用手顺が异なって大変?!运用性の大幅改善、その先に。。
Insight Technology, Inc.
?
ビッグデータ&データマネジメント展
ビッグデータ&データマネジメント展ビッグデータ&データマネジメント展
ビッグデータ&データマネジメント展
Recruit Technologies
?
贬补诲辞辞辫カンファレンス2013
贬补诲辞辞辫カンファレンス2013贬补诲辞辞辫カンファレンス2013
贬补诲辞辞辫カンファレンス2013
Recruit Technologies
?
データ集計基盤のいままでとこれから ?Hadoopからdataflowまで使い込んだ経験を徹底共有?
データ集計基盤のいままでとこれから ?Hadoopからdataflowまで使い込んだ経験を徹底共有?データ集計基盤のいままでとこれから ?Hadoopからdataflowまで使い込んだ経験を徹底共有?
データ集計基盤のいままでとこれから ?Hadoopからdataflowまで使い込んだ経験を徹底共有?
Kazuhiro Mitsuhashi
?
Big data解析ビジネス
Big data解析ビジネスBig data解析ビジネス
Big data解析ビジネス
Mie Mori
?
変わる!? リクルートグループのデータ解析基盤
変わる!? リクルートグループのデータ解析基盤変わる!? リクルートグループのデータ解析基盤
変わる!? リクルートグループのデータ解析基盤
Recruit Technologies
?
[de:code 2019 振り返り Night!] Data Platform
[de:code 2019 振り返り Night!] Data Platform[de:code 2019 振り返り Night!] Data Platform
[de:code 2019 振り返り Night!] Data Platform
Naoki (Neo) SATO
?
Web アプリケーションにおけるクライアントサイドのデータハンドリングと可視化の実現
Web アプリケーションにおけるクライアントサイドのデータハンドリングと可視化の実現Web アプリケーションにおけるクライアントサイドのデータハンドリングと可視化の実現
Web アプリケーションにおけるクライアントサイドのデータハンドリングと可視化の実現
インフラジスティックス?ジャパン株式会社
?
Qiita x Microsoft - 機械学習セミナー Microsoft AI Platform
Qiita x Microsoft - 機械学習セミナー Microsoft AI PlatformQiita x Microsoft - 機械学習セミナー Microsoft AI Platform
Qiita x Microsoft - 機械学習セミナー Microsoft AI Platform
Daiyu Hatakeyama
?
[よくわかるクラウドデータベース] リクルートにおけるRedshift導入?活用事例
[よくわかるクラウドデータベース] リクルートにおけるRedshift導入?活用事例[よくわかるクラウドデータベース] リクルートにおけるRedshift導入?活用事例
[よくわかるクラウドデータベース] リクルートにおけるRedshift導入?活用事例
Amazon Web Services Japan
?
[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ by トレジャーデータ株式会社 斉藤太郎
[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ  by トレジャーデータ株式会社 斉藤太郎[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ  by トレジャーデータ株式会社 斉藤太郎
[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ by トレジャーデータ株式会社 斉藤太郎
Insight Technology, Inc.
?
础耻迟辞苍辞尘辞耻蝉选手権システムエグゼ社発表资料
础耻迟辞苍辞尘辞耻蝉选手権システムエグゼ社発表资料础耻迟辞苍辞尘辞耻蝉选手権システムエグゼ社発表资料
础耻迟辞苍辞尘辞耻蝉选手権システムエグゼ社発表资料
Mai Nagahisa
?
ビッグデータ処理データベースの全体像と使い分け - 2017年 Version -
ビッグデータ処理データベースの全体像と使い分け - 2017年 Version - ビッグデータ処理データベースの全体像と使い分け - 2017年 Version -
ビッグデータ処理データベースの全体像と使い分け - 2017年 Version -
Tetsutaro Watanabe
?
リクルートのビッグデータ活用基盘とデータ活用に向けた取组み
リクルートのビッグデータ活用基盘とデータ活用に向けた取组みリクルートのビッグデータ活用基盘とデータ活用に向けた取组み
リクルートのビッグデータ活用基盘とデータ活用に向けた取组み
Recruit Technologies
?
リクルートのビッグデータ活用基盘とビッグデータ活用のためのメタデータ管理奥别产のご绍介
リクルートのビッグデータ活用基盘とビッグデータ活用のためのメタデータ管理奥别产のご绍介リクルートのビッグデータ活用基盘とビッグデータ活用のためのメタデータ管理奥别产のご绍介
リクルートのビッグデータ活用基盘とビッグデータ活用のためのメタデータ管理奥别产のご绍介
Recruit Technologies
?
リクルート式贬补诲辞辞辫の使い方
リクルート式贬补诲辞辞辫の使い方リクルート式贬补诲辞辞辫の使い方
リクルート式贬补诲辞辞辫の使い方
Recruit Technologies
?
トレジャーデータ新サービス発表 2013/12/9
トレジャーデータ新サービス発表 2013/12/9トレジャーデータ新サービス発表 2013/12/9
トレジャーデータ新サービス発表 2013/12/9
Treasure Data, Inc.
?
ビッグデータ活用支援フォーラム
ビッグデータ活用支援フォーラムビッグデータ活用支援フォーラム
ビッグデータ活用支援フォーラム
Recruit Technologies
?
复数顿叠のバックアップ?切り戻し运用手顺が异なって大変?!运用性の大幅改善、その先に。。
复数顿叠のバックアップ?切り戻し运用手顺が异なって大変?!运用性の大幅改善、その先に。。 复数顿叠のバックアップ?切り戻し运用手顺が异なって大変?!运用性の大幅改善、その先に。。
复数顿叠のバックアップ?切り戻し运用手顺が异なって大変?!运用性の大幅改善、その先に。。
Insight Technology, Inc.
?
ビッグデータ&データマネジメント展
ビッグデータ&データマネジメント展ビッグデータ&データマネジメント展
ビッグデータ&データマネジメント展
Recruit Technologies
?
贬补诲辞辞辫カンファレンス2013
贬补诲辞辞辫カンファレンス2013贬补诲辞辞辫カンファレンス2013
贬补诲辞辞辫カンファレンス2013
Recruit Technologies
?
データ集計基盤のいままでとこれから ?Hadoopからdataflowまで使い込んだ経験を徹底共有?
データ集計基盤のいままでとこれから ?Hadoopからdataflowまで使い込んだ経験を徹底共有?データ集計基盤のいままでとこれから ?Hadoopからdataflowまで使い込んだ経験を徹底共有?
データ集計基盤のいままでとこれから ?Hadoopからdataflowまで使い込んだ経験を徹底共有?
Kazuhiro Mitsuhashi
?
Big data解析ビジネス
Big data解析ビジネスBig data解析ビジネス
Big data解析ビジネス
Mie Mori
?
変わる!? リクルートグループのデータ解析基盤
変わる!? リクルートグループのデータ解析基盤変わる!? リクルートグループのデータ解析基盤
変わる!? リクルートグループのデータ解析基盤
Recruit Technologies
?
[de:code 2019 振り返り Night!] Data Platform
[de:code 2019 振り返り Night!] Data Platform[de:code 2019 振り返り Night!] Data Platform
[de:code 2019 振り返り Night!] Data Platform
Naoki (Neo) SATO
?
Web アプリケーションにおけるクライアントサイドのデータハンドリングと可視化の実現
Web アプリケーションにおけるクライアントサイドのデータハンドリングと可視化の実現Web アプリケーションにおけるクライアントサイドのデータハンドリングと可視化の実現
Web アプリケーションにおけるクライアントサイドのデータハンドリングと可視化の実現
インフラジスティックス?ジャパン株式会社
?
Qiita x Microsoft - 機械学習セミナー Microsoft AI Platform
Qiita x Microsoft - 機械学習セミナー Microsoft AI PlatformQiita x Microsoft - 機械学習セミナー Microsoft AI Platform
Qiita x Microsoft - 機械学習セミナー Microsoft AI Platform
Daiyu Hatakeyama
?
[よくわかるクラウドデータベース] リクルートにおけるRedshift導入?活用事例
[よくわかるクラウドデータベース] リクルートにおけるRedshift導入?活用事例[よくわかるクラウドデータベース] リクルートにおけるRedshift導入?活用事例
[よくわかるクラウドデータベース] リクルートにおけるRedshift導入?活用事例
Amazon Web Services Japan
?
[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ by トレジャーデータ株式会社 斉藤太郎
[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ  by トレジャーデータ株式会社 斉藤太郎[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ  by トレジャーデータ株式会社 斉藤太郎
[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ by トレジャーデータ株式会社 斉藤太郎
Insight Technology, Inc.
?
础耻迟辞苍辞尘辞耻蝉选手権システムエグゼ社発表资料
础耻迟辞苍辞尘辞耻蝉选手権システムエグゼ社発表资料础耻迟辞苍辞尘辞耻蝉选手権システムエグゼ社発表资料
础耻迟辞苍辞尘辞耻蝉选手権システムエグゼ社発表资料
Mai Nagahisa
?

More from Tetsutaro Watanabe (19)

データサイエンティスト向け性能问题対応の基础
データサイエンティスト向け性能问题対応の基础データサイエンティスト向け性能问题対応の基础
データサイエンティスト向け性能问题対応の基础
Tetsutaro Watanabe
?
ドライブレコーダの动画を使った道路情报の自动差分抽出
ドライブレコーダの动画を使った道路情报の自动差分抽出ドライブレコーダの动画を使った道路情报の自动差分抽出
ドライブレコーダの动画を使った道路情报の自动差分抽出
Tetsutaro Watanabe
?
滨辞罢テ?ハ?イステ?ータ収集の难しい点
滨辞罢テ?ハ?イステ?ータ収集の难しい点滨辞罢テ?ハ?イステ?ータ収集の难しい点
滨辞罢テ?ハ?イステ?ータ収集の难しい点
Tetsutaro Watanabe
?
ドライブレコーダの画像认识による道路情报の自动差分抽出
ドライブレコーダの画像认识による道路情报の自动差分抽出ドライブレコーダの画像认识による道路情报の自动差分抽出
ドライブレコーダの画像认识による道路情报の自动差分抽出
Tetsutaro Watanabe
?
先駆者に学ふ? MLOpsの実際
先駆者に学ふ? MLOpsの実際先駆者に学ふ? MLOpsの実際
先駆者に学ふ? MLOpsの実際
Tetsutaro Watanabe
?
ML Ops NYC 19 & Strata Data Conference 2019 NewYork 注目セッションまとめ
ML Ops NYC 19 & Strata Data Conference 2019 NewYork 注目セッションまとめML Ops NYC 19 & Strata Data Conference 2019 NewYork 注目セッションまとめ
ML Ops NYC 19 & Strata Data Conference 2019 NewYork 注目セッションまとめ
Tetsutaro Watanabe
?
タクシードライブレコーダーの动画処理惭尝パイプラインに办耻产别谤苍别迟别蝉を使ってみた
タクシードライブレコーダーの动画処理惭尝パイプラインに办耻产别谤苍别迟别蝉を使ってみたタクシードライブレコーダーの动画処理惭尝パイプラインに办耻产别谤苍别迟别蝉を使ってみた
タクシードライブレコーダーの动画処理惭尝パイプラインに办耻产别谤苍别迟别蝉を使ってみた
Tetsutaro Watanabe
?
闯补辫补苍罢补虫颈における厂补驳别尘补办别谤+αによる机械学习アフ?リケーションの本番运用
闯补辫补苍罢补虫颈における厂补驳别尘补办别谤+αによる机械学习アフ?リケーションの本番运用闯补辫补苍罢补虫颈における厂补驳别尘补办别谤+αによる机械学习アフ?リケーションの本番运用
闯补辫补苍罢补虫颈における厂补驳别尘补办别谤+αによる机械学习アフ?リケーションの本番运用
Tetsutaro Watanabe
?
JapanTaxiにおけるML Ops ?機械学習の開発運用プロセス?
JapanTaxiにおけるML Ops ?機械学習の開発運用プロセス?JapanTaxiにおけるML Ops ?機械学習の開発運用プロセス?
JapanTaxiにおけるML Ops ?機械学習の開発運用プロセス?
Tetsutaro Watanabe
?
Google Cloud Next '18 Recap/報告会 機械学習関連
Google Cloud Next '18 Recap/報告会 機械学習関連Google Cloud Next '18 Recap/報告会 機械学習関連
Google Cloud Next '18 Recap/報告会 機械学習関連
Tetsutaro Watanabe
?
奥颈谤别诲罢颈驳别谤を详しく説明
奥颈谤别诲罢颈驳别谤を详しく説明奥颈谤别诲罢颈驳别谤を详しく説明
奥颈谤别诲罢颈驳别谤を详しく説明
Tetsutaro Watanabe
?
リクルートテクノロシ?ース? における EMR の活用とコスト圧縮方法
リクルートテクノロシ?ース? における EMR の活用とコスト圧縮方法リクルートテクノロシ?ース? における EMR の活用とコスト圧縮方法
リクルートテクノロシ?ース? における EMR の活用とコスト圧縮方法
Tetsutaro Watanabe
?
ヒ?ックテ?ータ処理技术の全体像とリクルートて?の使い分け
ヒ?ックテ?ータ処理技术の全体像とリクルートて?の使い分けヒ?ックテ?ータ処理技术の全体像とリクルートて?の使い分け
ヒ?ックテ?ータ処理技术の全体像とリクルートて?の使い分け
Tetsutaro Watanabe
?
惭辞苍驳辞顿叠か?遅いときの切り分け方法
惭辞苍驳辞顿叠か?遅いときの切り分け方法惭辞苍驳辞顿叠か?遅いときの切り分け方法
惭辞苍驳辞顿叠か?遅いときの切り分け方法
Tetsutaro Watanabe
?
惭辞苍驳辞顿叠3.2の绍介
惭辞苍驳辞顿叠3.2の绍介惭辞苍驳辞顿叠3.2の绍介
惭辞苍驳辞顿叠3.2の绍介
Tetsutaro Watanabe
?
MongoDB World 2014に行ってきた!
MongoDB World 2014に行ってきた!MongoDB World 2014に行ってきた!
MongoDB World 2014に行ってきた!
Tetsutaro Watanabe
?
がっつり惭辞苍驳辞顿叠事例绍介
がっつり惭辞苍驳辞顿叠事例绍介がっつり惭辞苍驳辞顿叠事例绍介
がっつり惭辞苍驳辞顿叠事例绍介
Tetsutaro Watanabe
?
初心者向け惭辞苍驳辞顿叠のキホン!
初心者向け惭辞苍驳辞顿叠のキホン!初心者向け惭辞苍驳辞顿叠のキホン!
初心者向け惭辞苍驳辞顿叠のキホン!
Tetsutaro Watanabe
?
惭辞苍驳辞顿叠の监视
惭辞苍驳辞顿叠の监视惭辞苍驳辞顿叠の监视
惭辞苍驳辞顿叠の监视
Tetsutaro Watanabe
?
データサイエンティスト向け性能问题対応の基础
データサイエンティスト向け性能问题対応の基础データサイエンティスト向け性能问题対応の基础
データサイエンティスト向け性能问题対応の基础
Tetsutaro Watanabe
?
ドライブレコーダの动画を使った道路情报の自动差分抽出
ドライブレコーダの动画を使った道路情报の自动差分抽出ドライブレコーダの动画を使った道路情报の自动差分抽出
ドライブレコーダの动画を使った道路情报の自动差分抽出
Tetsutaro Watanabe
?
滨辞罢テ?ハ?イステ?ータ収集の难しい点
滨辞罢テ?ハ?イステ?ータ収集の难しい点滨辞罢テ?ハ?イステ?ータ収集の难しい点
滨辞罢テ?ハ?イステ?ータ収集の难しい点
Tetsutaro Watanabe
?
ドライブレコーダの画像认识による道路情报の自动差分抽出
ドライブレコーダの画像认识による道路情报の自动差分抽出ドライブレコーダの画像认识による道路情报の自动差分抽出
ドライブレコーダの画像认识による道路情报の自动差分抽出
Tetsutaro Watanabe
?
先駆者に学ふ? MLOpsの実際
先駆者に学ふ? MLOpsの実際先駆者に学ふ? MLOpsの実際
先駆者に学ふ? MLOpsの実際
Tetsutaro Watanabe
?
ML Ops NYC 19 & Strata Data Conference 2019 NewYork 注目セッションまとめ
ML Ops NYC 19 & Strata Data Conference 2019 NewYork 注目セッションまとめML Ops NYC 19 & Strata Data Conference 2019 NewYork 注目セッションまとめ
ML Ops NYC 19 & Strata Data Conference 2019 NewYork 注目セッションまとめ
Tetsutaro Watanabe
?
タクシードライブレコーダーの动画処理惭尝パイプラインに办耻产别谤苍别迟别蝉を使ってみた
タクシードライブレコーダーの动画処理惭尝パイプラインに办耻产别谤苍别迟别蝉を使ってみたタクシードライブレコーダーの动画処理惭尝パイプラインに办耻产别谤苍别迟别蝉を使ってみた
タクシードライブレコーダーの动画処理惭尝パイプラインに办耻产别谤苍别迟别蝉を使ってみた
Tetsutaro Watanabe
?
闯补辫补苍罢补虫颈における厂补驳别尘补办别谤+αによる机械学习アフ?リケーションの本番运用
闯补辫补苍罢补虫颈における厂补驳别尘补办别谤+αによる机械学习アフ?リケーションの本番运用闯补辫补苍罢补虫颈における厂补驳别尘补办别谤+αによる机械学习アフ?リケーションの本番运用
闯补辫补苍罢补虫颈における厂补驳别尘补办别谤+αによる机械学习アフ?リケーションの本番运用
Tetsutaro Watanabe
?
JapanTaxiにおけるML Ops ?機械学習の開発運用プロセス?
JapanTaxiにおけるML Ops ?機械学習の開発運用プロセス?JapanTaxiにおけるML Ops ?機械学習の開発運用プロセス?
JapanTaxiにおけるML Ops ?機械学習の開発運用プロセス?
Tetsutaro Watanabe
?
Google Cloud Next '18 Recap/報告会 機械学習関連
Google Cloud Next '18 Recap/報告会 機械学習関連Google Cloud Next '18 Recap/報告会 機械学習関連
Google Cloud Next '18 Recap/報告会 機械学習関連
Tetsutaro Watanabe
?
奥颈谤别诲罢颈驳别谤を详しく説明
奥颈谤别诲罢颈驳别谤を详しく説明奥颈谤别诲罢颈驳别谤を详しく説明
奥颈谤别诲罢颈驳别谤を详しく説明
Tetsutaro Watanabe
?
リクルートテクノロシ?ース? における EMR の活用とコスト圧縮方法
リクルートテクノロシ?ース? における EMR の活用とコスト圧縮方法リクルートテクノロシ?ース? における EMR の活用とコスト圧縮方法
リクルートテクノロシ?ース? における EMR の活用とコスト圧縮方法
Tetsutaro Watanabe
?
ヒ?ックテ?ータ処理技术の全体像とリクルートて?の使い分け
ヒ?ックテ?ータ処理技术の全体像とリクルートて?の使い分けヒ?ックテ?ータ処理技术の全体像とリクルートて?の使い分け
ヒ?ックテ?ータ処理技术の全体像とリクルートて?の使い分け
Tetsutaro Watanabe
?
惭辞苍驳辞顿叠か?遅いときの切り分け方法
惭辞苍驳辞顿叠か?遅いときの切り分け方法惭辞苍驳辞顿叠か?遅いときの切り分け方法
惭辞苍驳辞顿叠か?遅いときの切り分け方法
Tetsutaro Watanabe
?
惭辞苍驳辞顿叠3.2の绍介
惭辞苍驳辞顿叠3.2の绍介惭辞苍驳辞顿叠3.2の绍介
惭辞苍驳辞顿叠3.2の绍介
Tetsutaro Watanabe
?
MongoDB World 2014に行ってきた!
MongoDB World 2014に行ってきた!MongoDB World 2014に行ってきた!
MongoDB World 2014に行ってきた!
Tetsutaro Watanabe
?
がっつり惭辞苍驳辞顿叠事例绍介
がっつり惭辞苍驳辞顿叠事例绍介がっつり惭辞苍驳辞顿叠事例绍介
がっつり惭辞苍驳辞顿叠事例绍介
Tetsutaro Watanabe
?
初心者向け惭辞苍驳辞顿叠のキホン!
初心者向け惭辞苍驳辞顿叠のキホン!初心者向け惭辞苍驳辞顿叠のキホン!
初心者向け惭辞苍驳辞顿叠のキホン!
Tetsutaro Watanabe
?

巨大なサービスと膨大なデータを支えるプラットフォーム?

  • 1. (C) Recruit Holdings Co.,Ltd. All rights reserved. 巨大なサービスと膨大なデータを支えるプラットフォーム ~リクルートでの Google BigQuery の活用とは?~ 2018/3/8 Cloud Days2018 <関西> KEY NOTE
  • 2. (C) Recruit Holdings Co.,Ltd. All rights reserved. 自己紹介 {"ID" :"fetaro" "名前":"渡部 徹太郎" "研究":"東京工業大学でデータベースと情報検索の研究 (@日本データベース学会)" "仕事":{前職:["証券会社のオンライントレードシステムのWeb基盤", "オープンソースなら何でも。主にMongoDB,NoSQL"], 現職:["リクルートの分析基盤,Exadata,BigQuery,EMR"] 副業:["ビッグデータコンサルタント", "非常勤講師" ]} "エディタ":"emacs派", "趣味": ["自宅サーバ","麻雀"] }
  • 3. (C) Recruit Holdings Co.,Ltd. All rights reserved. 目次 ■ データプラットフォームの紹介 ■ BigQuery の使い所
  • 4. (C) Recruit Holdings Co.,Ltd. All rights reserved. データプラットフォームの紹介
  • 5. (C) Recruit Holdings Co.,Ltd. All rights reserved. リクルートの事業領域 ライフイベント ライフスタイル 旅行 ライフスタイル 健康?美容 就職 結婚 転職 不動産 自動車 出産 教育 「ゆりかごから墓場まで」
  • 6. (C) Recruit Holdings Co.,Ltd. All rights reserved. リクルートのビジネスモデル ■ リボンモデル
  • 7. (C) Recruit Holdings Co.,Ltd. All rights reserved. リクルートのビジネスモデル クライアント カスタマ 集める 集める 動かす 動かす 結ぶ
  • 8. (C) Recruit Holdings Co.,Ltd. All rights reserved. ビッグデータの活用箇所 カスタマ クライアント ①集客のコスト削減 ?メール?広告最適化 ?ポイント付与最適化 ③クライアント業務支援 ?レポーティング ④KPI可視化 データドリブンな意思決定支援 ②マッチング率向上 ?UI/UX改善 ?レコメンデーション
  • 9. (C) Recruit Holdings Co.,Ltd. All rights reserved. リクルートホールディングス データ?AI戦略統括部 リクルート ホールディングス リクルートキャリア リクルート住まいカンパニー リクルートライフスタイル リクルートジョブズ リクルートスタッフィング リクルートマーケティングパートナーズ ??? リクルート テクノロジーズ リクルートアドミニストレーション リクルートコミュニケーションズ 事業会社 機能会社 データ?AI 戦略統括部
  • 10. (C) Recruit Holdings Co.,Ltd. All rights reserved. Recruit ID?リクルートポイント ■ 共通IDで行動を把握?分析。共通ポイントの付与 横断データ基盤 Recruit ID
  • 11. (C) Recruit Holdings Co.,Ltd. All rights reserved. 横断データ基盤
  • 12. (C) Recruit Holdings Co.,Ltd. All rights reserved. 横断データ基盤の構成要素 12 ポイント?メール? 広告 マスタデータRecruit Service Web? アプリ Exadata RDS S3 行動データ API提供 集計/予測/分類 アドホック分析/データ共有 出力蓄積 データアプリケーション Google Cloud Storage Spanner 収集 ? ? ? 50サイト 加工 セグメント抽出 BigQuery BI?レポート GKE k8s
  • 13. (C) Recruit Holdings Co.,Ltd. All rights reserved. 横断データ基盤のプロファイル ■ データ ● データ量:2,000+TB ● サービス:50 ● データベース:160 ● テーブル:8000 ■ 処理 ● サーバ数:200+ ● ジョブ数:10000 ● クエリ数: 100,000,000/月 ■ 体制 ● 分析環境利用者数:400人 ● 開発者数:87人 13
  • 14. (C) Recruit Holdings Co.,Ltd. All rights reserved. 横断データ基盤の典型的な処理パターン ■ サイト横断でデータを取得、機械学習によりユーザを推定、 メール?ポイント最適化、UI/UX改善に利用する 14 Aサイト 行動 データ Exadata マスター データ S3 Web 機械学習による 属性推定 個人情報マスク 名寄せ DWH化 API化 推定結果の 格納 Exadata リスト作成 メール ポイント 最適化 UI/UX 改善 ブ ラ ウ ザ Point Aサイトに訪れたこと無いユーザでも、 Bサイトの情報から属性を推定できる Bサイト
  • 15. (C) Recruit Holdings Co.,Ltd. All rights reserved. プラットフォームだけでなくデータガバナンスを強化 ■ データガバナンス ● メタデータ管理 ??? できてる! ● データフロー管理 ??? できてきた! ● データ品質管理 ??? これから 15
  • 16. (C) Recruit Holdings Co.,Ltd. All rights reserved. メタデータ管理 ■ メタデータ可視化Web ● データを探す機能 ? データベース一覧?テーブル一覧 ? キーワード検索 ? 名前が似ているテーブル ● データの意味を知る機能 ? テーブル定義 ? コード値 ? 利用者のコメント ? よく利用しているユーザ ● データの関係を知る機能 ? 外部参照一覧 ? JOINされることが多いテーブル ● データの変化を知る機能 ? テーブル定義変更検知?通知 16 Web アプリ OLTP DB 分析 DB Web アプリ OLTP DB Web アプリ OLTP DB メタデータ可視化Web リクルートのほぼ全サイトで導入 OLTP DB, 分析DBの両方から情報を収集
  • 17. (C) Recruit Holdings Co.,Ltd. All rights reserved. データフロー管理 ■ データとジョブの関係を可視化 ● データ数:7000 ジョブ数:800 ■ 用途 ● 障害発生時の影響調査 ● 処理設計時のインプット ■ 管理方法 ● YAMLをgitで管理 17 データマー ト ETL マート化 データマ ート マート化 DWH src src ETL レポート アプリケーション ジョブコントローラ 独自Webアプリを開発
  • 18. (C) Recruit Holdings Co.,Ltd. All rights reserved. データ品質管理 ■ データ品質 ● データの鮮度 ● データの正確性(欠損、重複はないか) ● など ■ できていること ● アプリケーション個別に件数チェック、重複チェック ■ やりたいこと ● プラットフォーム全体でデータ品質管理プラットフォームを準備 ● データの重要度によってデータ品質チェックの量を変える 18
  • 19. (C) Recruit Holdings Co.,Ltd. All rights reserved. BigQuery の使い所
  • 20. (C) Recruit Holdings Co.,Ltd. All rights reserved. 分析用SQLエンジンの進化 20 RDB(OLTP) RDB(DWH) SQL on Hadoop Redshift ? MPP ? 専用のハードウェア ? 大量のディスク ? ロード?抽出?集計 に特化 ? 汎用的なハードウ ェア ? 無限にスケール ? UPDATE / DELETEを捨てる ? クエリ毎にリソー スの動的割当 Impara Athena 2004年 (Google) 2012年 (Google) BigQuery
  • 21. (C) Recruit Holdings Co.,Ltd. All rights reserved. BigQueryとは ■ BigQuery とは ● Google がHadoop(Hive)を進化させて作った分散SQLエンジン ● クエリ課金 ● 速度が別格(1TBを1秒でスキャン) ● GROUP BYやJOIN等の重い処理は、処理量に合わせて計算ノードを動的に割り 当てて実行。利用できるノードは1000台以上 21 分散ストレージ Colossus File System シャード シャード シャード シャード シャード ミキサー ミキサー ミキサー ルート ミキサー 参考)オライリー?ジャパン社「BigQuery」
  • 22. (C) Recruit Holdings Co.,Ltd. All rights reserved. BigQuery をどこで使うか カスタマ クライアント ①集客のコスト削減 ?メール?広告最適化 ?ポイント付与最適化 ③クライアント業務支援 ?レポーティング ④KPI可視化 データドリブンな意思決定支援 ②マッチング率向上 ?UI/UX改善 ?レコメンデーション
  • 23. (C) Recruit Holdings Co.,Ltd. All rights reserved. BigQueryをどこで使うか ■ データ分析は二つのパターンが有る アドホック分析 ● 企画や戦略の立案社員全員が 担当のデータを見る ● ExcelやBI的なこと ● 皆がデータを見る 23 バックエンドシステム ● バッチとして実装し、 日々価値を生み出し続ける ● 夜間バッチ ● データ加工や機械学習
  • 24. (C) Recruit Holdings Co.,Ltd. All rights reserved. BigQuery をどこで使うか カスタマ クライアント ①集客のコスト削減 ?メール?広告最適化 ?ポイント付与最適化 ③クライアント業務支援 ?レポーティング ②マッチング率向上 ?UI/UX改善 ?レコメンデーション バックエンドシステムがメイン
  • 25. (C) Recruit Holdings Co.,Ltd. All rights reserved. BigQuery をどこで使うか カスタマ クライアント ④KPI可視化 データドリブンな意思決定支援 アドホック分析がメイン ↓ BigQueryが向いている
  • 26. (C) Recruit Holdings Co.,Ltd. All rights reserved. BigQuery の使い所 Oracle Exadata Hortonworks BigQuery 出来ること SQL SQL (Hive) 機械学習 + その他 SQL クエリ速度 △ リソースは一定 △ リソースは一定 ? クエリ毎にリソースを確保 値段 ? 専用ハードウェアが必要 △ 一般的なハードウェア ? クエリ課金 扱えるデータ量 (予算内で) ? 容量あたり蓄積コスト高 △ ? 全量OK セキュリティ?安 定性 ? オンプレなので ? オンプレなので △ クラウドなので 高SLAのバッチ処理 機械学習モデルの 計算 全社員向け 公開データセット バックエンドシステム アドホック分析
  • 27. (C) Recruit Holdings Co.,Ltd. All rights reserved. BigQuery がアドホック分析に向いている訳 ■ 速い ● すぐに分析結果が出る ■ データ量を気にしなくて良い ● 容量は実質無限。GCS にためておくだけなら安い。 ■ 使いやすい ● ブラウザがあればOK。クライアント環境構築が不要 ■ 従量課金 ● 使いたいときだけにコストが発生する ■ データの共有が簡単 ● 1クリックでデータ共有が可能 ● 例)全社 BigQuery に全社データから推定したユーザ属性を格納し、 各社の BigQuery からJOINしてつかってもらう
  • 28. (C) Recruit Holdings Co.,Ltd. All rights reserved. GCP の活用と今後のテーマ ■ GCP 活用中 ● Google Pub/Sub を用いたユーザ行動ログに対するリアルタイム属性付与 ● Cloud Spannerを用いたメールバナー出し分けツール ● Google Cloud Datastore を用いた、全ユーザx全属性を高速に取得できるAPI開発 ■ 今後のテーマ ● BigQuery 全社公開 ● Hadoopベースの機械学習から、Dataflow + GPUベースの機械学習へ ● BigQueryにデータ品質情報が表示される画面の開発
  • 29. (C) Recruit Holdings Co.,Ltd. All rights reserved. BigQueryにデータ品質情報が表示される画面(開発中)