4. ? Opt, Inc. All Rights Reserved.
ビッグデータってどんなデータ?
5. ? Opt, Inc. All Rights Reserved.
ビッグデータとは、通常のツールで
は扱えないような、非常に大きな
データ量のデータのこと。
wikiによると5年前の定義では、数
十テラ~数ペタバイト。
6. ? Opt, Inc. All Rights Reserved.
では、オプト仙台ラボラトリで
扱っているデータって?
7. ? Opt, Inc. All Rights Reserved.
ひとことでいうと
「インターネット広告掲載結果」
のデータ
(※弊社はe-marketing companyです)
With
8. ? Opt, Inc. All Rights Reserved.
(株式会社オプトは、 e-marketing companyからINNOVATION AGENCYへ!)
9. ? Opt, Inc. All Rights Reserved.
(e-marketing company
だと堂々と言ってしまいましたが、
今年の夏から
INNOVATION AGENCY
と名乗っていますので
謹んで訂正させていただきます)
ビジネスを革新させ、新しい価値を創造してまいります!
31. ? Opt, Inc. All Rights Reserved.
ビッグデータを扱うデータベースとは?
32. ? Opt, Inc. All Rights Reserved.
ビッグデータを扱うのに
適したデータベースもあります
(一般的にデータウェアハウス)
33. ? Opt, Inc. All Rights Reserved.
Redshift
AWS(Amazon Web Service)というアマゾンのクラウドサービスで
提供されいるデータウェアハウスです。
Amazon Redshiftはペタバイト級の大容量データを高速に処
理することができるデータウェアハウスでコストは従来のソ
リューションの1/10未満です。
(AWS公式サイトより引用)
34. ? Opt, Inc. All Rights Reserved.
Redshiftの特徴
列指向でPostgreSQLベース。
COPYコマンドファイル(CSV,TSV,JSON)から高速にデータ取込が
可能!
更新処理はニガテ???
データベーステーブルの列指向ストレージは、必要な総ディスク
I/O と、ディスクからロードする必要のあるデータ量が大幅に減
少するので、分析クエリのパフォーマンスの最適化において重
要な要因です。
(AWS公式サイトより引用)
35. ? Opt, Inc. All Rights Reserved.
BigQuery
GCP(Google Cloud Platform)というGoogleのクラウドサービスで
提供されいるデータウェアハウスです。
BigQuery は Google が提供するフルマネージドのエンタープ
ライズ向けアナリティクス データ ウェアハウスです。ペタバイト
規模のデータを低料金で格納して処理することができます。
(GCP公式サイトより引用)
36. ? Opt, Inc. All Rights Reserved.
BigQueryの特徴
列指向です。
データ保存は無料でクエリ単位で課金。恒常的に巨大なデータにク
エリを投げるのでなければ結構安い(個人の感想です)。
Googleの他製品とも相性が良く、AdWordsのデータや、Google
Spread Sheetのデータをインポートして処理することなどもできる。
(東京本社の開発では使っているらしい)
37. ? Opt, Inc. All Rights Reserved.
Treasure Data
Treasure Dataより提供されているクラウド上のデータウェアハウス
です。
※オプトでは「トレジャーデータサービス by IDCF」を活用しています。
データの収集?分析?連携を目的としたクラウド型データマネー
ジメントサービスです。ウェブ、モバイルアプリケーション、セン
サーの多構造化?非構造化データなど、様々なソースからの
データ収集、分析、連携を簡単に行えるのが特徴です。
(Treasure Data公式サイトより引用)
38. ? Opt, Inc. All Rights Reserved.
TreasureDataの特徴
列指向です。
どんどんデータを貯めていくのに適している
※削除はDELETE文はないのでニガテ(partial_deleteというコマンド
で、時刻カラムでの期間指定した削除は可能)、更新はできない
パーティションのため時刻のカラムが必須!
39. ? Opt, Inc. All Rights Reserved.
今回は専用のUIもある
Treasure Dataについて
もう少し説明してみたいと思います
40. ? Opt, Inc. All Rights Reserved.
まずは
データベースを作成しましょう!
93. ? Opt, Inc. All Rights Reserved.
経緯
最小粒度(広告業界でいうと、広告やキーワードなどのこと。より大きな粒度は広告グ
ループ、キャンペーンなど)のデータからの計算だったため、各アプリケー
ションからのリクエストに対して理想的とはいえないパフォーマンス。
Redshiftの同時実行数はデフォルトが5、設定自体は50まで増
やすことが可能ですが、「15以下推奨」とされています。(同時
接続数の制限は500)
?OLTP(オンライントランザクション処理)にはやはり不向きだっ
たか????
94. ? Opt, Inc. All Rights Reserved.
やはり、集計しておいたデータがあった
方が良いよね!
(※複数システムでデータを活用しており、様々な
条件で分析するので
最終系を事前準備はむずかしい)
95. ? Opt, Inc. All Rights Reserved.
よく使われる粒度の大きい単位で集計し
てRDS(PostgreSQL)に格納
広告やキーワードといった最も細かい粒度を、キャンペーンとい
うより大きな粒度にサマリしたものにするだけで、
データ件数は24分の1ぐらいに減ります!
当時の状況だと、85%程度のリクエストがキャンペーン粒度の
データ利用で実際は集計できた。
RDSなので同時実行数の懸念もなし!
96. ? Opt, Inc. All Rights Reserved.
リクエストにより
Redshift(最小粒度を保持)と
RDS(集計データを保持)を使い分け
85%程度のリクエストが大きな粒度のデータ利用でまかなえた
としても、残り15%は最小粒度から集計する必要があったので、
切り分け処理を実装!
【メモ】
RDSもRedshift同様のAWSのサービスですが、中身は通常の
DBです(データベースの種類は選択可能です)
97. ? Opt, Inc. All Rights Reserved.
各システム
各システム
データ蓄積
システム
RDS
(PostgreSQ
L)
Redshift
媒体データを利用す
る各システムより
APIリクエスト
キャンペーン粒度から
の集計で問題なければ
データマートへ
広告やキーワードなど
最小粒度の絞り込みを
したければRedshiftへ
API
API
(約85%のリクエストはこ
ちらに)
サマリデータを
格納
この顧客の
運用状況は
どうかな
????
あの顧客の
最近追加し
たXX広告
の実績はど
うかしら
????