狠狠撸
Submit Search
ビッグデータ?データマートとは
?
0 likes
?
1,159 views
株
株式会社オプト 仙台ラボラトリ
Follow
ビッグデータとデータマート【タガヤス その2】登壇資料
Read less
Read more
1 of 71
Download now
Download to read offline
More Related Content
ビッグデータ?データマートとは
1.
? Opt, Inc.
All Rights Reserved. ビッグデータ?データマートとは 株式会社オプト 仙台テクノロジー開発部 第2回タガヤス登壇資料
2.
? Opt, Inc.
All Rights Reserved. 自己紹介 名 前:萩野 輝(はぎの あきら) 所 属:株式会社オプト 仙台テクノロジー開発部 好 物:カツ丼 注目点:公の場での登壇は
3.
? Opt, Inc.
All Rights Reserved. 自己紹介 名 前:萩野 輝(はぎの あきら) 所 属:株式会社オプト 仙台テクノロジー開発部 好 物:カツ丼 注目点:公の場での登壇は初!!
4.
? Opt, Inc.
All Rights Reserved. Copyright ? 2017 OPT Inc. All Rights Reserved. 目次 ● ビッグデータとは ● データウェアハウスとは ● データマートとは
5.
? Opt, Inc.
All Rights Reserved. ビッグデータとは
6.
? Opt, Inc.
All Rights Reserved. ビッグデータってどんなデータ?
7.
? Opt, Inc.
All Rights Reserved. ビッグデータとは、通常のツールで は扱えないような、非常に大きな データ量のデータのこと。 wikiによると2012年時点の定義で は、数十テラ~数ペタバイト。
8.
? Opt, Inc.
All Rights Reserved. オプトではたくさんの顧客の広告を扱っ ており 仙台で扱っているデータは 1日でおよそ11.5 GBです (※データベース取込前の圧縮ファイル状態です)
9.
? Opt, Inc.
All Rights Reserved. ちょっと小話 新聞は朝刊?夕刊合わせて 1MBらしい 休刊日を除き、353日発行した場合 1年で353MBとすると??? 11.5GB => 11500MB => 32.5年分
10.
? Opt, Inc.
All Rights Reserved. 現在の蓄積されているデータ総量 はというと???
11.
? Opt, Inc.
All Rights Reserved. 4.02 TB Redshiftの総利用量 (Redshiftのデータ圧縮は最大1/4)
12.
? Opt, Inc.
All Rights Reserved. レコード件数でいうと、 だいたい???
13.
? Opt, Inc.
All Rights Reserved. 75億!あと、2000万 Redshiftの総データ件数
14.
? Opt, Inc.
All Rights Reserved. ちなみに??? オプトで扱っている 広告データは 大きく分けて2種類あります
15.
? Opt, Inc.
All Rights Reserved. Google、Yahoo!など 広告を掲載している 広告媒体から 取得しているデータ ※取り扱い媒体数100以上 Google Yahoo! Facebook Twitter LINE criteo
16.
? Opt, Inc.
All Rights Reserved. ADPLAN(弊社製品)などの 広告掲載効果を測定する 広告効果測定ツールから 取得しているデータ
17.
? Opt, Inc.
All Rights Reserved. 分析しやすい形に集計して格納 Redshift 広告媒体データ 広告効果測定ツール データ Google Yahoo! Facebook Twitter LINE criteo etc... etc...
18.
? Opt, Inc.
All Rights Reserved. そうすることで どの広告を いつ どんな端末から 何回表示したか 何回クリックしたか などなど 分析できています
19.
? Opt, Inc.
All Rights Reserved. データ量が大きいだけ?
20.
? Opt, Inc.
All Rights Reserved. データ量以外にも 定義があります
21.
? Opt, Inc.
All Rights Reserved. 3V ※ ダグ?レイニー(Doug Laney)氏提言
22.
? Opt, Inc.
All Rights Reserved. ?Volume(量) データ量のこと 通常のツールでは扱えないような、非 常に大きなデータ量
23.
? Opt, Inc.
All Rights Reserved. ?Velocity(頻度) データ取得の頻度のこと 短い周期で大量のデータが発生
24.
? Opt, Inc.
All Rights Reserved. ?Variety(多様性) データの種類のこと 様々種類のデータかつ、それぞれが 関連づいている
25.
? Opt, Inc.
All Rights Reserved. たとえば???
26.
? Opt, Inc.
All Rights Reserved. 発行された新聞の全文字データ
27.
? Opt, Inc.
All Rights Reserved. データは多そうだが、 テキストデータのみで 発生頻度も高くはない
28.
? Opt, Inc.
All Rights Reserved. ダメビッグ! ※ 造語です
29.
? Opt, Inc.
All Rights Reserved. 日別天気情報 + ネット広告媒体データ + 広告効果計測ツールデータ
30.
? Opt, Inc.
All Rights Reserved. データ量、発生頻度も高く 種類の異なるデータ かつ、組み合わせて分析可能
31.
? Opt, Inc.
All Rights Reserved. ナイスビッグ! ※ 造語です
32.
? Opt, Inc.
All Rights Reserved. 3Vの他にも Veracity(正確性) Value(価値) なども定義として 提唱されている
33.
? Opt, Inc.
All Rights Reserved. まとめ ビッグデータとは、量?頻度?多様性 の3Vに沿ったデータを指す。 中でも、一般的に量が重視されてい る。
34.
? Opt, Inc.
All Rights Reserved. データウェアハウスとは?
35.
? Opt, Inc.
All Rights Reserved. 対で表現されることが多い データウェアハウス データマート
36.
? Opt, Inc.
All Rights Reserved. 直訳すると??? データウェアハウス:データの倉庫 データマート:データの市場
37.
? Opt, Inc.
All Rights Reserved. 倉庫と市場のイメージ データウェアハウス データマート 目的別切り出しておく 欲しいものが探しやすい
38.
? Opt, Inc.
All Rights Reserved. ショートケーキを探してみよう データウェアハウス ここに見取り図がでてきます
39.
? Opt, Inc.
All Rights Reserved. ショートケーキを探してみよう データウェアハウス 野菜 キャベツ 白菜 衣類 ジーンズ スカート 肉 鶏肉 牛肉 玩具 ドローン ゲーム機 ケーキ ロールケーキ ショートケーキ フルーツ いちご ほおずき
40.
? Opt, Inc.
All Rights Reserved. ショートケーキを探してみよう データウェアハウス 野菜 キャベツ 白菜 衣類 ジーンズ スカート 肉 鶏肉 牛肉 玩具 ドローン ゲーム機 ケーキ ロールケーキ ショートケーキ フルーツ いちご ほおずき
41.
? Opt, Inc.
All Rights Reserved. ショートケーキを探してみよう データマート ここに見取り図がでてきます
42.
? Opt, Inc.
All Rights Reserved. ショートケーキを探してみよう ケーキ ショートケーキ データマート
43.
? Opt, Inc.
All Rights Reserved. ショートケーキを探してみよう ケーキ ショートケーキ データマート
44.
? Opt, Inc.
All Rights Reserved. データマートの方が、 格段に探しやすく 短時間で見つけられましたよね
45.
? Opt, Inc.
All Rights Reserved. イメージがわいたところで データウェアハウスの説明を 再開します
46.
? Opt, Inc.
All Rights Reserved. データウェアハウスとは、意思決定 のために目的別に編成、統合化さ れた、時系列で更新をしないデータ の集合体 ※ ビル?インモン(William H. Inmon)氏提言
47.
? Opt, Inc.
All Rights Reserved. 4つの要件
48.
? Opt, Inc.
All Rights Reserved. ?目的別(サブジェクト指向) 分析したいものを軸に、データが まとめられている
49.
? Opt, Inc.
All Rights Reserved. ?統合化 全体のデータが、統一された フォーマットになっている
50.
? Opt, Inc.
All Rights Reserved. ?時系列 経過の変化を分析できるよう、過 去のデータをもっている
51.
? Opt, Inc.
All Rights Reserved. ?更新しない(恒常的) 削除や更新をしない (過去のものは実績のため)
52.
? Opt, Inc.
All Rights Reserved. たとえば???
53.
? Opt, Inc.
All Rights Reserved. ある会社に、 天気情報?ネット広告?ユーザ情報 などを管理した、システムがある
54.
? Opt, Inc.
All Rights Reserved. 類似の商品Aの過去情報から、いつ、 誰に向けて広告をだせば購入数が増え るか分析したいAさん
55.
? Opt, Inc.
All Rights Reserved. 天気情報 システム ネット広告 システム ユーザ情報 システム 各管理システムのデータ例 調査日時, 天気状態, 気温, … 広告番号, 掲載日時, 閲覧者, 成果, … ユーザID, 性別, 年齢, …
56.
? Opt, Inc.
All Rights Reserved. 天気情報 システム ネット広告 システム ユーザ情報 システム 各管理システムのデータ例 調査日時, 天気状態, 気温 広告番号, 掲載日時, 閲覧者 ユーザID, 性別, 年齢 データの項目名がバラバラ データの保存場所?期間も異っ ており組み合わせが 困難!!
57.
? Opt, Inc.
All Rights Reserved. ETL (Extract Transform Load) (抽出?加工?ロード) データウェアハウス 各システムのデータを抽出 データウェアハウス構築 目的に合わせて、集計して格納する (過去も含め、必要な期間分) 天気情報 システム ネット広告 システム ユーザ情報 システム 日別 期間別広告成果情報 月別 年別 分別 日別 週別
58.
? Opt, Inc.
All Rights Reserved. データウェアハウスデータ例 期間別 広告成果情報 (日別) 閲覧日 天気 広告内容 閲覧数 (10~30代) 閲覧数 (40~60代) 購入数 (10~30代) 購入数 (40~60代) 2017/10/04 (水) 晴れ 商品A 50 10 1 5 2017/10/05 (木) 雨 商品A 70 30 2 20 2017/10/06 (金) 晴れ 商品A 48 3 1 1
59.
? Opt, Inc.
All Rights Reserved. データウェアハウスデータ例 期間別 広告成果情報 (日別) 閲覧日 天気 広告内容 閲覧数 (10~30代) 閲覧数 (40~60代) 購入数 (10~30代) 購入数 (40~60代) 2017/10/04 (水) 晴れ 商品A 50 10 1 5 2017/10/05 (木) 雨 商品A 70 30 2 20 2017/10/06 (金) 晴れ 商品A 48 3 1 1
60.
? Opt, Inc.
All Rights Reserved. データウェアハウスデータ例 期間別 広告成果情報 (日別) 閲覧日 天気 広告内容 閲覧数 (10~30代) 閲覧数 (40~60代) 購入数 (10~30代) 購入数 (40~60代) 2017/10/04 (水) 晴れ 商品A 50 10 1 5 2017/10/05 (木) 雨 商品A 70 30 2 20 2017/10/06 (金) 晴れ 商品A 48 3 1 1?40~60代の購入が多い ?雨の日はさらに多くなる ?ただし、金曜日は激減 (飲み会かな?)
61.
? Opt, Inc.
All Rights Reserved. データマートとは?
62.
? Opt, Inc.
All Rights Reserved. データマートとは、頻繁に利用する データのみ切り出しておいたもの。 同時利用数?データ量削減などから レスポンスの向上が期待できる。
63.
? Opt, Inc.
All Rights Reserved. たとえば???
64.
? Opt, Inc.
All Rights Reserved. ある会社に、 天気情報?ネット広告情報?ユーザ 情報などを管理した、システムの データを集計して格納したデータ ウェアハウスがある
65.
? Opt, Inc.
All Rights Reserved. 毎日、直近3日の日別広告閲覧数 と購入数を前年と比較したい、コン サルタントのAさんがいた場合
66.
? Opt, Inc.
All Rights Reserved. データウェアハウスの場合 直近3日 探すのが手間で、 データ総量が多いため 時間もかかる??? データウェアハウス 日別のデータ 昨年同日 日別 期間別広告成果情報 月別 年別 分別 日別 週別
67.
? Opt, Inc.
All Rights Reserved. データマートの場合 直近3日と 昨年同日を 切り出しておく 欲しいデータが まとまっている データウェアハウス 日別 期間別広告成果情報 月別 年別 分別 日別 週別 直近3日部分 昨年同日部分 直近3日 と 昨年同日 日別 データマート
68.
? Opt, Inc.
All Rights Reserved. まとめ
69.
? Opt, Inc.
All Rights Reserved. ビッグデータ: 3V( Volume(量)、Velocity(頻度)、Variety(多様性) ) を基本定義としたデータ データウェアハウス: 4要件( 目的別、統合化、時系列、更新しない ) を満たすデータの集合体 データマート: 高頻度に利用するデータのみ切り出したもの
70.
? Opt, Inc.
All Rights Reserved. 参考サイト ?wikipedia(ビッグデータ、ETL、データマート) https://ja.wikipedia.org/wiki/ビッグデータ https://ja.wikipedia.org/wiki/Extract/Transform/Load https://ja.wikipedia.org/wiki/データマート ?Amazon Redshift https://aws.amazon.com/jp/redshift/ ?ボクシルマガジン データウェアハウスを徹底解説!データベースとの 違い?DWH?RDB https://boxil.jp/mag/a2426/
71.
? Opt, Inc.
All Rights Reserved. ご清聴 ありがとうございました
Download