狠狠撸

狠狠撸Share a Scribd company logo
GCPUG in Osaka #6 5分でCloud Dataprepを説明する
Datalake
Datalake?
? A data lake is a method of storing data within a system or repository,in its
natural format, that facilitates the collocation of data in variousschemata and
structural forms, usually object blobs or files.
? The idea of data lake is to have a single store of all data in the enterprise
ranging from rawdata (which implies exact copy of source system data) to
transformed data whichis used for various tasks including reporting, visualization,
analytics andmachine learning.
? The data lake includes structured data from relationaldatabases (rows and
columns), semi-structured data (CSV, logs, XML, JSON),unstructured data
(emails, documents, PDFs) and even binary data (images, audio,video) thus
creating a centralized data store accommodating all forms of data.
? https://en.wikipedia.org/wiki/Data_lake
ETL
? Extract
? Transform
? Load
ETL?
Extract/Transform/Load(略称:ETL)とは、データウェアハウスにおける以下のような工程を指
す。
? Extract - 外部の情報源からデータを抽出
? Transform - 抽出したデータをビジネスでの必要に応じて変換?加工
? Load - 最終的ターゲット(すなわちデータウェアハウス)に変換?加工済みのデータをロード
ETLは、データウェアハウスにデータを実際にロードする方法として重要である。ETLという用語は
データウェアハウスでのデータのロードだけでなく、任意のデータベースでのロード工程を指すこ
ともある。ETLはレガシーシステムとの統合にも使われる。通常のETL実装は、処理についての監査
証跡を記録する。ほとんど全ての設計において、この監査証跡は、元のデータが利用不可能な場合
にETLの結果を再現できるほどの細粒度のレベルにはなっていない。
https://ja.wikipedia.org/wiki/Extract/Transform/Load
GCPUG in Osaka #6 5分でCloud Dataprepを説明する
GCPUG in Osaka #6 5分でCloud Dataprepを説明する
よくある要望
データの変更がよくあって、いちいち開
発費払ってられないんで、変更は自分で
やりたい
GCPUG in Osaka #6 5分でCloud Dataprepを説明する
Cloud Dataprep
?分析用データを視覚的に探索、クリーニング、準備
するためのインテリジェント クラウドデータ サービ
ス(https://cloud.google.com/dataprep/?hl=ja)
?フルマネージド
?Prep==準備
?UIが秀逸
?データ分析の前準備は、Dataprepで全てできるかも
Excel
CSV
JSON
TXT
LOG
TSV
Avro
CSV
JSON
Avro
? 検出
? クレンジング
? 拡张
CSV
JSON
TXT
LOG
TSV
Avro
CSV
JSON
Avro
? 検出
? クレンジング
? 拡张
Excel
Cloud Dataprep
mismatched
missing
Cloud Dataprep
あるデータをクリックすると
クリックしたデータが反転する
Cloud Dataprep
Cloud Dataprep
エンジニア目線のUSE CASE
?データをもらったらとりあえずDataprepに入れて眺める
?開発するにしてもイメージをつかみやすい
?お客さんに見せる
?このデータじゃ無理でしょ???
?Tableauとかいらなくね?
残念なところ
RDBで使いたい
残念なところ
Google Ghromeしか使えない
GCPUG in Osaka #6 5分でCloud Dataprepを説明する
GCPUG in Osaka #6 5分でCloud Dataprepを説明する
GCPUG in Osaka #6 5分でCloud Dataprepを説明する

More Related Content

GCPUG in Osaka #6 5分でCloud Dataprepを説明する

Editor's Notes

  • #3: この画像は、着作権フリーのサイトからダウンロードしています
  • #4: datalakeをwikiで調べると、このページが出てきます 日本語ページはないみたいですね ここにいる皆さんなら問題ないでしょう
  • #11: 诲补迟补辫谤别辫の绍介
  • #14: 画面1 デフォルト表示 データのバラつきが判る
  • #15: 画面2 赤はmismatch 黒はmissing
  • #16: 画面3 棒グラフを指定すると、該当するデータの色が変わる
  • #17: 画面5 変換処理は好きにできる
  • #18: 画面4 Setをクリックすると提案されている変換処理の実行のプレビューが見れる