狠狠撸

狠狠撸Share a Scribd company logo
GCPUG in Osaka #6 5分でCloud Dataprepを説明する
Datalake
Datalake?
? A data lake is a method of storing data within a system or repository,in its
natural format, that facilitates the collocation of data in variousschemata and
structural forms, usually object blobs or files.
? The idea of data lake is to have a single store of all data in the enterprise
ranging from rawdata (which implies exact copy of source system data) to
transformed data whichis used for various tasks including reporting, visualization,
analytics andmachine learning.
? The data lake includes structured data from relationaldatabases (rows and
columns), semi-structured data (CSV, logs, XML, JSON),unstructured data
(emails, documents, PDFs) and even binary data (images, audio,video) thus
creating a centralized data store accommodating all forms of data.
? https://en.wikipedia.org/wiki/Data_lake
ETL
? Extract
? Transform
? Load
ETL?
Extract/Transform/Load(略称:ETL)とは、データウェアハウスにおける以下のような工程を指
す。
? Extract - 外部の情報源からデータを抽出
? Transform - 抽出したデータをビジネスでの必要に応じて変換?加工
? Load - 最終的ターゲット(すなわちデータウェアハウス)に変換?加工済みのデータをロード
ETLは、データウェアハウスにデータを実際にロードする方法として重要である。ETLという用語は
データウェアハウスでのデータのロードだけでなく、任意のデータベースでのロード工程を指すこ
ともある。ETLはレガシーシステムとの統合にも使われる。通常のETL実装は、処理についての監査
証跡を記録する。ほとんど全ての設計において、この監査証跡は、元のデータが利用不可能な場合
にETLの結果を再現できるほどの細粒度のレベルにはなっていない。
https://ja.wikipedia.org/wiki/Extract/Transform/Load
GCPUG in Osaka #6 5分でCloud Dataprepを説明する
GCPUG in Osaka #6 5分でCloud Dataprepを説明する
よくある要望
データの変更がよくあって、いちいち開
発費払ってられないんで、変更は自分で
やりたい
GCPUG in Osaka #6 5分でCloud Dataprepを説明する
Cloud Dataprep
?分析用データを視覚的に探索、クリーニング、準備
するためのインテリジェント クラウドデータ サービ
ス(https://cloud.google.com/dataprep/?hl=ja)
?フルマネージド
?Prep==準備
?UIが秀逸
?データ分析の前準備は、Dataprepで全てできるかも
Excel
CSV
JSON
TXT
LOG
TSV
Avro
CSV
JSON
Avro
? 検出
? クレンジング
? 拡张
CSV
JSON
TXT
LOG
TSV
Avro
CSV
JSON
Avro
? 検出
? クレンジング
? 拡张
Excel
Cloud Dataprep
mismatched
missing
Cloud Dataprep
あるデータをクリックすると
クリックしたデータが反転する
Cloud Dataprep
Cloud Dataprep
エンジニア目線のUSE CASE
?データをもらったらとりあえずDataprepに入れて眺める
?開発するにしてもイメージをつかみやすい
?お客さんに見せる
?このデータじゃ無理でしょ???
?Tableauとかいらなくね?
残念なところ
RDBで使いたい
残念なところ
Google Ghromeしか使えない
GCPUG in Osaka #6 5分でCloud Dataprepを説明する
GCPUG in Osaka #6 5分でCloud Dataprepを説明する
GCPUG in Osaka #6 5分でCloud Dataprepを説明する

More Related Content

Similar to GCPUG in Osaka #6 5分でCloud Dataprepを説明する (20)

PDF
DBTS2016 Data as Code - Delphix
Masaya Ishikawa
?
PDF
マイニング探検会#10
Yoji Kiyota
?
PPTX
OCI Data Catalog Overview 2021年5月版
オラクルエンジニア通信
?
PDF
0151209 Oracle DDD OracleとHadoop連携の勘所
オラクルエンジニア通信
?
PDF
とっておきの方法! Oracle Databaseの自動アップグレードのお勧め手法 省力?最新化 概要編?(Oracle Cloudウェビナーシリーズ: ...
オラクルエンジニア通信
?
PDF
Azure Antenna はじめての Azure Data Lake
Hideo Takagi
?
PDF
Dat009 クラウドでビック
Tech Summit 2016
?
PDF
[db tech showcase Tokyo 2015] B12:カラムストアデータベースの技術と活用法 by 日本電気株式会社 田村稔
Insight Technology, Inc.
?
PDF
iOS/Androidにも対応した SQL Anywhere 12の魅力
nisobe58
?
PDF
[db tech showcase Tokyo 2017] E23: クラウド異種データベース(AWS)へのデータベース移行時の注意点 ~レプリケーション...
Insight Technology, Inc.
?
PDF
Developers.IO 2019 Effective Datalake
Satoru Ishikawa
?
PPTX
Dat009 クラウドでビック
Tech Summit 2016
?
PPTX
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
Cloudera Japan
?
PDF
[de:code 2019 振り返り Night!] Data Platform
Naoki (Neo) SATO
?
PDF
20180216 sapporo techbar_db_migration
Insight Technology, Inc.
?
PPTX
AWS朝会2022/1 セッション① 数年間、レイクハウスを設計運用してみた
tatsuya 264
?
PDF
Smart data integration to hybrid data analysis infrastructure
DataWorks Summit
?
PPTX
テ?ータ収集の基本と「闯补辫补苍罢补虫颈」アフ?リにおける実践例
Tetsutaro Watanabe
?
PPT
Vc1 idc管理 ご紹介資料 2011-01-20(kmt)
Manabu_Shimohira
?
PDF
【ウェブ セミナー】AI / アナリティクスを支えるビッグデータ基盤 Azure Data Lake [実践編]
Hideo Takagi
?
DBTS2016 Data as Code - Delphix
Masaya Ishikawa
?
マイニング探検会#10
Yoji Kiyota
?
OCI Data Catalog Overview 2021年5月版
オラクルエンジニア通信
?
0151209 Oracle DDD OracleとHadoop連携の勘所
オラクルエンジニア通信
?
とっておきの方法! Oracle Databaseの自動アップグレードのお勧め手法 省力?最新化 概要編?(Oracle Cloudウェビナーシリーズ: ...
オラクルエンジニア通信
?
Azure Antenna はじめての Azure Data Lake
Hideo Takagi
?
Dat009 クラウドでビック
Tech Summit 2016
?
[db tech showcase Tokyo 2015] B12:カラムストアデータベースの技術と活用法 by 日本電気株式会社 田村稔
Insight Technology, Inc.
?
iOS/Androidにも対応した SQL Anywhere 12の魅力
nisobe58
?
[db tech showcase Tokyo 2017] E23: クラウド異種データベース(AWS)へのデータベース移行時の注意点 ~レプリケーション...
Insight Technology, Inc.
?
Developers.IO 2019 Effective Datalake
Satoru Ishikawa
?
Dat009 クラウドでビック
Tech Summit 2016
?
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
Cloudera Japan
?
[de:code 2019 振り返り Night!] Data Platform
Naoki (Neo) SATO
?
20180216 sapporo techbar_db_migration
Insight Technology, Inc.
?
AWS朝会2022/1 セッション① 数年間、レイクハウスを設計運用してみた
tatsuya 264
?
Smart data integration to hybrid data analysis infrastructure
DataWorks Summit
?
テ?ータ収集の基本と「闯补辫补苍罢补虫颈」アフ?リにおける実践例
Tetsutaro Watanabe
?
Vc1 idc管理 ご紹介資料 2011-01-20(kmt)
Manabu_Shimohira
?
【ウェブ セミナー】AI / アナリティクスを支えるビッグデータ基盤 Azure Data Lake [実践編]
Hideo Takagi
?

GCPUG in Osaka #6 5分でCloud Dataprepを説明する

Editor's Notes

  • #3: この画像は、着作権フリーのサイトからダウンロードしています
  • #4: datalakeをwikiで調べると、このページが出てきます 日本語ページはないみたいですね ここにいる皆さんなら問題ないでしょう
  • #11: 诲补迟补辫谤别辫の绍介
  • #14: 画面1 デフォルト表示 データのバラつきが判る
  • #15: 画面2 赤はmismatch 黒はmissing
  • #16: 画面3 棒グラフを指定すると、該当するデータの色が変わる
  • #17: 画面5 変換処理は好きにできる
  • #18: 画面4 Setをクリックすると提案されている変換処理の実行のプレビューが見れる