狠狠撸

狠狠撸Share a Scribd company logo
re:Invent 2018 Analytics関連アップデート!
Sapporo.aws
2018年12月6日
クラスメソッド株式会社 石川覚
自己紹介 2
ビックデータ関連のコンサルティング、チューニ
ング、開発支援を中心に活動。
その他、ハンズオンセミナー講師やAWSのホワ
イトペーパー監修、ブログを執筆。
担当はAWS全般、Redshift、Athena、Glue
石川 覚 (いしかわ さとる)
データインテグレーション部
? 新サービス AWS Lake Formation
? アップデート Amazon Redshift
? アップデート AWS Glue
アジェンダ 3
今年から Bigdata を改め、Analytics に変更
今年から Bigdata を改め、Analytics に変更
「大量データをいかに取り扱うか」から
「分析データをいかに取り扱うか」にシフト
新サービス AWS Lake Formation
セキュアなデータレイクを簡単に構築して、モニタリングと監査ができる
re:invent 2018 analytics関連アッフ?テ?ート
なぜデータレイクか? 8
データレイクは
? 構造化データと非構造化データを問わない
? エクサバイト規模にスケール可能
? 多様な分析ツールと機械学習ツールを提供する
? データの移動がなくてもデータを処理できる
? 低コストのストレージと分析用に設計されてい
る
? 様々な分析ワークロードや様々なスケールに対
して、可能な限り低いコストで実行できます。
Amazon Lake Formation の登場 9
従来、データレイク環境を構築するには
? ストレージのセットアップや移動?配置
? クレンジングや準備したデータをデータカタログに登録
? 更にセキュリティやコンプライアンスを設定
? 利用者にデータを使えるようにする
? ETC...
データのクレンジングや準備は作業全体の80%を占め、データレイクの構築
は数カ月を要していました。
そこで、数日でセキュアなデータレイクを構築できるサービス
AWS Lake Formation が登場しました。
AWS Lake Formation 利用の流れ 10
AWS Lake Formation 利用の流れ 11
? データの格納場所の指定
? 適用するデータアクセス定義
? セキュリティポリシー定義
AWS Lake Formation 利用の流れ 12
? クロール
? ETL&準備
? データカタログ登録
? セキュリティ設定
? アクセス制御
AWS Lake Formation 利用の流れ 13
? Athena、Redshift、
EMRからクエリを実行
? ユーザーの権限に基づ
くデータアクセス
Deep Dive - 認証?認可のデータフロー 14
1. ユーザーがクエリを実行する
2. リクエストをLake Formationに送信
3. 一時クレデンシャルが返る
4. 一時クレデンシャルでデータカタログやS3にアクセスする
5. データカタログからメタ情報、S3からデータオブジェクトを取得
AWS Lake Formationを使うには 15
料金
? 追加料金はいただきません。Lake Formation配下で利用しているサー
ビスの利用費のみです。
現在は限定プレビュー
? 利用したい方は以下のリンクから申請してください。
? https://pages.awscloud.com/lake-formation-preview.html
Amazon Redshift
クラウドDWH Redshift の新机能と今后のリリース
Amazon Redshift は re:Invent2017から… 17
Amazon Redshift はこの6ヶ月間で… 18
この6ヶ月間で3倍以上
速くなりました!
re:invent 2018 analytics関連アッフ?テ?ート
Concurrency Scaling (Preview) 20
ユーザーアクティビティのバ
ーストにも対応
? オンデマンドで自動的に
多くのクラスタを作成し
ます
? 何千もの同時クエリでも
一貫して高速なパフォー
マンス
? 事前のクラスタは必要あ
りません
? 予期しない需要変動に対
応します
Concurrency Scaling (Preview) 21
Concurrency Scaling によるス
ループットの向上
? 並行処理のスケーリングは、
Redshiftの顧客の97%以上が
自由です
? メインクラスタが使用されて
いる24時間ごとに、同時実行
スケーリングのために1時間
のクレジットが発生します
Intelligent maintenance 22
? ANALYZEがバックグラ
ウンドで自動実行
? VACUUM DELETEがバ
ックグラウンドで自動
実行
? WLMの自動設定
Amazon Redshift Spectrum のアップデート 23
? UNLOADコマンドでカラムナファイルフォーマット Parquet による
ファイル出力がサポートされます
? Spectrum Request Accelerator (これ以上の情報がありません)
Amazon Redshift の新機能一覧 24
AWS Glue
フルマネージドETLサービスの今後のリリース
新しいジョブタイプ Python Shell のサポート 26
小中規模のタスク向けETL実行環境
? SQLによるETL処理
? S3や3nd パーティサービスとの連携
? MLサービスからPython Shellの起動
Python Shell のスペック 27
Python 2.7 環境で boto3, awscli, numpy, scipy, pandas,
scikit-learn, PyGreSQL, ...が利用できます
初期状態
? 20秒未満で起動
? VPCサポート
? ランタイム制限なし
サイズ
? サイズ:1 DPU(16GBを含む)
? 1 / 16DPU(1GBを含む)
価格
? DPU-hourあたり0.44ドル、最低1分間、1秒あたりの請求
最後に 28
Analyticsにおける re:Invent2018 の大きな変化
? Bigdataカテゴリ から Analyticsカテゴリ へ
? DWH/Redshift から Datalake へ
? Central Storage / Hub Storage としてのS3
? S3, Kinesis > Glue > Athena, Redshift, QuickSight, SageMaker
? データレイクサービス Lake Formation の登場
? Amazon Redshift の著しい進化?深化
ご清聴ありがとうございました

More Related Content

re:invent 2018 analytics関連アッフ?テ?ート