狠狠撸
Submit Search
re:invent 2018 analytics関連アッフ?テ?ート
?
1 like
?
6,278 views
S
Satoru Ishikawa
Follow
新サービス AWS Lake Formation アップデート Amazon Redshift アップデート AWS Glue
Read less
Read more
1 of 29
Download now
Download to read offline
More Related Content
re:invent 2018 analytics関連アッフ?テ?ート
1.
re:Invent 2018 Analytics関連アップデート! Sapporo.aws 2018年12月6日 クラスメソッド株式会社
石川覚
2.
自己紹介 2 ビックデータ関連のコンサルティング、チューニ ング、開発支援を中心に活動。 その他、ハンズオンセミナー講師やAWSのホワ イトペーパー監修、ブログを執筆。 担当はAWS全般、Redshift、Athena、Glue 石川 覚
(いしかわ さとる) データインテグレーション部
3.
? 新サービス AWS
Lake Formation ? アップデート Amazon Redshift ? アップデート AWS Glue アジェンダ 3
4.
今年から Bigdata を改め、Analytics
に変更
5.
今年から Bigdata を改め、Analytics
に変更 「大量データをいかに取り扱うか」から 「分析データをいかに取り扱うか」にシフト
6.
新サービス AWS Lake
Formation セキュアなデータレイクを簡単に構築して、モニタリングと監査ができる
8.
なぜデータレイクか? 8 データレイクは ? 構造化データと非構造化データを問わない ?
エクサバイト規模にスケール可能 ? 多様な分析ツールと機械学習ツールを提供する ? データの移動がなくてもデータを処理できる ? 低コストのストレージと分析用に設計されてい る ? 様々な分析ワークロードや様々なスケールに対 して、可能な限り低いコストで実行できます。
9.
Amazon Lake Formation
の登場 9 従来、データレイク環境を構築するには ? ストレージのセットアップや移動?配置 ? クレンジングや準備したデータをデータカタログに登録 ? 更にセキュリティやコンプライアンスを設定 ? 利用者にデータを使えるようにする ? ETC... データのクレンジングや準備は作業全体の80%を占め、データレイクの構築 は数カ月を要していました。 そこで、数日でセキュアなデータレイクを構築できるサービス AWS Lake Formation が登場しました。
10.
AWS Lake Formation
利用の流れ 10
11.
AWS Lake Formation
利用の流れ 11 ? データの格納場所の指定 ? 適用するデータアクセス定義 ? セキュリティポリシー定義
12.
AWS Lake Formation
利用の流れ 12 ? クロール ? ETL&準備 ? データカタログ登録 ? セキュリティ設定 ? アクセス制御
13.
AWS Lake Formation
利用の流れ 13 ? Athena、Redshift、 EMRからクエリを実行 ? ユーザーの権限に基づ くデータアクセス
14.
Deep Dive -
認証?認可のデータフロー 14 1. ユーザーがクエリを実行する 2. リクエストをLake Formationに送信 3. 一時クレデンシャルが返る 4. 一時クレデンシャルでデータカタログやS3にアクセスする 5. データカタログからメタ情報、S3からデータオブジェクトを取得
15.
AWS Lake Formationを使うには
15 料金 ? 追加料金はいただきません。Lake Formation配下で利用しているサー ビスの利用費のみです。 現在は限定プレビュー ? 利用したい方は以下のリンクから申請してください。 ? https://pages.awscloud.com/lake-formation-preview.html
16.
Amazon Redshift クラウドDWH Redshift
の新机能と今后のリリース
17.
Amazon Redshift は
re:Invent2017から… 17
18.
Amazon Redshift はこの6ヶ月間で…
18 この6ヶ月間で3倍以上 速くなりました!
20.
Concurrency Scaling (Preview)
20 ユーザーアクティビティのバ ーストにも対応 ? オンデマンドで自動的に 多くのクラスタを作成し ます ? 何千もの同時クエリでも 一貫して高速なパフォー マンス ? 事前のクラスタは必要あ りません ? 予期しない需要変動に対 応します
21.
Concurrency Scaling (Preview)
21 Concurrency Scaling によるス ループットの向上 ? 並行処理のスケーリングは、 Redshiftの顧客の97%以上が 自由です ? メインクラスタが使用されて いる24時間ごとに、同時実行 スケーリングのために1時間 のクレジットが発生します
22.
Intelligent maintenance 22 ?
ANALYZEがバックグラ ウンドで自動実行 ? VACUUM DELETEがバ ックグラウンドで自動 実行 ? WLMの自動設定
23.
Amazon Redshift Spectrum
のアップデート 23 ? UNLOADコマンドでカラムナファイルフォーマット Parquet による ファイル出力がサポートされます ? Spectrum Request Accelerator (これ以上の情報がありません)
24.
Amazon Redshift の新機能一覧
24
25.
AWS Glue フルマネージドETLサービスの今後のリリース
26.
新しいジョブタイプ Python Shell
のサポート 26 小中規模のタスク向けETL実行環境 ? SQLによるETL処理 ? S3や3nd パーティサービスとの連携 ? MLサービスからPython Shellの起動
27.
Python Shell のスペック
27 Python 2.7 環境で boto3, awscli, numpy, scipy, pandas, scikit-learn, PyGreSQL, ...が利用できます 初期状態 ? 20秒未満で起動 ? VPCサポート ? ランタイム制限なし サイズ ? サイズ:1 DPU(16GBを含む) ? 1 / 16DPU(1GBを含む) 価格 ? DPU-hourあたり0.44ドル、最低1分間、1秒あたりの請求
28.
最後に 28 Analyticsにおける re:Invent2018
の大きな変化 ? Bigdataカテゴリ から Analyticsカテゴリ へ ? DWH/Redshift から Datalake へ ? Central Storage / Hub Storage としてのS3 ? S3, Kinesis > Glue > Athena, Redshift, QuickSight, SageMaker ? データレイクサービス Lake Formation の登場 ? Amazon Redshift の著しい進化?深化
29.
ご清聴ありがとうございました
Download