狠狠撸

狠狠撸Share a Scribd company logo
re:Invent2019 Analytics Updates
? Amazon Redshiftの再設計 RA3×AQUA ?
データアナリティクス事業本部
?川 覚
?名
- ?川 覚 (いしかわ さとる)
所属
- データアナリティクス事業本部 (DA事業本部)
- インテグレーション部 (インテグ部) 開発チーム
- 札幌オフィス勤務
略歴
- メーカー系SIer、ITベンチャー企業、現在に?る
担当業務
- データ分析基盤のコンサルティング、設計、開発
好きなAWSサービス
- AWSサポート、Redshift、Athena、Glue、LakeFormation
2??紹介
3アジェンダ
? 今年の谤别:滨苍惫别苍迟2019
? Analytic Updates - Amazon Athena
? Analytic Updates - Amazon Redshift
? Amazon Redshift の再設計 - RA3 × AQUA
? re:Invent2019の振り返り
今年の谤别:滨苍惫别苍迟2019
5原点回帰
新サービスの発表の場、、、というより
AWSのイノベーションの歴史と振り返りの場
? その結果、従来だったらキーノートで発表されるようなサー
ビス、新機能が事前に発表される
? いわゆる「予選落ちサービス」が続出
? Amazon Athenaの関してはほとんど「予選落ちサービス」
? Analytic 関連で?きなアップデート
? Amazon Athena
? Amazon Redshift
Analytics Updates - Amazon Athena
7Federated Query (Preview)
構造化、?構造化のオブジェクトもしくはデータに対して、
オンプレミス、クラウドデータソース問わずクエリを実?
? Federated Queryの構造
? Athenaからリクエストは、データソースケースコネクタベース
のAWSLambdaからフェデレーテッドデータソースにアクセス
8Machine Leaning / SageMaker 連携機能(Preview)
SQLを使える?は、MLやPythonやJavaを使える?より、
SQLクエリで推論できることは利点である
? SageMaker でMLモデルをデプロイする
? 前処理、後処理のためのUDFを書く
? 組織の誰もが任意のデータソースからデータの推論を実?で
きる
9その他のアップデート
? ユーザー定義関数(UDFs)(Preview)
? AWS LambdaによるUDF
? - ネットワーク呼び出しをサポートする
? - SELECTやFILTERでUDFを実?する
? Hive メタストアのサポート(Preview)
? Glueカタログではなく、カスタムメタストアをAthenaで使える
? Hiveメタストア提供のリファレンス実装
? Hiveメタストア、Glueカタログ、他のフェデレーテッドデータ
ソースによってデータをスキャンしてクエリを実?する
Analytics Updates - Amazon Redshift
18ヶ?间で200以上の新机能を提供
12Federated Query(Preview)
? スキーマ毎に外部スキーマとして設定
? Redshiftから直接PostgreSQLのテーブルに
接続してETL/ELTを処理するクエリを実?
? Redshiftは、?度な最適化機能を活?して、
計算の多くをPostgreSQLに直接プッシュダ
ウンして垂直分散し、ネットワーク上を移動
するデータ量を最?限に抑える
RDSとAurora PostgreSQLのテーブルに
Redshiftから直接アクセスできる
13Data Lake Export
? カラムナフォーマットParquetは データを列単位で保存するため、
?規模なデータを処理する際に、 計算に必要なカラムだけ取り出し
て処理をしたり、効率的に圧縮できる
? Redshift-データレイク間のデータの共有?連携が容易になる
Redshiftのテーブルデータをカラムナファイルフォーマット
Parquet形式でエクスポートする機能
14Materialized View(Preview)
事前に計算されたクエリの結果を保存し、それらを効率的に
維持することで、予測可能で繰り返し起きる分析ワークロー
ドのクエリパフォーマンスを?幅に?速化する
? データの更新
? 更新したいタイミングで REFRESH
MATERIALIZED VIEW コマンドを実?する
? 増分リフレッシュ試み、インクリメンタルに更新
できない場合はフルリフレッシュよって更新する
15Auto Vacuum & Auto Sort
機械学習を使?してクエリのパターンを
分析した結果に基づき、Vacuum Sort を?動実?する機能
? Vacuumは、概ねAuto Vacuum Sort /
Deleteに任せて良い
? 未ソートリージョンでもデータブロック
がソート済みの場合はソートが不要
? 現在は、Vaccum、Analyze、WLM、分
散キーやソートキーの選定も?動化
Amazon Redshift の再設計 - RA3 × AQUA
re:Growth2019 Analytics Updates
18RA3: 第3世代 Amazon Redshift コンピュートノード
? インフラとストレージ管理の刷新
? Nitroシステムと広帯域ネットワー
クを採?
? S3とノード内のストレージ
(NVMe-SSD)の階層ストレージ
? 通常とピーク時に必要とされるス
ケールするデータウェアハウス
? ストレージとコンピューティングの
課?の分離
? ?動化、ワークフローの変更不要、
ストレージの管理も不要
19RA3: 低価格で?パフォーマンス
? RA3.16xlarge ノード
? ds2.8xlargeと?較して、2倍のパ
フォーマンス、2倍のストレージ、
利?費は同じ
? 他社のクラウドデータウェアハウ
スに?べて、価格性能?が3倍
? 1ノードあたり、64TBのデータを
管理できる
? クラスタは2ノード以上
20RA3: 移?プランの例
? DS2からの移?、同じコスト、より良いパフォーマンス
? 同価格、ds2.8xlarge(14ノード)からra3.16xl(7ノード)の
場合、クエリは2.1倍?速
? DS2からの移?、同じコスト、ETL?途のワークロード
? 同価格、ds2.8xlarge(16ノード)からra3.16xl(8ノード)の
場合、ETLワークロードは1.3倍?速
? DC2からの移?、同じコスト、最も良いパフォーマンス
? 同価格、ds2.8xlarge(15ノード)からra3.16xl(5ノード)の
場合、クエリは1.25倍?速
21RA3: 移??法
? スナップショットによる移?
? 数分で新しいRA3クラスタを作る
? 新しいRA3クラスタの検証後、古いクラスタの削除
? 新しいRA3クラスタの名前を変更する
? Elastic Resizeの柔軟性は減ります
? Classic Resizeによる移?
? Classic Resizeは古いクラスタから新しいクラスタのデータをコ
ピーして、完了時にクラスタの名前を変更する(Classic Resize
は、リストアより時間を要する)
? Elastic Resizeの完全な柔軟性は保持する
22RA3:ノードの?較
? ノードタイプ
※ RA3の4xlargeは coming soon?
re:Growth2019 Analytics Updates
24AQUA: Advanced Query Accelerator
? 新しく分散型でハードウェアアクセ
ラレートされた処理レイヤ
? 追加費?無し
? コードの変更は不要
Redshiftが他のクラウドデータウェアハウスよりも
最?10倍?速で実?できるようにする、
新しい分散型ハードウェアアクセラレーションキャッシュ
25AQUA: アーキテクチャ
? 圧縮と暗号化をNitroアクセラ
レータで処理する
? 主要な分析オペレーション?途
のカスタムプロセッサ
? スキャン(フィルタ)
? 集計
? ハッシング
? ノード内コンパイラはハード
ウェアアクセラレタやCPUに
よって操作を代?します
26AQUA: アーキテクチャ
? 仕組は複数ノードで?量のデータ
を並?して処理
? データ量の増加に合わせて?動的
にスケールアウト
? S3上の?量のキャッシュアーキ
テクチャを設けてこの構成を実現
27AQUA: プッシュダウン及びスケールアウト処理レイヤ
? AQUAノードにプッシュダウン
操作をすることによって、ネッ
トワーク上のデータ移動を最?
限に抑える
? AQUAを通してスキャンと集計
操作をスケールアウトする
28RA3とAQUAの利?
第3世代コンピュートノード「RA3」はすでにGAです?
「AQUA」はRA3との組み合わせでプレビュー可能です?
(AQUAは、プライベートプレビューの申請が必要)
Analytics Updatesの振り返り
30Analytics Updatesの振り返り
? Amazon Athena
? Federated QueryやML連携など素晴らしい機能がリリース
? Amazon Redsift
? 第3世代ノードタイプ「RA3」のリリース
? AQUAのプライベートプレビュー開始
? AQUAは、第3世代ノードタイプ「RA3」のみ対応
? その他
? AWS GlueやLake Formationは今後に期待
31

More Related Content

re:Growth2019 Analytics Updates