狠狠撸

Databricksを初めて
使う人に向けて

2
Databricksを始めるとき、こんな疑問を抱くことがないでしょうか？
クラスター構成の最適解が
わからない。分散処理に使用するワーカー
数ってどのくらいが妥当？
Databricks SQLとSpark SQL
はどう使い分ける？

3
そもそも
「Databricks」っ
て何？

4
そもそも「Databricks」って何？
端的に言うと、
「データ分析に必要な機能をオールインワンパッケージで提供している分析プラットフォーム」
です。
データ取込 ETL 分析可视化

5
そもそも「Databricks」って何？
Databricksを実行する際に要となるのが「クラスター」です。
Spark programming, Spark Batchジョブを実行する計算のリソースと設定をセットにしたものです。
Driver
Worker Worker Worker Worker
Executor Executor Executor Executor
Cor
e
Cor
e
Cor
e
Cor
e
Cor
e
Cor
e
Cor
e
Cor
e
Task Task Task Task Task

6
クラスター構成の
ベストプラクティス

7
クラスター構成のベストプラクティス
? 構成を決定する際に考慮する点
? ユーザーの種類
? ワークロードの種類
? Service Level Agreement(SLA)の程度
? 予算の制約
クラスターの構成は、コストとパフォーマンスのバランスを考慮して行います。
コスト：
? クラスターによって消費されるDatabricksユニット
? クラスターの実行に必要な基本リソース
?二次的なコストがはっきりせず、考慮に入れにくいケースもあります。

8
クラスター構成のベストプラクティス
? クラスターのサイズ設定
クラスターのサイズを設定する際に考慮すべきポイント
? ワークロードで消費されるデータ量
? コンピューティングの複雑さ
? データの読み取り元
? 外部ストレージでのデータのパーティションの方法
? どの程度の並列処理が必要であるか

10
クラスターの構成
? クラスターを新規作成する際には、以下の項目を選択する
? クラスターポリシー
? マルチノード/シングルノード
? アクセスモード
? Runtimeバージョン
? クラスターノードの型

11
? クラスターポリシー
規則に基づいてユーザー?グループの
クラスター作成のアクセス許可を制御する。
? マルチノード / シングルノード
複数のワーカーで分散処理をさせるか単一ワー
カーで集中処理させるかを定義する。

12
? アクセスモード
Unity Catalogで保護されたデータへのアクセス方法を
設定する。
? Runtimeバージョン
クラスターで実行されるコアコンポーネントのセット。
すべてのバージョンにApache Sparkが含まれている。

13
? クラスターノードの型
ドライバーノード?ワーカーノードに対して
別々のクラウドプロバイダーインスタンスの
種類を選択することができる。
マルチノードを選択している場合、ワーカー
数は固定数での指定や、自動スケーリングが
可能。

14
【補足】ワーカー数の設定

15
ワーカー数の設定
? 多くすればいいとは限らない
以下の設定をしているクラスターは同じコンピューティングとメモリを持つ
ことになる。
? 2つのワーカー(16コアと112GBのRAM)
? 8つのワーカー(4コアと28GBのRAM)
ワーカーの数とワーカーインスタンスタイプのサイズとの間でバランスを考慮
する必要がある。

16
クラスター構成
の考慮ポイント

17
クラスター構成の考慮ポイント
? 最適なクラスター構成を目指すうえで考慮すべきこと
? 反復パフォーマンステストによるクラスターサイズの最適化
? シャッフルの調整
? データのパーティション分割

18
? パフォーマンステストを反復することで最適サイズのクラスターを
構成する
1. 中規模(2～8ノード)のクラスターで開発を行う。
2. 機能要件を満たしたら、CPU、メモリ、およびI/Oを集計レベルで測定し、
より大きなデータに対してテストを行う。
3. クラスターを最適化して、手順2で見つかったボトルネックを取り除く
?ボトルネックが解決されるまで手順2と3を繰り返す。

19
? パフォーマンスを最適化するにはシャッフルの調整が必要
データ量が大きいクエリを実行する際に、シャッフルがクエリ性能に影
響を及ぼす。
?適切なパーティション数の設定が重要になってくる。

20
クラスター構成まとめ
? データのパーティションによる影響を考慮する
適切なパーティションを設定することでスケーラビリティの向上や競合の
低減、パフォーマンスの最適化へとつながる。
? 均等にデータが分散されるようなパーティションを設定する
? パーティションあたり数十GB
? データセットが小さい場合は不必要にパーティション分割しない
? 過剰なパーティション分割を行わない

22
そもそもDatabricks SQL とは
? Databricks Lakehouse Platformにビルトインされている
エンタープライズデータウェアハウス
Lakehouseに直接クエリを実行できる。

23
そもそもDatabricks SQL とは
Databricks SQLではダッシュボードの作成も可能であるため、
SQLクエリやBIツールをメインで使用するデータアナリストなどにとって
直感的に分析を行う環境として用いられる。
ダッシュボードの例

24
Databricks SQL と Spark SQLの使い分け
下図のように、データアナリスト?データサイエンティストなどの役割に応じて
Databricks SQLとSpark SQLを使い分けることにより、データインフラストラク
チャの簡素化、データソースの信頼性を確保することができる。

26
まとめ
Databricksを構築する際に悩ましい部分をピックアップしてベストプラクティス
を紹介しました。
「これだ！」という方式はなく、試行錯誤して最適解を見つけていく必要がある
ということをイメージしてもらえたかと思います。
試行錯誤する幅が広く、慣れないと敬遠してしまいそうになるかもしれませんが、
それは「自由度の高さ」というDatabricksの強みでもあります。

27
参考リンク集
【クラスター構成のベストプラクティス】
https://learn.microsoft.com/ja-jp/azure/databricks/clusters/cluster-config-best-practices
【クラスターポリシー】
https://learn.microsoft.com/ja-jp/azure/databricks/administration-guide/clusters/policies
【アクセスモードとは】
https://learn.microsoft.com/ja-jp/azure/databricks/clusters/cluster-ui-preview#--what-is-cluster-access-mode
【クラスターノードの型】
https://learn.microsoft.com/ja-jp/azure/databricks/clusters/create-cluster#--cluster-node-type
【Runtimeバージョン】
https://learn.microsoft.com/ja-jp/azure/databricks/runtime/?source=recommendations
【クラスターの最適化】
AzureDatabricksBestPractices/toc.md at master · Azure/AzureDatabricksBestPractices · GitHub
【Databricks SQLとは】
Databricks SQLとは何か？ - Qiita
SQL開発者向けDatabricksのご紹介 - Qiita

狠狠撸

顿补迟补产谤颈肠办蝉を初めて使う人に向けて.辫辫迟虫

Recommended

More Related Content

What's hot (20)

Similar to 顿补迟补产谤颈肠办蝉を初めて使う人に向けて.辫辫迟虫 (20)

顿补迟补产谤颈肠办蝉を初めて使う人に向けて.辫辫迟虫

Editor's Notes