狠狠撸

狠狠撸Share a Scribd company logo
Vertex AI Pipelinesで
BigQuery MLのワークフローを管理
2022/05/28 機械学習の社会実装勉強会第11回
岩澤 幸太朗
Summary
? Vertex AI PipelinesでBigQueryのオペレーションが可能に(2022/4 一般提供開始)
? 第4回発表のETLジョブの内容をVertex AI Pipelines で置き換えた
Vertex AI Pipelines の BigQuery および BigQuery ML 演算子に関するお知らせ(2022/4/13)
【第4回】BigQueryを中心にした ML datapipelineの概要
今回の話の対象
https://cloud.google.com/vertex-ai?hl=ja#section-7
MLOps with Vertex AI
? Vertex AI
○ 機械学習ワークフローの統合環境
○ AutoML含む各種MLツールへのアクセス
? Vertex AI Pipelines
○ Vertex AI 上で機械学習パイプラインを構
築するサービス
Vertex AI Pipelines
? 2021年11月一般提供開始
? TFX, Kubeflow pipelines のPython SDKを利用したパイプライン構築
? フルマネージドサービス
? ML Opsをシンプルに
データ前処理
モデル
トレーニング
モデル評価 モデルデプロイ
データロード
データ抽出
Vertex AI Pipelines
BigqueryQueryJobOp BigQuery クエリを送信
BigqueryCreateModelJobOp BigQuery ML モデルを作成
BigqueryEvaluateModelJobOp BigQuery ML モデルを評価
BigqueryPredictModelJobOp 予測を作成
BigqueryExportModelJobOp BigQuery ML モデルを GCS にエクスポート
今回追加されたコンポーネント
● google_cloud_pipeline_components.v1.bigquery module
https://google-cloud-pipeline-components.readthedocs.io/en/google-cloud-pipeline-components-1
.0.0/google_cloud_pipeline_components.v1.html#components
第4回で発表したETLジョブ
GCS -> 前処理 -> BQでML model 作成?評価?予測
すべての工程がワークフローで自動化可能に
【第4回】BigQueryを中心とした ML datapipelineの概要
/ssusere6d3be/bigquery-ml-datapipeline#
Vertex AI Pipelineを用いた方法
Cloud
Storage
BigQuery
Store a training data
(titanic data)
Create dataset and
tables using
BigqueryQueryJobOp
Data?ow
Preprocess the data and
load to BigQuery using
DataflowPythonJobOp
BigQuery
Train a classi?er with BQML
using
BigqueryCreateModelJobOp
BigQuery BigQuery
Predict data using
BigqueryPredictModelJobOp
Evaluate the model with
BigqueryEvaluateModelJobOp
Vertex AI Pipelines
1. GCSに保存されている
Titanicデータを検知する(Cloud function)
2. BigqueryQueryJobOp を使ってBiqQuery でデータセットとテーブルを作成する
3. Data?ow を使って前処理を実施し、
BigQuery にロードする
4. ロジスティック回帰モデルをトレーニングする
5. モデルを評価する
6. テストデータにモデルを適用して、予測を作成する
Demo
? Vertex AI pipelines の実行
○ GCS からファイル取得
○ BigQuery へロード
○ モデル学習?評価?予測
使用したNotebook:
https://github.com/kootr/ml-study-session/tree/main/20220528_vertex_ai_pipelines
まとめ
? Vertex AI におけるMLOpsの核となる機能
? Kubeflow pipelinesに慣れていれば簡単に導入
- Vertex AI Pipelines の BigQuery および BigQuery ML 演算子に関するお知らせ (2022/4/13)
- Ask the Expert ’21 ?機械学習? Google Cloud
- Cloud DataflowでGCS→BQのパイプラインをPythonで試してみる
- Vertex Pipelinesによる機械学習パイプラインの実行  
参考

More Related Content

Vertex AI Pipelinesで BigQuery MLのワークフローを管理

  • 1. Vertex AI Pipelinesで BigQuery MLのワークフローを管理 2022/05/28 機械学習の社会実装勉強会第11回 岩澤 幸太朗
  • 2. Summary ? Vertex AI PipelinesでBigQueryのオペレーションが可能に(2022/4 一般提供開始) ? 第4回発表のETLジョブの内容をVertex AI Pipelines で置き換えた Vertex AI Pipelines の BigQuery および BigQuery ML 演算子に関するお知らせ(2022/4/13) 【第4回】BigQueryを中心にした ML datapipelineの概要
  • 3. 今回の話の対象 https://cloud.google.com/vertex-ai?hl=ja#section-7 MLOps with Vertex AI ? Vertex AI ○ 機械学習ワークフローの統合環境 ○ AutoML含む各種MLツールへのアクセス ? Vertex AI Pipelines ○ Vertex AI 上で機械学習パイプラインを構 築するサービス
  • 4. Vertex AI Pipelines ? 2021年11月一般提供開始 ? TFX, Kubeflow pipelines のPython SDKを利用したパイプライン構築 ? フルマネージドサービス ? ML Opsをシンプルに データ前処理 モデル トレーニング モデル評価 モデルデプロイ データロード データ抽出 Vertex AI Pipelines
  • 5. BigqueryQueryJobOp BigQuery クエリを送信 BigqueryCreateModelJobOp BigQuery ML モデルを作成 BigqueryEvaluateModelJobOp BigQuery ML モデルを評価 BigqueryPredictModelJobOp 予測を作成 BigqueryExportModelJobOp BigQuery ML モデルを GCS にエクスポート 今回追加されたコンポーネント ● google_cloud_pipeline_components.v1.bigquery module https://google-cloud-pipeline-components.readthedocs.io/en/google-cloud-pipeline-components-1 .0.0/google_cloud_pipeline_components.v1.html#components
  • 6. 第4回で発表したETLジョブ GCS -> 前処理 -> BQでML model 作成?評価?予測 すべての工程がワークフローで自動化可能に 【第4回】BigQueryを中心とした ML datapipelineの概要 /ssusere6d3be/bigquery-ml-datapipeline#
  • 7. Vertex AI Pipelineを用いた方法 Cloud Storage BigQuery Store a training data (titanic data) Create dataset and tables using BigqueryQueryJobOp Data?ow Preprocess the data and load to BigQuery using DataflowPythonJobOp BigQuery Train a classi?er with BQML using BigqueryCreateModelJobOp BigQuery BigQuery Predict data using BigqueryPredictModelJobOp Evaluate the model with BigqueryEvaluateModelJobOp Vertex AI Pipelines 1. GCSに保存されている Titanicデータを検知する(Cloud function) 2. BigqueryQueryJobOp を使ってBiqQuery でデータセットとテーブルを作成する 3. Data?ow を使って前処理を実施し、 BigQuery にロードする 4. ロジスティック回帰モデルをトレーニングする 5. モデルを評価する 6. テストデータにモデルを適用して、予測を作成する
  • 8. Demo ? Vertex AI pipelines の実行 ○ GCS からファイル取得 ○ BigQuery へロード ○ モデル学習?評価?予測 使用したNotebook: https://github.com/kootr/ml-study-session/tree/main/20220528_vertex_ai_pipelines
  • 9. まとめ ? Vertex AI におけるMLOpsの核となる機能 ? Kubeflow pipelinesに慣れていれば簡単に導入
  • 10. - Vertex AI Pipelines の BigQuery および BigQuery ML 演算子に関するお知らせ (2022/4/13) - Ask the Expert ’21 ?機械学習? Google Cloud - Cloud DataflowでGCS→BQのパイプラインをPythonで試してみる - Vertex Pipelinesによる機械学習パイプラインの実行   参考