2. Summary
? Vertex AI PipelinesでBigQueryのオペレーションが可能に(2022/4 一般提供開始)
? 第4回発表のETLジョブの内容をVertex AI Pipelines で置き換えた
Vertex AI Pipelines の BigQuery および BigQuery ML 演算子に関するお知らせ(2022/4/13)
【第4回】BigQueryを中心にした ML datapipelineの概要
4. Vertex AI Pipelines
? 2021年11月一般提供開始
? TFX, Kubeflow pipelines のPython SDKを利用したパイプライン構築
? フルマネージドサービス
? ML Opsをシンプルに
データ前処理
モデル
トレーニング
モデル評価 モデルデプロイ
データロード
データ抽出
Vertex AI Pipelines
5. BigqueryQueryJobOp BigQuery クエリを送信
BigqueryCreateModelJobOp BigQuery ML モデルを作成
BigqueryEvaluateModelJobOp BigQuery ML モデルを評価
BigqueryPredictModelJobOp 予測を作成
BigqueryExportModelJobOp BigQuery ML モデルを GCS にエクスポート
今回追加されたコンポーネント
● google_cloud_pipeline_components.v1.bigquery module
https://google-cloud-pipeline-components.readthedocs.io/en/google-cloud-pipeline-components-1
.0.0/google_cloud_pipeline_components.v1.html#components
6. 第4回で発表したETLジョブ
GCS -> 前処理 -> BQでML model 作成?評価?予測
すべての工程がワークフローで自動化可能に
【第4回】BigQueryを中心とした ML datapipelineの概要
/ssusere6d3be/bigquery-ml-datapipeline#
7. Vertex AI Pipelineを用いた方法
Cloud
Storage
BigQuery
Store a training data
(titanic data)
Create dataset and
tables using
BigqueryQueryJobOp
Data?ow
Preprocess the data and
load to BigQuery using
DataflowPythonJobOp
BigQuery
Train a classi?er with BQML
using
BigqueryCreateModelJobOp
BigQuery BigQuery
Predict data using
BigqueryPredictModelJobOp
Evaluate the model with
BigqueryEvaluateModelJobOp
Vertex AI Pipelines
1. GCSに保存されている
Titanicデータを検知する(Cloud function)
2. BigqueryQueryJobOp を使ってBiqQuery でデータセットとテーブルを作成する
3. Data?ow を使って前処理を実施し、
BigQuery にロードする
4. ロジスティック回帰モデルをトレーニングする
5. モデルを評価する
6. テストデータにモデルを適用して、予測を作成する