デベロッパー

BQML 用の新しいパイプライン演算子を 20 個以上リリース

2022年7月29日

https://storage.googleapis.com/gweb-cloudblog-publish/images/AIML_VbefCPO.max-2600x2600.jpg

Google Cloud Japan Team

※この投稿は米国時間 2022 年 7 月 23 日に、Google Cloud blog に投稿されたものの抄訳です。

本日、Google は、Vertex AI Pipeline 用の BigQuery ジョブと BigQuery ML（BQML）ジョブを Vertex AI Pipeline で容易に運用化する、Vertex AI Pipeline 用の 20 個以上の新しい BigQuery 演算子と BQML 演算子をリリースしました。今年初めには、最初の 5 つの BigQuery パイプラインコンポーネントと BQML パイプラインコンポーネントをリリースしました。これら Google が提供する 21 個の新しい Google Cloud 対応コンポーネントは、データサイエンティスト、データエンジニアなどのユーザーが予測、Explainable AI、MLOps など Google Cloud の BQML 機能をすべて活用できるよう支援します。

BQML と Vertex AI のシームレスなインテグレーションにより、BQML モデルのトレーニングからサービス提供までのモデルライフサイクル全体の自動化およびモニタリングが行いやすくなります。開発者、特に ML エンジニアは、BQML ワークフローを ML パイプラインに組み込むために特別なコードを書く必要がなくなります。これらの新しい BQML コンポーネントをパイプラインにネイティブに組み込むだけで、エンドツーエンドの ML ライフサイクルパイプラインを容易かつ迅速にデプロイできるようになりました。

さらに、これらのコンポーネントを Vertex AI Pipelines の一部として使用することで、データとモデルを管理できるようになります。パイプラインが実行されるたびに、自動的に生成されるアーティファクトを Vertex AI Pipelines が追跡、管理します。

BigQuery では、以下のコンポーネントが利用可能になりました。

BigQuery
カテゴリ	コンポーネント	説明
クエリ	BigqueryQueryJobOp	任意の BQ クエリを送信し、一時テーブルまたは永続テーブルに書き込めます。BigQuery のクエリジョブを起動し、終了を待ちます。

BigQuery ML（BQML）では、以下のコンポーネントが利用可能になりました。

BigQuery ML
カテゴリ	コンポーネント	説明
コア	BigqueryCreateModelJobOp	DDL ステートメントを送信して BigQuery ML モデルを作成できます。
	BigqueryEvaluateModelJobOp	BigQuery ML モデルを評価できます。
	BigqueryPredictModelJobOp	BigQuery ML モデルを使用して予測を作成できます。
	BigqueryExportModelJobOp	BigQuery ML モデルを Google Cloud Storage バケットにエクスポートできます。
新しいコンポーネント
予測	BigqueryForecastModelJobOp	BigQuery の ML.FORECAST ジョブを起動し、ARIMA_PLUS モデルまたは ARIMA モデルを予測できます。
	BigqueryExplainForecastModelJobOp	BigQuery の ML.EXPLAIN_FORECAST ジョブを起動し、ARIMA_PLUS モデルまたは ARIMA モデルを予測できます。
	BigqueryMLArimaEvaluateJobOp	BigQuery の ML.ARIMA_EVALUATE ジョブを起動し、終了を待ちます。
異常検出	BigqueryDetectAnomaliesModelJobOp	BigQuery の異常モデル検出ジョブを起動し、終了を待ちます。
モデルの評価	BigqueryMLConfusionMatrixJobOp	BigQuery の混同行列ジョブを起動し、終了を待ちます。
	BigqueryMLCentroidsJobOp	BigQuery の ML.CENTROIDS ジョブを起動し、終了を待ちます。
	BigqueryMLTrainingInfoJobOp	BigQuery の ML トレーニング情報取得ジョブを起動し、終了を待ちます。
	BigqueryMLTrialInfoJobOp	BigQuery の ML 試行情報ジョブを起動し、終了を待ちます。
	BigqueryMLRocCurveJobOp	BigQuery の ROC 曲線ジョブを起動し、終了を待ちます。
Explainable AI	BigqueryMLGlobalExplainJobOp	BigQuery のグローバル説明取得ジョブを起動し、終了を待ちます。
	BigqueryMLFeatureInfoJobOp	BigQuery の機能情報ジョブを起動し、終了を待ちます。
	BigqueryMLFeatureImportanceJobOp	BigQuery の機能重要性取得ジョブを起動し、終了を待ちます。
モデルの重み付け	BigqueryMLWeightsJobOp	BigQuery の ML 重みづけジョブを起動し、終了を待ちます。
	BigqueryMLAdvancedWeightsJobOp	BigQuery の ML 詳細重みづけジョブを起動し、終了を待ちます。
	BigqueryMLPrincipalComponentsJobOp	BigQuery の ML.PRINCIPAL_COMPONENTS ジョブを起動し、終了を待ちます。
	BigqueryMLPrincipalComponentInfoJobOp	BigQuery の ML.principal_component_info ジョブを起動し、終了を待ちます。
	BigqueryMLArimaCoefficientsJobOp	BigQuery の ML.ARIMA_COEFFICIENTS ジョブを起動し、ARIMA 係数を確認できます。
モデルの推論	BigqueryMLReconstructionLossJobOp	BigQuery の ML 再構成損失ジョブを起動し、終了を待ちます。
	BigqueryExplainPredictModelJobOp	BigQuery の予測モデル説明ジョブを起動し、終了を待ちます。
	BigqueryMLRecommendJobOp	BigQuery の ML.Recommend ジョブを起動し、終了を待ちます。
その他	BigqueryDropModelJobOp	BigQuery のドロップモデルジョブを起動し、終了を待ちます。

すべての BQML 用パイプライン演算子の概要がわかったところで、エンドツーエンドの需要予測構築の例で、予測演算子をどのように使用するかを見てみましょう。コードは GitHub の Vertex AI サンプルリポジトリで確認できます。

BigQuery ML における需要予測パイプラインの例

このセクションでは、需要予測用の Vertex AI Pipelines で BigQuery と BQML コンポーネントを使ったエンドツーエンドの例を示します。このパイプラインは、Google Cloud のデータ分析で食品廃棄問題を解決というブログ投稿から引用しています。このシナリオでは、生鮮食品の流通販売を専門とする架空の食料品店 FastFresh が、食品廃棄を最小限に抑え、全店舗で在庫量を最適化することを目指しています。同社は、在庫の更新頻度が高い（すべての商品について分単位で更新）ため、需要予測モデルを 1 時間単位でトレーニングしたいと考えています。1 日あたり 24 回のトレーニングジョブが実行されるので、BQML の予測モデルタイプである BQML ARIMA_PLUS のパイプライン演算子を使用した ML パイプラインを使ってモデルのトレーニングを自動化することも検討しています。

パイプラインの流れの全体像を以下に示します。

https://storage.googleapis.com/gweb-cloudblog-publish/images/image5_7iFlW0t.max-1500x1500.max-1100x1100.png

図 1 - パイプラインの流れの全体構成

上から順に:

BigQuery でトレーニングデータセットを作成する
BigQuery ML ARIMA_PLUS モデルをトレーニングする
ARIMA_PLUS の時系列とモデル指標を評価する

次に、予測値と実績値の差の絶対値の平均を表す平均絶対誤差（MAE）が特定のしきい値未満であれば、以下を行います。

トレーニングした時系列 ARIMA_PLUS モデルを基に時系列予測を作成する
予測を説明するためにトレーニングデータと予測データの両方から別々の時系列コンポーネントを作成する

ここで、BQML ARIMA_PLUS のパイプライン演算子について説明します。

需要予測モデルのトレーニング

トレーニングデータ（表形式）を準備できたら、ARIMA_PLUS アルゴリズムによる需要予測モデルの構築を開始できます。この BQML モデル作成のオペレーションは、Vertex AI Pipelines 内で BigqueryCreateModelJobOp を使って自動化できます。前回の記事で説明したとおり、このコンポーネントでは、BQML トレーニングクエリを渡して BigQuery 上の ARIMA_PLUS モデルのトレーニングを送信できます。このコンポーネントは Vertex ML Metadata に記録される google.BQMLModel を返します。これにより、すべてのアーティファクトのリネージを追跡できます。以下のモデルトレーニング演算子では、set_display_name 属性により、実行中のコンポーネントに名前をつけることができます。また、after 属性では、パイプラインステップの順序を制御できます。

読み込んでいます...

時系列とモデル指標の評価

ARIMA_PLUS モデルをトレーニングしたら、予測を生成する前にモデルを評価する必要があります。BigQuery ML では、ML.ARIMA_EVALUATE 関数と ML.EVALUATE 関数を使用できます。ML.ARIMA_EVALUATE 関数は、デフォルトで有効な自動ハイパーパラメータ調整（auto.ARIMA）によってトレーニングしたすべての ARIMA モデルについて、log_likelihood、AIC、分散などの統計指標と、季節性、休日効果、急上昇や急降下の外れ値などの時系列情報の両方を生成します。ML.EVALUATE は、平均絶対誤差（MAE）や平均二乗誤差（MSE）などの予測精度指標を取得します。これらの評価関数を Vertex AI のパイプラインに統合するために、対応する BigqueryMLArimaEvaluateJobOp 演算子と BigqueryEvaluateModelJobOp 演算子を使用できるようになりました。どちらの場合も、google.BQMLModel を入力とし、評価指標アーティファクトを出力として返します。

BigqueryMLArimaEvaluateJobOp については、パイプラインコンポーネントで使用される例を以下に示します。

読み込んでいます...

以下は、BigQuery のテーブルで BigqueryMLArimaEvaluateJobOp 演算子から得られる統計的指標（最初の 5 列）です。

https://storage.googleapis.com/gweb-cloudblog-publish/images/fig2.max-1200x1200.max-700x700.png

図 2 - BigQuery の BigqueryMLArimaEvaluateJobOp の結果として得られる指標の一覧

BigqueryEvaluateModelJobOp については、以下のように対応するパイプラインコンポーネントがあります。

読み込んでいます...

ここに、評価予測指標を生成するためのテストサンプルを選択するクエリ文があります。

Vertex ML メタデータの評価指標アーティファクトとして、それらの指標を後で使用し、Kubeflow SDK visualization API を使用して Vertex AI Pipelines UI で可視化できます。Vertex AI では、Google Cloud コンソールから簡単にアクセスできる出力ページで、その HTML を表示できます。以下は、作成可能なカスタム予測 HTML レポートの例です。

https://storage.googleapis.com/gweb-cloudblog-publish/images/image1_xIlfyPi.max-700x700.max-700x700.png

図 3 - BigqueryEvaluateModelJobOp から得られるカスタム予測精度レポート

また、これらの値を使用し、パイプライングラフで Kubeflow SDK の条件を使用して、条件付き if-else ロジックを実装できます。このシナリオでは、トレーニング済みモデルの平均二乗誤差が特定のしきい値を下回っていれば予測を生成するためにモデルを使用できるよう、平均二乗誤差を使用してモデル性能条件を実装しています。

需要予測の作成と説明

今後 n 時間の予測を生成する場合は、BigQuery の予測モデルジョブを起動する BigqueryForecastModelJobOp を使用できます。このコンポーネントは、google.BQMLModel を入力アーティファクトとして使用し、ここで予測する時点（ホライズン）数と予測区間に入る将来の値の割合（confidence_level）を設定できます。以下の例では、信頼区間 90% で 1 時間ごとの予測を生成することになっています。

読み込んでいます...

次に、job_configuration_query パラメータを使用して、事前に定義された宛先テーブルで予測が具体化されます。これは Vertex ML Metadata で google.BQTable として追跡されます。以下は、取得される予測テーブルの例です（5 列のみ例示）。

https://storage.googleapis.com/gweb-cloudblog-publish/images/fig4.max-800x800.max-800x800.png

図 4 - ARIMA_PLUS の予測結果の一覧

予測を生成したら、BigqueryForecastModelJobOp 演算子の機能を拡張し、トレンド、検出された季節性、休日効果などの追加モデルを説明する ML.EXPLAIN_FORECAST 関数を使用可能にするBigqueryExplainForecastModelJobOpを使って、予測を説明することもできます。

読み込んでいます...

ここで、Vertex AI Pipelines UI で定義したパイプライン全体を可視化したものを確認できます。

https://storage.googleapis.com/gweb-cloudblog-publish/images/image3_M5M2SCv.max-1400x1400.max-1400x1400.png

図 5 - Vertex AI Pipelines UI のパイプラインの可視化

また、ML パイプラインのアーティファクトとそのリネージを分析、デバッグ、監査したい場合は、Google Cloud コンソールによりレンダリングされた黄色のアーティファクトオブジェクトのいずれかをクリックすると、Vertex ML Metadata で以下の表現にアクセスできます。

https://storage.googleapis.com/gweb-cloudblog-publish/images/image4_f9CEWON.max-1100x1100.max-600x600.png

図 6 - Vertex ML Metadata における需要予測パイプラインの ML リネージ

まとめ

このブログ投稿では、データサイエンティストや ML エンジニアがあらゆる BigQuery 関数と BigQuery ML 関数をオーケストレーションおよび自動化できるよう、Vertex AI パイプラインで現在利用可能な新しい BigQuery コンポーネントと BigQuery ML コンポーネントについて説明しました。また、BigQuery ML と Vertex AI Pipelines を含む需要予測のためのコンポーネントを使用したエンドツーエンドの例も紹介しました。

次のステップ

Vertex AI Pipelines で BQML パイプラインを実行する準備はできましたか？以下の参考資料をご覧になって、ぜひお試しください。

ドキュメント

Code Labs

参照

https://cloud.google.com/blog/ja/products/data-analytics/solving-for-food-waste-with-data-analytics-in-google-cloud
https://cloud.google.com/architecture/build-visualize-demand-forecast-prediction-datastream-dataflow-bigqueryml-looker
https://cloud.google.com/blog/ja/topics/developers-practitioners/announcing-bigquery-and-bigquery-ml-operators-vertex-ai-pipelines

- カスタマーエンジニア、Ivan Nardini
- 機械学習担当カスタマーエンジニア、 Steve Walker

デベロッパー

Vertex AI Pipelines の BigQuery および BigQuery ML 演算子に関するお知らせ

Vertex AI Pipelines 向けの新しい BigQuery コンポーネントと BigQueryML コンポーネントのリリースについての発表です。これにより、Vertex AI Pipeline での BigQuery ジョブと BQML ジョブの運用化が容易になります。また、Dataflow、BigQuery、BigQuery ML コンポーネントを使って BQML と Dataflow を使ったテキストドキュメントのトピックラベルを予測するエンドツーエンドの例も紹介します。

執筆者: Google Cloud Japan Team • 所要時間: 6 分