AI & 機械学習

Vertex Pipelines 一般提供のお知らせ

2021年11月16日

Google Cloud Japan Team

※この投稿は米国時間 2021 年 11 月 11 日に、Google Cloud blog に投稿されたものの抄訳です。

このたび、Vertex Pipelines の一般提供を開始しました。

機械学習（ML）ワークフローを拡張する最善の方法の一つとして、ML プロセスを分解して、それぞれ個別のパイプラインステップを作成し、ワークフローをパイプラインとして実行することが挙げられます。パイプラインは、ML ワークフローの運用化、共有、確実な再現のための優れたツールであるとともに、MLOps の鍵でもあります。パイプラインを使用して、モデルの再トレーニングとデプロイを自動的に行うシステムを構築できます。この記事では、Vertex Pipelines の活用方法をご紹介した後に、活用の足がかりとしてご利用いただけるサンプルパイプラインをご紹介します。

Vertex Pipelines の概要

まず、ML パイプラインの機能について簡単にご説明します。機械学習パイプラインとは、ML ワークフローを一連のステップ（コンポーネントとも呼ばれます）としてカプセル化したものです。パイプラインの各ステップはコンテナに、各ステップの出力は次のステップへの入力になります。しかし、この方法には以下の 2 つの課題があります。

個々のパイプラインステップをコンテナに変換する方法が必要
パイプラインを大規模実行するために、インフラストラクチャの設定が必要

1 つ目の課題に対処するためには、パイプラインステップからコンテナへの変換を処理し、パイプライン全体の入出力アーティファクトのフローを管理する優れたオープンソースライブラリを利用します。これにより、各パイプラインステップの機能の構築に集中できます。Vertex Pipelines は、Kubeflow パイプライン（KFP）と TensorFlow Extended（TFX）の 2 つの一般的なオープンソースライブラリをサポートしています。そのため、どちらかのライブラリを使用してパイプラインを定義し、Vertex Pipelines で実行できます。

2 つ目の課題に関しては、Vertex Pipelines は完全にサーバーレスです。KFP パイプラインや TFX パイプラインをアップロードして実行する場合、Vertex AI がプロビジョニングの処理とインフラストラクチャのスケーリングを行い、パイプラインを実行します。パイプラインを実行する間に使用したリソースに対してのみ料金が発生するため、データサイエンティストは、インフラストラクチャを意識することなく、ML のみに集中できます。

Vertex Pipelines は、Vertex AI および Google Cloud 上の他のツールと統合されています。BigQuery からのデータのインポート、Vertex AI でのモデルのトレーニング、Cloud Storage へのパイプラインアーティファクトの保存、モデル評価指標の取得、Vertex AI エンドポイントへのモデルのデプロイをすべて Vertex Pipelines のステップで行えます。

また、こうした作業をさらに簡単に行えるよう、Vertex Pipelines 向けに、既成のコンポーネントライブラリを作成しました。この既成のコンポーネントにより、パイプラインステップで、データセットの作成や AutoML モデルのトレーニングなど、Vertex AI のさまざまな機能を使用するプロセスを簡素化できます。このコンポーネントを使用するには、まず既成のコンポーネントライブラリをインポートして、ライブラリのコンポーネントをご自身のパイプライン定義内で直接使用します。

たとえば、以下のパイプラインは、BigQuery 内のデータを指す Vertex AI データセットの作成と AutoML モデルのトレーニングを行い、精度が一定のしきい値を超えたトレーニング済みモデルをエンドポイントにデプロイします。

https://storage.googleapis.com/gweb-cloudblog-publish/images/1_Vertex_Pipelines.max-1200x1200.jpg

ML メタデータと Vertex Pipelines

出力がパイプライン実行の各ステップで生成されるため、パイプライン実行により作成されるアーティファクトと指標を追跡する仕組みを確保することが大切です。この仕組みは、特にパイプラインの開発と実行に複数のチームメンバーが関わる場合や、さまざまな ML タスク用に複数のパイプラインを管理する場合に有用です。このために、Vertex Pipelines は Vertex ML Metadata と直接統合して、アーティファクト、リネージ、指標を自動的に追跡します。

また、Vertex AI コンソールでは、Vertex AI SDK を使用してパイプラインメタデータを検査できます。このコンソールでメタデータとアーティファクトを確認するには、パイプライングラフを表示して、[アーティファクトを展開] というスライダーをクリックします。個々のアーティファクトをクリックすると表示される詳細から、アーティファクトごとに保存場所を確認できます。

https://storage.googleapis.com/gweb-cloudblog-publish/images/2_Vertex_Pipelines.max-1100x1100.jpg

個々のアーティファクトをパイプラインの大きなコンテキストで理解しておくと、出力アーティファクトを確認する際に役立ちます。このために Vertex Pipelines のリネージのトラッキングを活用できます。コンソールでアーティファクトを表示したら、[リネージを表示] ボタンをクリックします。たとえば、以下のエンドポイントには、エンドポイントにデプロイされるモデルと、モデルのトレーニングに使用されるデータセットが表示されています。また、このグラフでは、各アーティファクトを生成したパイプラインステップも確認できます。

https://storage.googleapis.com/gweb-cloudblog-publish/images/3_Vertex_Pipelines.max-1100x1100.jpg

複数の方法でパイプラインメタデータをプログラムで操作できます。Vertex ML Metadata API を使用すると、メタデータストア内の任意のアーティファクトや実行をプロパティやリネージでクエリできます。また、Vertex AI SDK の get_pipeline_df メソッドを使用すると、各パイプライン実行の指標を含む Pandas DataFrame を作成できます。さらに、アーティファクトリネージおよびフィルタリングアーティファクトを取得する SDK メソッドを使用すると、パイプラインを追跡するためのカスタムダッシュボードを作成できます。

サンプルパイプラインの構築

Kubeflow Pipelines SDK で作成したサンプルで、Vertex Pipelines の動作を確認しましょう。このサンプルの完全なパイプラインコードは、こちらの Codelab からご確認いただけます。ここでは、いくつか重要なポイントをご紹介します。このサンプルパイプラインは、Google Cloud の既成のコンポーネントを活用しており、以下の処理を行います。

Vertex AI 内にデータセットを作成
作成したデータセットでカスタムモデルをトレーニング
トレーニング済みモデルでバッチ予測を実行

このパイプラインを構築して実行するには、まず、以下のように Python パッケージをいくつかインポートします。

読み込んでいます...

Vertex AI 上でこのパイプラインを構築して実行するために、以下の 3 つのライブラリを使用します。

Kubeflow Pipelines SDK: コンポーネントの構築と接続によるパイプライン化
Vertex AI SDK: Vertex Pipelines でのパイプライン実行
Google Cloud コンポーネントライブラリ: 既成のコンポーネントを利用した多様な Google Cloud サービスとのインタラクション

使用する既成のコンポーネントは Google 製であるため、ボイラープレートコードを記述せずにこれらの各タスクを実行できます。または、Google のパイプライン定義内で構成変数をコンポーネントに直接渡すことも可能です。詳細な定義については Codelab でご確認いただけますが、特に重要なものを以下でご紹介します。

読み込んでいます...

@pipeline(name="custom-training-pipeline",
                  pipeline_root=PIPELINE_ROOT)
def pipeline(
    bq_source: str = "bq://your-project.your_bq_dataset.your_bq_table",
    display_name: str = "pipeline-train",
    project: str = "YOUR_PROJECT_HERE",
    gcp_region: str = "us-central1",
    api_endpoint: str = "us-central1-aiplatform.googleapis.com",
):
    dataset_create_op = gcc_aip.TabularDatasetCreateOp(
        display_name=display_name,
        bq_source=bq_source,
        project=project
    )

training_op = gcc_aip.CustomContainerTrainingJobRunOp(
        display_name="pipeline-beans-custom-train",
        container_uri="gcr.io/YOUR_PROJECT_HERE/your_gcr_uri:tag",
        project=project,
        location=gcp_region,
        dataset=dataset_create_op.outputs["dataset"],
        …
        bigquery_destination="bq://your_cloud_project",
        model_display_name="beans-model-pipeline",
    )
    
    batch_predict_op = gcc_aip.ModelBatchPredictOp(
        project=project,
        location=gcp_region,
        job_display_name="beans-batchpred",
        model=training_op.outputs["model"],
        gcs_source_uris=["gs://path/to/test-examples.csv"],
        instances_format="csv",
        …
        gcs_destination_output_uri_prefix="gs://your-bucket/batchpredresults"
    )

このパイプラインは、最初に TabularDatasetCreateOp コンポーネントを使用して Vertex AI 内にデータセットを作成し、このデータセットの BigQuery ソーステーブルを渡します。作成されたデータセットは、CustomContainerTrainingJobRunOp コンポーネントに渡され、scikit-learn モデルトレーニングジョブに使用されます。scikit-learn のトレーニングコードをデプロイした Container Registry 内のコンテナを指す構成パラメータがすでに渡されており、このコンポーネントは Vertex AI 内にモデルを出力します。このパイプラインの最後のコンポーネントでは、予測結果を取得したいサンプルの CSV ファイルを提供して、このモデルのバッチ予測ジョブを実行します。

Vertex AI でこのパイプラインをコンパイルして実行すると、以下のように、実行中のパイプラインのグラフをコンソールで確認できます。