デベロッパー

Vertex Pipelines コードを管理するためのベストプラクティス

2022年11月17日

https://storage.googleapis.com/gweb-cloudblog-publish/images/Vertex_AI_blog.max-2500x2500.jpg

Google Cloud Japan Team

※この投稿は米国時間 2022 年 11 月 10 日に、Google Cloud blog に投稿されたものの抄訳です。

機械学習（ML）ワークフローの合理化とスケーリングに ML パイプラインを使用する組織が増えています。しかし、組織内に複数の ML プロジェクトがあり、パイプラインの開発段階がそれぞれ異なる場合、パイプラインの管理は簡単ではありません。これを解決するには、DevOps のコンセプトを構築し、ML 特有の問題に適用する方法が必要です。この記事では、ML パイプラインのコードベースを管理するベストプラクティスをご紹介します。

ここに挙げるガイダンスは、Google Cloud の主要ユーザーやパートナーとの協力に基づいています。過去に見てきたパイプライン実装パターンに基づいて、いくつかベストプラクティスをご紹介しますが、もちろん問題の解決策は各企業の要因によって異なります。したがってお手本を示すことを目的とはしていません。そのことを踏まえつつ、ML パイプラインの開発ライフサイクルについて掘り下げ、どう管理すべきか検討してみましょう。

パイプラインコードの管理

どんなソフトウェアシステムでも、開発者は本番環境システムの安定性を維持したまま、コードで実験と反復処理を実行できる必要があります。また、DevOps のベストプラクティスでは、システムはデプロイ前に徹底的にテストを重ね、デプロイはできるだけ自動化します。ML のパイプラインも例外ではありません。

Vertex AI で ML パイプラインを実行する標準的なプロセスは次のようになります。

Kubeflow Pipelines または TFX DSL（ドメイン専用の言語）を使用し、Python でパイプラインコードを記述する
KFP または TFX ライブラリを使用し、JSON 形式にパイプライン定義をコンパイルする
コンパイルしたパイプライン定義を Vertex AI API に送信し、すぐに実行する

上記の手順を信頼性の高い本番環境システムに効果的にパッケージ化し、しかも ML 担当者がパイプライン開発で実験や反復処理を実行できるようにするには、どうすればよいでしょうか？

ステップ 1: パイプラインコードを書く

どんなソフトウェアシステムでも、バージョン管理システム（git など）を使用してソースコードを管理する必要があるでしょう。そのほかにも検討すべき点がいくつかあります。

コードの再利用

Kubeflow Pipelines は基本的にモジュール型のため、各コンポーネントの再利用によって ML パイプライン開発にかかる時間を短縮できます。既存のコンポーネントはすべて Google Cloud ライブラリと KFP ライブラリでご覧いただけます。

KFP のカスタムコンポーネントを作成する場合は、必ず組織と共有してください。バージョン管理や参照が簡単にできるよう、別のリポジトリに移動することをおすすめします。またはオープンソースコミュニティにぜひ公開してください。Google Cloud ライブラリと Kubeflow Pipelines プロジェクトはいずれも、新規または改良したパイプラインコンポーネントによる貢献を歓迎します。

テスト

どんな本番環境システムでも、特に後で変更を加えた場合には、システムの信頼性を確保するために自動テストの設定をおすすめします。pull リクエスト（PR）を開くときは必ず、CI パイプラインを使用してカスタムコンポーネントの単体テストを実行します。ML パイプラインのエンドツーエンドテストには時間がかかるため、PR を開く（または開いた PR に次の commit を push する）たびにテストを実行するよう設定することはおすすめしません。開いた PR でそのようなテストを実行するときには手動での承認を必要とするか、デプロイするコードを専用のテスト環境にマージした場合のみ実行してください。

ステップ 2: パイプラインをコンパイルする

他のソフトウェアシステムと同様、ML パイプラインをコンパイルするときは CI / CD パイプライン（Google Cloud Build など）を使用し、必要に応じて KFP または TFX ライブラリを使用します。ML パイプラインをコンパイルした後、コンパイルしたパイプラインを環境（テスト/本番）に公開します。Vertex AI SDK では、Google Cloud Storage（GCS）に保存したコンパイル済みのパイプラインを参照できるため、GCS は CD パイプラインの最後にコンパイル済みのパイプラインを公開するのに最適な場所となります。またはコンパイルしたパイプラインを Artifact Registry に Vertex AI Pipeline テンプレートとして公開してもかまいません。

pull リクエストチェック（CI）の一環として ML パイプラインをコンパイルするのもよいでしょう。短時間でコンパイルできるため、パイプラインに構文エラーがないか簡単にチェックできます。

ステップ 3: コンパイルしたパイプラインを Vertex AI API に送信する

ML パイプラインを送信して Vertex で実行するには Google Cloud Vertex AI SDK（Python）を使用する必要があります。そしてコンパイル済みの ML パイプラインを CI / CD の一部として実行するには、Python ML パイプラインとコンパイルコードを Vertex AI SDK を使用する「トリガー」コードと分離する必要があります。

「トリガー」コードを、固定スケジュールで（ML モデルを毎週再トレーニングしたい場合など）、あるいは所定のイベント（BigQuery に新しいデータが到着したときなど）があったときに実行するのもおすすめです。Cloud Build でも Cloud Functions でもこれは可能であり、どちらの方法にも利点があります。すでに CI / CD パイプラインに Cloud Build を使用している場合は Cloud Build を使用したいかもしれませんが、その場合は「トリガー」コードを入れるコンテナを自分でビルドする必要があります。Cloud Function ならコード自体をデプロイするだけで、GCP が Cloud Function にパッケージ化してくれます。

どちらも固定スケジュール（Cloud Scheduler + Pub/Sub）で、または Pub/Sub イベントからトリガーできます。Cloud Build のほうが Cloud Build トリガー内で変数置換を使用して Pub/Sub イベントを解釈できるため、イベントからのトリガーに柔軟性があります。Python コードで Pub/Sub イベントを解釈する必要はありません。この場合、さまざまな Cloud Build トリガーを設定し、同じ Python コードで異なるイベントに対応して ML パイプラインを開始できます。

単に Vertex AI パイプラインをスケジュールしたい場合は、Cloud Function や他の「トリガー」コードを使わず、Datatonic のオープンソース Terraform モジュールで Cloud Scheduler のジョブを作成することも可能です。

https://storage.googleapis.com/gweb-cloudblog-publish/images/image1_ZuVlzvB.max-1200x1200.max-800x800.png

Cloud Scheduler、Pub/Sub、Cloud Function を使用し、スケジュールに応じて Vertex AI Pipelines をトリガーするアーキテクチャの例。

Vertex AI クイックスタートテンプレートのご紹介

Datatonic は、Google の Vertex AI プロダクトチームとのパートナーシップにより、AI のユースケースを Vertex AI Pipelines で本番環境に移行するためのオープンソーステンプレートを開発しました。これには以下が含まれます。

XGBoost と Tensorflow のフレームワーク（フレームワークはさらに追加予定）を使用し、トレーニングとバッチスコアリングに対応する ML パイプラインの例
KFP コンポーネントの単体テストを実行する CI / CD パイプライン（Google Cloud Build を使用）、エンドツーエンドのパイプラインテスト、ML パイプラインのコンパイルと環境への公開
Google Cloud Function として簡単にデプロイできるパイプライントリガーコード
Terraform を使用し、Infrastructure-as-Code としてデプロイするコードの例
開発サイクルの時間を短縮するメイクスクリプト

このテンプレートは、新しい ML のユースケースを概念実証（POC）から本番運用に導くコードベースの出発点となります。13 を超える国の何百人ものデータサイエンティストが概念実証（POC）から本番運用までの期間を 5 か月から 4 週間に短縮した、Vodafone によるテンプレートの使用事例をご覧ください。まずは、GitHub のリポジトリを確認し、README の説明をお読みください。

Vertex AI が初めてで、もっと詳しく知りたい方は、以下のリソースをご利用いただけます。

最後に、皆様のフィードバックをお待ちしています。Vertex AI に関するフィードバックがございましたら、Vertex AI サポートページからお寄せください。パイプラインテンプレートに関するフィードバックがございましたら、GitHub リポジトリに問題を提出してください。本ブログ投稿に関するご意見も大歓迎です。

^{このたびの機会をくれた Sara Robinson に心より感謝します。}

- カスタマーエンジニア Ivan Nardini
- Datatonic、プリンシパル MLOps エンジニア Jonny Browning

AI & 機械学習

AI Booster: Vodafone が大規模に AI と ML を強化する方法

Vodafone は、概念実証（POC）から本番運用までの期間を 5 か月から約 4 週間に短縮するスケーラビリティに優れた ML プラットフォームを Google Cloud で構築しています。

執筆者: Google Cloud Japan Team • 所要時間: 3 分

https://storage.googleapis.com/gweb-cloudblog-publish/images/Google_Cloud_AIML_thumbnail.max-900x900.jpg

デベロッパー

パイプラインテンプレートで再利用可能な機械学習ワークフローを構築する

このブログ投稿では、Kubeflow Pipelines（KFP）SDK レジストリクライアント（RegistryClient）、Artifact Registry、および Vertex AI Pipelines を使って、エンドツーエンドのパイプラインテンプレートを作成、アップロード、（再）使用する方法を説明します。

執筆者: Google Cloud Japan Team • 所要時間: 2 分