Google Cloud で ML を実装するためのベストプラクティス

Last reviewed 2022-12-15 UTC

このドキュメントでは、Google Cloud で機械学習（ML）を実装するためのベストプラクティスを紹介します。データとコードに基づいたカスタムトレーニングモデルに重点を置いています。ML ワークフロー全体でカスタムトレーニングモデルを開発する方法について、主なアクションや詳細情報のリンクなど、おすすめの方法を示します。

次の図は、このドキュメントで扱う ML ワークフローの段階の概要を示しています。これには、次のものが含まれます。

ML の開発
データ処理
運用化されたトレーニング
モデルのデプロイとサービング
ML ワークフローのオーケストレーション
アーティファクトの整理
モデルのモニタリング

Google Cloud の ML ワークフロー

このドキュメントは、すべての推奨事項を網羅したものではありません。目的は、データサイエンティストと ML アーキテクトが、Google Cloud での ML の使用に関連するアクティビティの範囲を把握し、それに応じて計画できるようにすることです。また、AutoML などの代替 ML 開発については、推奨ツールとプロダクトの使用で説明していますが、このドキュメントではカスタムトレーニングモデルに焦点を当てています。

このドキュメントのベストプラクティスを実施する前に、Vertex AI の概要を読むことをおすすめします。

このドキュメントでは、以下のことを前提としています。

主に Google Cloud サービスを使用する。ここでは、ハイブリッドアプローチとオンプレミスアプローチについては説明しません。
トレーニングデータを収集し、Google Cloud に保存する。
ML、ビッグデータツール、データ前処理に関する中級レベルの知識と、Cloud Storage、BigQuery、Google Cloud の基礎知識を持っている。

ML を初めて使用する場合は、Google の ML 集中講座をご覧ください。

推奨されるツールとプロダクトを使用する

次の表に、このドキュメントで説明する ML ワークフローの各フェーズで推奨されるツールとプロダクトを示します。

ML ワークフローのステップ	推奨ツールとプロダクト
ML 環境の設定	Vertex AI Workbench ノートブック Vertex AI SDK for Python Terraform
ML の開発	BigQuery Cloud Storage Vertex AI Workbench ノートブック Vertex AI Data Labeling Vertex Explainable AI Vertex AI Feature Store Vertex AI TensorBoard Vertex AI Training Vertex AI Experiments AutoML エンドツーエンドの AutoML の表形式ワークフロー BigQuery ML Vertex AI Vizier Vertex AI のサンプルベースの説明
データ処理	BigQuery Dataflow（Apache Beam） Dataproc（Apache Spark） Dataplex（Data Catalog）
運用化されたトレーニング	PyTorch TensorFlow XGBoost scikit-learn Vertex AI Feature Store Vertex AI Pipelines Vertex AI Training Vertex AI Model Evaluation
モデルのデプロイとサービング	Vertex AI Prediction Vertex AI Feature Store ベクトル検索ストリーミング取り込みカスタム予測ルーティン VM 共同ホスティング TensorFlow Enterprise
ML ワークフローのオーケストレーション	Vertex AI Pipelines
アーティファクトの整理	Vertex ML Metadata Vertex AI Model Registry
モデルのモニタリング	Vertex Explainable AI Vertex AI Model Monitoring

Google は、Vertex AI カスタムトレーニングモデルソリューションに代わる事前構築済みのトレーニングルーチンとして、AutoML、Vertex AI Forecasting、BigQuery ML を提供しています。次の表に、これらのオプションや Vertex AI を使用する場合の推奨事項を示します。

ML 環境	説明	この環境を選択すべきケース
BigQuery ML	BigQuery ML でデータ、インフラストラクチャ、事前定義されたモデルタイプが 1 つのシステムにまとめられている。	すべてのデータが BigQuery に含まれている。 SQL に習熟している。 BigQuery ML で利用可能な一連のモデルが、解決しようとしている問題に適合する。
AutoML（Vertex AI のコンテキスト）	AutoML には、画像分類や表形式の回帰などの一般的な問題のトレーニングルーチンが用意されています。アーキテクチャの選択、ハイパーパラメータチューニング、マシンのプロビジョニングなど、モデルのトレーニングとサービス提供のあらゆる局面が自動的に処理されます。	問題が AutoML のサポートするタイプのいずれかに適合する。詳細については、AutoML モデルタイプをご覧ください。データが形式と一致し、AutoML モデルの各タイプによって設定された制限内に収まっている。Vertex AI で使用するトレーニングデータの準備をご覧ください。 AutoML モデルの場合、Google Cloud からモデルを提供するか、外部デバイスにモデルをデプロイできます。Google Cloud コンソールを使用した AutoML モデルのトレーニングと Google Cloud コンソールを使用した AutoML Edge モデルのトレーニングをご覧ください。テキスト、動画、表形式のモデルの場合、100 ミリ秒を超える推論レイテンシを許容できます。注: AutoML 表形式のモデルは、BigQuery ML 環境からトレーニングすることもできます。
Vertex AI カスタムトレーニングモデル	Vertex では、独自のカスタムトレーニングルーチンを実行し、サーバーレスアーキテクチャ上であらゆるタイプのモデルをデプロイできます。Vertex AI では、ハイパーパラメータのチューニングやモニタリングなどの追加サービスが提供されるため、モデルの開発が容易になります。カスタムトレーニングメソッドの選択をご覧ください。	問題が、BigQuery ML や AutoML に関してこの表に記載されている基準と一致しない。オンプレミスまたは別のクラウドプラットフォームですでにトレーニングを実行していて、プラットフォーム間で整合性が必要な場合。

ML 環境の設定

ベストプラクティス:

テストと開発に Vertex AI Workbench ノートブックを使用する。
チームメンバーごとにノートブックインスタンスを作成する。
企業のポリシーに基づいて ML リソースとアーティファクトを保存する。
Vertex AI SDK for Python を使用する。

テストと開発に Vertex AI Workbench ノートブックを使用する

ツールに関係なく、Vertex AI Workbench ノートブックを使用して、テストと開発（コードの作成、ジョブの開始、クエリの実行、ステータスの確認など）を行うことをおすすめします。ノートブックインスタンスを使用すると、Google Cloud のすべてのデータと人工知能（AI）サービスに簡単かつ再現可能な方法でアクセスできます。

ノートブックインスタンスでは、すぐに使える安全なソフトウェアとアクセスパターンが用意されています。ネットワーク、Identity and Access Management などの Google Cloud プロパティや、（コンテナを通じて）ノートブックインスタンスに関連付けられているソフトウェアをカスタマイズするのが一般的な方法です。詳細については、Vertex AI のコンポーネントとユーザー管理ノートブックの概要をご覧ください。

チームメンバーごとにノートブックインスタンスを作成する

データサイエンスチームの各メンバーに対して、ユーザー管理ノートブックインスタンスを作成します。チームメンバーが複数のプロジェクト、特にさまざまな依存関係があるプロジェクトに関与している場合は、複数のノートブックインスタンスを使用し、各インスタンスを仮想ワークスペースとして扱うことをおすすめします。ノートブックインスタンスは、使用されていない場合は停止できます。

企業のポリシーに基づいて ML リソースとアーティファクトを保存する

最も簡単なアクセス制御は、未加工と Vertex AI の両方のリソースとアーティファクト（データセットやモデルなど）を同じ Google Cloud プロジェクトに保存することです。一般的に、企業にはアクセスを制御するポリシーがあります。リソースとアーティファクトがプロジェクトをまたいで保存されている場合は、Identity and Access Management（IAM）を使用して、プロジェクト間の企業アクセス制御を構成できます。

Vertex AI SDK for Python を使用する

Vertex AI をエンドツーエンドのモデル構築ワークフローに使用するために、Vertex AI SDK for Python を使用します。これは、PyTorch、TensorFlow、XGBoost、scikit-learn などの使い慣れた ML フレームワークとシームレスに連携します。

または、ブラウザを介するユーザーインターフェースとして Vertex AI の機能をサポートする Google Cloud コンソールも使用できます。

ML 開発

ベストプラクティス:

トレーニングデータを準備する。
構造化データと半構造化データを BigQuery に保存する。
画像、動画、音声、非構造化データを Cloud Storage に保存する。
非構造化データに対して Vertex AI Data Labeling を使用する。
構造化データに Vertex AI Feature Store を使用する。
ブロックストレージにはデータを保存する。
テストの分析に Vertex AI TensorBoard と Vertex AI Experiments を使用する。
ノートブックインスタンスの内部で小規模データセット用のモデルをトレーニングする。
ハイパーパラメータチューニングを使用してモデルの予測精度を最大化する。
ノートブックインスタンスを使用してモデルを理解する。
特徴アトリビューションを使用してモデル予測の分析情報を取得する。

ML の開発では、データの準備、モデルのテストと評価を行います。ML の問題を解決するには、通常、さまざまなモデルを構築して比較し、何が最適かを見極める必要があります。

通常、データサイエンティストは、さまざまなアーキテクチャ、入力データセット、ハイパーパラメータ、ハードウェアを使用してモデルをトレーニングします。データサイエンティストは、テストデータセットの精度、適合率、再現率などの集計パフォーマンス指標を通して、結果として得られるモデルを評価します。最後に、データサイエンティストは、データの特定のサブセット、さまざまなモデルバージョン、さまざまなモデルアーキテクチャに対してモデルのパフォーマンスを評価します。

トレーニングデータを準備する

モデルのトレーニングに使用するデータは、オンラインサービスシステムのログ、ローカルデバイスの画像、ウェブからスクレイピングされたドキュメントなど、任意の数のシステムから取得できます。

データの出所に関係なく、ソースシステムからデータを抽出し、ML トレーニング用に最適化された形式とストレージ（稼働中のソースとは別）に変換します。Vertex AI で使用するトレーニングデータの準備の詳細については、Vertex AI で使用するトレーニングデータを準備するをご覧ください。

構造化データと半構造化データを BigQuery に保存する

構造化データまたは半構造化データを扱う場合は、プロジェクト構造に対する BigQuery の推奨事項に従ってすべてのデータを BigQuery に保存することをおすすめします。ほとんどの場合、中間の処理済みデータも BigQuery に保存できます。速度を最大化するには、トレーニングデータのビューやサブクエリを使用する代わりに、実体化されたデータを保存することをおすすめします。

BigQuery Storage API を使用して BigQuery からデータを読み取ります。アーティファクトトラッキングの場合は、表形式のマネージドデータセットの使用を検討してください。次の表に、API を使いやすくするための Google Cloud ツールを示します。

以下を使用している場合...	この Google Cloud ツールを使用する
TensorFlow または Keras	BigQuery 用の tf.data.dataset リーダー
TFX	BigQuery クライアント
Dataflow	BigQuery I/O コネクタ
その他のフレームワーク（PyTorch、XGBoost、scikit-learn など）	BigQuery Python クライアントライブラリ

画像、動画、音声、非構造化データを Cloud Storage に保存する

これらのデータは Cloud Storage に大規模なコンテナ形式で保存します。これは、シャーディングされた TFRecord ファイル（TensorFlow を使用している場合）または Avro ファイル（他のフレームワークを使用している場合）に適用されます。

個々の画像、動画、音声クリップを大規模なファイルに結合すると、Cloud Storage に対する読み取りと書き込みのスループットが向上します。100～10,000 個のシャードを含む、100 MB 以上のファイルにします。

データ管理を有効にするには、Cloud Storage バケットとディレクトリを使用してシャードをグループ化します。詳細については、Cloud Storage とはをご覧ください。

非構造化データに Vertex AI Data Labeling を使用する

特に非構造化データに関しては、人力でデータにラベルを付けることが必要になる場合があります。この作業には Vertex AI Data Labeling を使用します。独自のラベラーを採用し、Google Cloud のソフトウェアを使用してこのラベラーの動作を管理することも、Google の社内ラベラーをタスクに使用することもできます。詳細については、データのラベル付けのリクエストをご覧ください。

構造化データに Vertex AI Feature Store を使用する

構造化データを使用してモデルをトレーニングする場合は、そのモデルをトレーニングする場所にかかわらず、次の手順に従います。

Vertex AI Feature Store を検索して、既存の特徴が要件を満たしているかどうかを判断します。
1. Vertex AI Feature Store を開いて、ユースケースに関連する特徴や、モデルに渡すシグナルに対応する特徴がすでに存在するかどうかを確認します。
2. 使用したい特徴が Vertex AI Feature Store にある場合は、Vertex AI Feature Store のバッチサービング機能を使用してトレーニングラベル用にその特徴を取得します。
新しい特徴を作成します。Vertex AI Feature Store に必要な特徴がない場合は、データレイクのデータを使用して新しい特徴を作成します。
1. データレイクから未加工データを取得し、必要な特徴の処理とエンジニアリングを実行するスクリプトを作成します。
2. Vertex AI Feature Store から取得した特徴値と、データレイクから作成した新しい特徴値を結合します。これらの特徴値を結合すると、トレーニングデータセットが生成されます。
3. 新しい特徴の更新された値を計算する定期的なジョブを設定します。ある特徴が有用であると判断し、本番環境で使用する場合、必要な頻度でジョブを定期的にスケジュールして特徴の更新された値を計算し、Vertex AI Feature Store に取り込みます。新しい特徴を Vertex AI Feature Store に追加すると、（オンライン予測のユースケース用に）その特徴をオンラインサービングするためのソリューションが自動的に作成され、その特徴を組織内の他のユーザーと共有できるようになります。そうしたユーザーはその特徴を独自の ML モデルに活用できます。
  
  注: 一部の特徴は 3 時間ごとに更新する必要があり、一部の機能は機能に毎日または毎週更新する必要があるため、頻度は重要な検討事項です。

詳細については、Vertex AI Feature Store をご覧ください。

ブロックストレージにはデータを保存しない

ネットワークファイルシステムなどのブロックストレージや、仮想マシン（VM）のハードディスクにはデータを保存しないでください。これらのツールは Cloud Storage や BigQuery よりも管理が難しく、パフォーマンスの調整が課題になります。同様に、Cloud SQL などのデータベースからデータを直接読み込まないようにしてください。代わりに、BigQuery と Cloud Storage にデータを保存します。詳細については、Cloud Storage のドキュメントと BigQuery のデータの読み込みの概要をご覧ください。

Vertex AI TensorBoard と Vertex AI Experiments を使用してテストを分析する

モデルを開発する際に Vertex AI TensorBoard を使用して、ハイパーパラメータなどに基づいて特定のテストを見つけて比較します。Vertex AI TensorBoard は、エンタープライズ対応のマネージド Vertex AI TensorBoard サービスで、費用対効果に優れ、データサイエンティストと ML 研究者が実験をシームレスに追跡、比較、共有して簡単にコラボレーションできる安全なソリューションです。Vertex AI TensorBoard を使用すると、時間の経過に伴う損失や精度などのテスト指標の追跡、モデルグラフの可視化、低次元の空間への予測の埋め込みなどを行えます。

Vertex AI Experiments を使用して Vertex ML Metadata とのインテグレーションを実行し、パラメータ、指標、データセット、モデルアーティファクト間のリンクを記録して構築します。

ノートブックインスタンスの内部で小規模データセット用のモデルをトレーニングする。

小規模なデータセットや大規模なデータセットのサブセットでは、ノートブックインスタンス内でモデルをトレーニングするだけで十分である場合もあります。大規模なデータセットや分散トレーニングには、トレーニングサービスを使用すると便利です。トレーニングをスケジュールに沿って行う場合や、追加データの受信に応じて行う場合は、小規模なデータセットでも、Vertex AI Training サービスを使用してトレーニングを提供する方法をおすすめします。

ハイパーパラメータチューニングを使用してモデルの予測精度を最大化する

モデルの予測精度を最大化するには、Vertex AI Training によって提供される自動モデル拡張機能であるハイパーパラメータチューニングを使用します。この機能では、モデルのトレーニング時に Google Cloud の処理インフラストラクチャと Vertex AI Vizier を活用して、さまざまなハイパーパラメータ構成をテストします。ハイパーパラメータチューニングにより、最適な値を得られるまで数多くのトレーニングを実行する過程で、ハイパーパラメータを手動で調整する必要がなくなります。

ハイパーパラメータチューニングの詳細については、ハイパーパラメータチューニングの概要とハイパーパラメータチューニングの使用をご覧ください。

ノートブックインスタンスを使用してモデルを理解する

ノートブックインスタンスを使用してモデルを評価し、理解します。ノートブックインスタンスには、scikit-learn などの一般的な組み込み共通ライブラリに加えて、What-if ツール（WIT）と言語解釈ツール（LIT）があります。WIT では複数の手法を使用してモデルのバイアスをインタラクティブに分析でき、LIT では視覚的で対話型の拡張可能なツールを使用して自然言語処理モデルの動作を理解できます。

特徴アトリビューションを使用してモデル予測の分析情報を取得する

Vertex Explainable AI は、ML 実装プロセスに不可欠な部分です。特徴アトリビューションによって、モデルがどのような根拠で予測を導き出したかに関する分析情報を提供します。Vertex Explainable AI により、モデルが予測のために入力として使用する各特徴の重要度を詳細に確認して、モデルの動作をより深く理解し、モデルの信頼性を高めることができます。

Vertex Explainable AI は、表形式データと画像データに基づくカスタムトレーニングモデルをサポートします。

Vertex Explainable AI の詳細については、以下をご覧ください。

データ処理

ベストプラクティス:

BigQuery を使用して表形式のデータを処理する。
Dataflow を使用してデータを処理する。
サーバーレス Spark データ処理に Dataproc を使用する。Vertex ML Metadata でマネージドデータセットを使用する。

データを処理するための推奨方法は、使用するフレームワークとデータ型によって異なります。このセクションでは、一般的なシナリオに対する推奨事項の概要を説明します。

BigQuery を使用して構造化データと半構造化データを処理する

BigQuery は、未処理の構造化データまたは半構造化データの保存に使用します。BigQuery ML を使用してモデルを構築する場合は、BigQuery に組み込まれている変換をデータの前処理に使用します。AutoML を使用している場合は、AutoML に組み込まれている変換をデータの前処理に使用します。カスタムモデルを構築する場合は、BigQuery 変換を使用するのが最も費用対効果の高い方法になります。

Dataflow を使用してデータを処理する

大量のデータを処理する場合は、Apache Beam プログラミングモデルを使用する Dataflow の使用を検討してください。Dataflow を使用すると、非構造化データを TFRecord などのバイナリデータ形式に変換できます。これにより、トレーニングプロセス中のデータ取り込みパフォーマンスを向上させることができます。

サーバーレス Spark データ処理に Dataproc を使用する

または、Apache Spark のコードベースとスキルに投資している場合は、Dataproc の使用を検討してください。メモリに収まる小さなデータセットには、1 回限りの Python スクリプトを使用します。

Cloud SQL で表現できない変換やストリーミングを目的とした変換を実行する必要がある場合は、Dataflow と pandas ライブラリを組み合わせて使用できます。

ML メタデータでマネージドデータセットを使用する

データを ML 用に前処理した後、Vertex AI でのマネージドデータセットの使用を検討できます。マネージドデータセットを使用すると、データとカスタムトレーニングモデルを明確にリンクできるほか、記述統計を提供したり、データをトレーニングセット、テストセット、検証セットに自動または手動で分割したりすることもできます。

マネージドデータセットは必須ではなく、トレーニングコード内のデータの分割をさらに細かく制御したい場合や、データとモデル間のリネージがアプリケーションに重要でない場合には使用を避けることも考えられます。

詳細については、データセットとカスタムトレーニングアプリケーションでマネージドデータセットを使用するをご覧ください。

運用化されたトレーニング

ベストプラクティス:

マネージドサービスでコードを実行する。
トレーニングパイプラインを使用してジョブ実行を運用化する。
トレーニングのチェックポイントを使用して、テストの現在の状態を保存する。
Cloud Storage でサービスを提供するモデルのアーティファクトを準備する。
新しい特徴値を定期的に計算する。

運用化されたトレーニングとは、モデルトレーニングを繰り返し、繰り返しの追跡、パフォーマンスの管理を行うプロセスを指します。Vertex AI Workbench ノートブックは、小規模なデータセットの反復開発を行う際に簡便に使用できますが、再現可能かつ大規模なデータセットに拡張できるように、コードを運用することをおすすめします。このセクションでは、トレーニングルーティンを運用化するためのツールとベストプラクティスについて説明します。

マネージドサービスでコードを実行する

Vertex AI Training サービスまたは Vertex AI Pipelines でコードを実行することをおすすめします。

必要に応じて、Deep Learning Virtual Machine のコンテナ内や Compute Engine 上でコードを直接実行できます。ただし、Vertex AI のマネージドサービスの方がより費用対効果に優れた自動スケーリングとバースト機能提供するため、この方法はおすすめしません。

トレーニングパイプラインを使用してジョブ実行を運用化する

Vertex AI でトレーニングジョブの実行を運用化するためのトレーニングパイプラインを作成します。トレーニングパイプラインは一般的な ML パイプラインとは異なり、トレーニングジョブをカプセル化します。トレーニングパイプラインの詳細については、トレーニングパイプラインの作成と REST リソース: projects.locations.trainingPipelines をご覧ください。

トレーニングのチェックポイントを使用して、テストの現在の状態を保存する

このドキュメントの ML ワークフローでは、インタラクティブにトレーニングしていないことを前提としています。モデルが失敗し、チェックポイントが設定されていない場合、モデルがメモリ内にないため、トレーニングジョブまたはパイプラインが終了し、データが失われます。この状況を回避するには、状態を失わないように常にトレーニングチェックポイントを使用するようにします。

トレーニングのチェックポイントを Cloud Storage に保存することをおすすめします。テストやトレーニングの実行ごとに異なるフォルダを作成します。

チェックポイントの詳細については、TensorFlow Core 用のトレーニングチェックポイント、PyTorch で一般的なチェックポイントを保存して読み込む、ML の設計パターンをご覧ください。

Cloud Storage でサービスを提供するモデルアーティファクトを準備する

カスタムトレーニングされたモデルまたはカスタムコンテナの場合は、本番環境で使用しているリージョンエンドポイントとリージョンが一致する Cloud Storage バケットにモデルアーティファクトを保存する必要があります。詳細については、バケットのリージョンをご覧ください。

Cloud Storage バケットを同じ Google Cloud プロジェクトに保存します。Cloud Storage バケットが別の Google Cloud プロジェクトにある場合、モデルアーティファクトを読み取るには、Vertex AI にアクセス権を付与する必要があります。

Vertex AI のビルド済みコンテナを使用する場合は、モデルアーティファクトのファイル名が以下の例と完全一致することを確認してください。

TensorFlow SavedModel: saved_model.pb
scikit-learn: model.joblib または model.pkl
XGBoost: model.bst
PyTorch: model.pth

1 つ以上のモデルアーティファクト形式でモデルを保存する方法については、予測に使用するモデルアーティファクトのエクスポートをご覧ください。

新しい特徴値を定期的に計算する

多くの場合、モデルでは、Vertex AI Feature Store から生成された特徴のサブセットが使用されます。Vertex AI Feature Store の特徴は、すでにオンラインサービングする準備ができています。データレイクからデータを取り込むことでデータサイエンティストが作成した新しい特徴については、対応するデータ処理と特徴量エンジニアリングジョブ（または Dataflow）をスケジューリングし、特徴の更新の必要性とオンラインサービス提供または一括サービス提供のための Vertex AI Feature Store への取り込みに基づいて、新しい特徴量を必要な頻度で計算することをおすすめします。

モデルのデプロイとサービング

ベストプラクティス:

必要なマシンの数とタイプを指定する。
モデルへの入力を計画する。
自動スケーリングをオンにする。

モデルのデプロイとサービングとは、モデルを本番環境に投入することです。トレーニングジョブの出力は Cloud Storage に保存された 1 つ以上のモデルアーティファクトです。このファイルを Vertex AI Model Registry にアップロードして、予測処理に使用できます。予測のサービス提供には次の 2 つのタイプがあります。バッチ予測ではデータのバッチを定期的にスコア付けし、オンライン予測はライブアプリケーションのほぼリアルタイムのスコア付けに使用します。どちらの方法でも、クラウドでホストされている ML モデルに入力データを渡し、各データインスタンスについて推定を取得することによって、トレーニングモデルから予測を取得できます。詳細については、バッチ予測の取得とカスタムトレーニングモデルからオンライン予測を取得するをご覧ください。

クライアントとモデルサーバー間のピアツーピアリクエストのレイテンシを短縮するには、Vertex AI プライベートエンドポイントを使用します。これらは、予測リクエストを行うアプリケーションとそのサービスを提供するバイナリが同じローカルネットワーク内にある場合に特に役立ちます。インターネットルーティングのオーバーヘッドを回避し、Virtual Private Cloud を使用してピアツーピア接続を確立できます。

必要なマシンの数とタイプを指定する

予測に使用するモデルをデプロイするには、さまざまな中央処理装置（CPU）の仮想マシン（VM）のタイプや画像処理装置（GPU）のタイプなど、モデルに適したハードウェアを選択します。詳細については、マシンタイプ、スケールティアの指定をご覧ください。

モデルへの入力を計画する

モデルをデプロイするだけでなく、入力をモデルに渡す方法を決定する必要があります。バッチ予測を使用している場合は、データレイクまたは Vertex AI Feature Store Batch Serving API からデータを取得できます。オンライン予測を使用している場合は、入力インスタンスをサービスに送信すると、レスポンスで予測が返されます。詳細については、レスポンス本文の詳細をご覧ください。

オンライン予測のためにモデルをデプロイする場合は、モデルのエンドポイントに渡す必要がある入力や特徴を提供するための低レイテンシでスケーラブルな方法が必要です。そのためには、多数の Google Cloud 上のデータベースサービスのいずれかを使用するか、Vertex AI Feature Store のオンラインサービス提供 API を使用します。オンライン予測エンドポイントを呼び出すクライアントは、特徴サービス提供ソリューションを呼び出して特徴の入力を取得し、それらの入力で予測エンドポイントを呼び出すことができます。

ストリーミング取り込みにより、特徴値をリアルタイムで更新できます。この方法は、オンラインサービングで最新の利用可能なデータを優先する場合に役立ちます。たとえば、ストリーミングイベントデータを取り込むことができ、数秒以内に Vertex AI Feature Store のストリーミング取り込みによってそのデータを、オンラインサービングのシナリオで使用できるようにします。

さらに、カスタム予測ルーチンを使用して、モデルサーバーとの間の入力（リクエスト）と出力（レスポンス）の処理やフォーマットをカスタマイズできます。

自動スケーリングをオンにする

オンライン予測サービスを使用する場合、ほとんどの場合は、最小ノード数と最大ノード数を指定して自動スケーリングを有効にすることをおすすめします。詳細については、カスタムトレーニングモデルの予測を取得するをご覧ください。高可用性のサービスレベル契約（SLA）を確保するには、少なくとも 2 つのノードで自動スケーリングを設定します。

スケーリングオプションの詳細については、ML 予測のスケーリングをご覧ください。

ML ワークフローオーケストレーション

ベストプラクティス:

Vertex AI Pipelines を使用して ML ワークフローをオーケストレートする。
柔軟なパイプライン構築のために Kubeflow Pipelines を使用する。

Vertex AI では、必要に応じて必要な頻度でモデルを再トレーニングできるフルマネージドサービスの Vertex AI Pipelines を使用して ML ワークフローを自動化する ML ワークフローオーケストレーションを提供します。再トレーニングを行うことで、モデルの変更に適応し、時間の経過に伴ってパフォーマンスを維持できますが、最適なモデルの再トレーニングサイクルの選択時にデータがどの程度変化するかを考慮してください。

ML オーケストレーションワークフローは、モデルを設計および構築し、本番環境に配置し、ML モデルで何が機能していて何が機能していないかを特定するお客様に最適です。テストに使用するコードは、ML ワークフローの他の箇所で一部を変更すると効果的です。自動化された ML ワークフローを操作するには、Python に精通し、コンテナなどの基本的なインフラストラクチャを理解し、ML とデータサイエンスの知識を持っていることが必要です。

Vertex AI Pipelines を使用して ML ワークフローをオーケストレートする

各データ処理、トレーニング、評価、テスト、デプロイを手動で開始することもできますが、Vertex AI Pipelines を使用してフローをオーケストレートすることをおすすめします。詳細については、MLOps レベル 1: ML パイプラインの自動化をご覧ください。

Vertex AI Pipelines は、KubeFlow、TensorFlow Extended（TFX）、Airflow によって生成された DAG の実行をサポートします。

柔軟なパイプライン構築のために Kubeflow Pipelines を使用する

Kubeflow Pipelines SDK は、マネージドパイプラインを作成するほとんどのユーザーに推奨されます。Kubeflow Pipelines は柔軟性が高く、シンプルなコードを使用してパイプラインを作成できます。さらに、Google Cloud Pipeline コンポーネントを提供しているため、AutoML などの Vertex AI 機能をパイプラインに組み込むことができます。Kubeflow Pipelines の詳細については、Kubeflow Pipelines と Vertex AI Pipelines をご覧ください。

アーティファクトの整理

ベストプラクティス:

ML モデルのアーティファクトを整理する。
パイプラインの定義とトレーニングコードにソース管理リポジトリを使用する。

アーティファクトは、ML ワークフローの各ステップから出力されます。標準化された方法で整理することをおすすめします。

ML モデルのアーティファクトを整理する

アーティファクトを次の場所に保存します。

ストレージのロケーション	アーティファクト
ソースコントロールリポジトリ	Vertex AI Workbench ノートブックパイプラインのソースコード前処理関数モデルのソースコードモデルトレーニングパッケージサービス提供関数
テストと ML メタデータ	テストパラメータハイパーパラメータメタパラメータ指標データセットアーティファクトモデルのアーティファクトパイプラインメタデータ
Vertex AI Model Registry	トレーニング済みモデル
Artifact Registry	パイプラインコンテナカスタムトレーニング環境カスタム予測環境
Vertex AI Prediction	デプロイされるモデル

パイプラインの定義とトレーニングコードのためにソース管理リポジトリを使用する

ソース管理を使用して、ML パイプラインとそれらのパイプライン用に構築するカスタムコンポーネントをバージョン管理できます。Artifact Registry を使用すると、Docker コンテナイメージを公開することなく、保存、管理、保護できます。

モデルのモニタリング

ベストプラクティス:

スキュー検出とドリフト検出を使用する。
アラートのしきい値を微調整する。
特徴アトリビューションを使用してデータドリフトやスキューを検出する。

モデルを本番環境にデプロイした後、パフォーマンスをモニタリングして、モデルが期待どおりに機能していることを確認する必要があります。Vertex AI では、次の 2 つの方法で ML モデルをモニタリングできます。

スキュー検出: この方法では、モデルのトレーニングと本番環境のデータの間の歪み度を確認します。
ドリフト検出: このタイプのモニタリングでは、本番環境データのブレを探します。ドリフトは、入力の統計特性と、モデルが予測しようとしているターゲットが、予期しないあり方で時間の経過とともに変化した場合に発生します。これによって、時間の経過とともに予測の精度が低下する可能性があるため、問題が発生します。

モデルのモニタリングは、数値特徴やカテゴリ特徴などの構造化データでは機能しますが、画像などの非構造化データに対しては機能しません。詳細については、モデルの特徴のスキューまたはドリフトのモニタリングをご覧ください。

スキュー検出とドリフト検出を使用する

できる限り、スキュー検出を使用してください。本番環境データがトレーニングデータから逸脱しているかどうかを知ることは、モデルが本番環境で想定どおりに機能しているかどうかを把握するのに大いに役立ちます。スキュー検出の場合は、モデルのトレーニングに使用したトレーニングデータへのポインタを指定して、モデルモニタリングジョブを設定します。

トレーニングデータへのアクセス権がない場合は、ドリフト検出を有効にして、時間の経過とともに入力が変化したときに通知されるようにします。

ドリフト検出を使用して、本番環境データが時間の経過とともに逸脱しているかどうかをモニタリングします。ドリフト検出の場合は、モニタリングする特徴と対応するしきい値を有効にして、アラートをトリガーします。

アラートのしきい値を微調整する

アラートに使用するしきい値を調整して、データにスキューやドリフトが発生したときに把握できるようにします。アラートのしきい値は、ユースケース、ユーザーの専門知識、初期モデルモニタリング指標によって決まります。モニタリングを使用してダッシュボードを作成する方法や、指標に基づいてアラートを構成する方法については、Cloud Monitoring の指標をご覧ください。

特徴アトリビューションを使用してデータドリフトやスキューを検出する

Vertex Explainable AI の特徴アトリビューションを使用して、モデル性能の低下の早期インジケーターとしてデータのドリフトまたはスキューを検出できます。たとえば、トレーニングデータとテストデータで予測を行うためにモデルが最初に 5 つの特徴を利用していたものの、本番環境に移行する際にまったく別の特徴を利用するようになった場合、モデル性能の低下を検出するために特徴アトリビューションが役立ちます。

これは特に、従来のスキュー法とドリフト法では比較するのが難しいエンベディングや時系列などの複雑な特徴タイプに有効です。Vertex Explainable AI を使用すると、特徴アトリビューションによって、モデル性能が低下しているかどうかを把握できます。

次のステップ

Vertex AI のドキュメント
MLOps の実践ガイド: ML における継続的デリバリーと自動化のフレームワーク
Google Cloud に関するリファレンスアーキテクチャ、図、ベストプラクティスを確認する。Cloud アーキテクチャセンターをご覧ください。

Google Cloud で ML を実装するためのベスト プラクティス

推奨されるツールとプロダクトを使用する

ML 環境の設定

テストと開発に Vertex AI Workbench ノートブックを使用する

チームメンバーごとにノートブック インスタンスを作成する

企業のポリシーに基づいて ML リソースとアーティファクトを保存する

Vertex AI SDK for Python を使用する

ML 開発

トレーニング データを準備する

構造化データと半構造化データを BigQuery に保存する

画像、動画、音声、非構造化データを Cloud Storage に保存する

非構造化データに Vertex AI Data Labeling を使用する

構造化データに Vertex AI Feature Store を使用する

ブロック ストレージにはデータを保存しない

Vertex AI TensorBoard と Vertex AI Experiments を使用してテストを分析する

ノートブック インスタンスの内部で小規模データセット用のモデルをトレーニングする。

ハイパーパラメータ チューニングを使用してモデルの予測精度を最大化する

ノートブック インスタンスを使用してモデルを理解する

特徴アトリビューションを使用してモデル予測の分析情報を取得する

データ処理

BigQuery を使用して構造化データと半構造化データを処理する

Dataflow を使用してデータを処理する

サーバーレス Spark データ処理に Dataproc を使用する

ML メタデータでマネージド データセットを使用する

運用化されたトレーニング

マネージド サービスでコードを実行する

トレーニング パイプラインを使用してジョブ実行を運用化する

トレーニングのチェックポイントを使用して、テストの現在の状態を保存する

Cloud Storage でサービスを提供するモデル アーティファクトを準備する

新しい特徴値を定期的に計算する

モデルのデプロイとサービング

必要なマシンの数とタイプを指定する

モデルへの入力を計画する

自動スケーリングをオンにする

ML ワークフロー オーケストレーション

Vertex AI Pipelines を使用して ML ワークフローをオーケストレートする

柔軟なパイプライン構築のために Kubeflow Pipelines を使用する

アーティファクトの整理

ML モデルのアーティファクトを整理する

パイプラインの定義とトレーニング コードのためにソース管理リポジトリを使用する

モデルのモニタリング

スキュー検出とドリフト検出を使用する

アラートのしきい値を微調整する

特徴アトリビューションを使用してデータドリフトやスキューを検出する

次のステップ

Google Cloud で ML を実装するためのベストプラクティス

チームメンバーごとにノートブックインスタンスを作成する

トレーニングデータを準備する

ブロックストレージにはデータを保存しない

ノートブックインスタンスの内部で小規模データセット用のモデルをトレーニングする。

ハイパーパラメータチューニングを使用してモデルの予測精度を最大化する

ノートブックインスタンスを使用してモデルを理解する

ML メタデータでマネージドデータセットを使用する

マネージドサービスでコードを実行する

トレーニングパイプラインを使用してジョブ実行を運用化する

Cloud Storage でサービスを提供するモデルアーティファクトを準備する

ML ワークフローオーケストレーション

パイプラインの定義とトレーニングコードのためにソース管理リポジトリを使用する