この古いバージョンの AI Platform Prediction は非推奨になりました。2025 年 1 月 31 日を過ぎると Google Cloud で使用できなくなります。2025 年 1 月 31 日以降、すべてのモデル、関連するメタデータ、デプロイが削除されます。リソースを Vertex AI に移行することで、AI Platform にはない新しい機械学習機能を利用できます。

カスタムコンテナの要件

カスタムコンテナを使用して予測を行うには、HTTP サーバーを実行する Docker コンテナイメージを使用する AI Platform Prediction を指定する必要があります。このドキュメントでは、AI Platform Prediction との互換性を確保するためにコンテナイメージが満たす必要がある要件について説明します。また、起動後に AI Platform Prediction がカスタムコンテナを処理する方法についても説明します。すなわち、このドキュメントでは、AI Platform Prediction で使用するコンテナイメージを設計する際に考慮する必要がある点について説明します。

カスタムコンテナイメージを使用して予測を行う方法については、カスタムコンテナの使用をご覧ください。

コンテナイメージの要件

Docker コンテナイメージがコンテナとして実行される場合、コンテナで HTTP サーバーを実行する必要があります。具体的には、コンテナで実行チェック、ヘルスチェック、予測リクエストをリッスンして応答する必要があります。以下のサブセクションでは、これらの要件について詳しく説明します。

このセクションの要件を満たしている限り、任意の方法で、任意のプログラミング言語を使用して HTTP サーバーを実装できます。たとえば、Flask などのウェブフレームワークを使用してカスタム HTTP サーバーを作成できます。または TensorFlow Serving、TorchServe、KFServing Server などの HTTP サーバーを実行する機械学習（ML）配信ソフトウェアを使用できます。

HTTP サーバーの実行

HTTP サーバーを実行するには、コンテナイメージのビルドに使用する Dockerfile で ENTRYPOINT の手順、CMD の手順、またはその両方を使用します。CMD と ENTRYPOINT の間のやり取りを確認してください。

または、コンテナイメージの ENTRYPOINT、CMD をそれぞれオーバーライドするために、モデルバージョンの作成時に containerSpec.command フィールドと containerSpec.args フィールドを指定できます。これらのフィールドのいずれかを指定すると、ENTRYPOINT または CMD と互換性がない（または存在しない）ために要件を満たしていないコンテナイメージを使用できるようになります。

ただし、コンテナの起動時に実行するコマンドを決めて、このエントリポイントコマンドを無期限で実行できるようにします。たとえば、バックグラウンドで HTTP サーバーを起動してから終了するコマンドを実行しないでください。このコマンドを実行すると、コンテナが起動後すぐに終了します。

HTTP サーバーで、任意のポートの 0.0.0.0 に対するリクエストをリッスンする必要があります。モデルバージョンの作成時に、containerSpec.ports フィールドでこのポートを指定します。コンテナでこの値にアクセスする方法については、このドキュメントの AIP_HTTP_PORT 環境変数のセクションをご覧ください。

実行チェック

AI Platform Prediction では、コンテナの起動時に実行チェックを行い、サーバーが動作していることを確認します。バージョン作成プロセスで、AI Platform Prediction は TCP 実行プローブを使用して、構成されたポートでコンテナへの TCP 接続を確立しようとします。このプローブは、接続の確立を最大 4 回試行します。失敗するたびに 10 秒間待機します。この時点でプローブが接続を確立していない場合、AI Platform Prediction がコンテナを再起動します。

HTTP サーバーで、これらのチェックを処理するために特別な動作を行う必要はありません。構成されたポートでリクエストをリッスンしている限り、実行プローブで接続を確立できます。

ヘルスチェック

AI Platform Prediction は HTTP サーバーでヘルスチェックを断続的に実行しながら、予測リクエストを処理する準備が整っていることを確認します。このサービスでは、ヘルスプローブを使用して、サーバー上の構成可能なヘルスチェックパスに HTTP GET リクエストを送信します。モデルバージョンの作成時に、このパスを routes.health フィールドで指定します。コンテナでこの値にアクセスする方法については、このドキュメントの AIP_HEALTH_ROUTE 環境変数のセクションをご覧ください。

HTTP サーバーは、次のように構成して各ヘルスチェックリクエストに応答するようにします。

サーバーで予測リクエストを処理する準備ができている場合、ヘルスチェックリクエストに対してステータスコード 200 OK を返します。レスポンスの本文の内容は関係ありません。AI Platform Prediction では無視されます。

このレスポンスは、サーバーが正常であることを示しています。
サーバーで予測リクエストを処理する準備ができていない場合は、ヘルスチェックリクエストに応答しないか、200 OK 以外のステータスコードを返します。たとえば、ステータスコード 503 Service Unavailable で応答します。

このレスポンスは、サーバーが異常であることを示しています。

ヘルスプローブでサーバーから異常レスポンスを受け取った場合は、最大 3 回の追加のヘルスチェックを 10 秒間隔で送信します。その間、AI Platform Prediction ではサーバーが正常だと見なされます。プローブでいずれかのチェックへの正常性を示すレスポンスを受け取った場合、プローブはすぐに断続的なヘルスチェックのスケジュールに戻ります。ただし、プローブで 4 つの連続した異常なレスポンスを受け取った場合、AI Platform Prediction はコンテナへの予測トラフィックのルーティングを停止します（複数の予測ノードを使用するようにモデルバージョンがスケーリングされている場合、AI Platform Prediction は他の正常なコンテナに予測リクエストをルーティングします）。

AI Platform Prediction はコンテナを再起動しません。代わりに、ヘルスプローブでは引き続き、断続的にヘルスチェックリクエストを異常なサーバーに送信します。正常なレスポンスを受信した場合、そのコンテナは正常とマークされ、予測トラフィックのルーティングが再開されます。

実践的なガイダンス

コンテナ内の HTTP サーバーで、ヘルスチェックに対して常にステータスコード 200 OK で応答するだけで十分な場合があります。サーバーの起動前にコンテナがリソースを読み込むと、起動中と HTTP サーバーで障害が発生したときに、コンテナが正常な状態でなくなります。それ以外の場合は、正常な状態としてレスポンスが返されます。

より高度な構成の場合は、特定の時間にヘルスチェックに異常ステータスで応答するように HTTP サーバーを設計することをおすすめします。たとえば、コンテナでメンテナンスを行えるように、ノードへの予測トラフィックを一定期間ブロックします。

予測リクエスト

クライアントが projects.predict リクエストを AI Platform Training と Prediction API に送信すると、AI Platform Prediction はこのリクエストを HTTP POST リクエストとしてサーバーの構成可能な予測パスに転送します。モデルバージョンの作成時に、このパスを routes.predict フィールドで指定します。コンテナでこの値にアクセスする方法については、このドキュメントの AIP_PREDICT_ROUTE 環境変数のセクションをご覧ください。

AI Platform Prediction では予測のリクエストとレスポンスを検証しません。それぞれの予測リクエストを変更せずにコンテナ内の HTTP サーバーに渡し、サーバーのレスポンスをクライアントに戻します。

各予測リクエストとレスポンスは 1.5 MB 以下にする必要があります。ただし、他のリクエスト本文の要件とレスポンス本文の要件を満たす必要はありません。これらの要件は、カスタムコンテナを使用しないモデルバージョンにのみ適用されます。カスタムコンテナを使用する場合、リクエストとレスポンスの本文を任意の形式にできます。

ただし、前述のリンクで説明されているリクエストとレスポンスの要件に従うように HTTP サーバーを設計することをおすすめします。この要件に従わない場合、AI Platform Prediction の他の機能（ロギング、モニタリング、AI Explanations など）が正しく機能することは保証されません。

コンテナイメージの公開要件

AI Platform Prediction で使用するために、コンテナイメージを Artifact Registry に push する必要があります。コンテナイメージを Artifact Registry に push する方法を確認します。

特に、次のロケーションと権限の要件を満たすリポジトリにコンテナイメージを push する必要があります。

ロケーション

リポジトリは、モデルバージョンを作成する予定のリージョンエンドポイントに一致するリージョンを使用する必要があります。たとえば、us-central1-ml.googleapis.com エンドポイントでモデルバージョンを作成する場合、コンテナイメージの完全な名前は us-central1-docker.pkg.dev/ で始まる必要があります。

マルチリージョンリポジトリは、コンテナイメージに使用しないでください。

権限

モデルバージョンの作成時に、AI Platform Prediction にコンテナイメージを pull する権限が必要です。具体的には、AI Platform の Google が管理するサービスアカウントに、コンテナイメージのリポジトリに対する Artifact Registry 読み取りロール（roles/artifactregistry.reader）の権限が必要です。

AI Platform Prediction を使用している Google Cloud プロジェクトにコンテナイメージを push している場合は、権限を構成する必要はありません。Google が管理するサービスアカウントに付与されているデフォルトの権限で十分です。

一方、AI Platform Prediction を使用しているプロジェクトとは別の Google Cloud プロジェクトにコンテナイメージを push した場合は、AI Platform の Google が管理するサービスアカウントに Artifact Registry リポジトリに対する Artifact Registry 読み取りロールを付与する必要があります。

モデルアーティファクトへのアクセス

カスタムコンテナなしでモデルバージョンを作成する場合は、モデルアーティファクトを使用して Cloud Storage ディレクトリの URI を deploymentUri フィールドとして指定する必要があります。カスタムコンテナを使用してモデルバージョンを作成する場合、Cloud Storage でのモデルアーティファクトの指定はオプションです。

予測に必要なモデルアーティファクトがコンテナイメージに含まれている場合は、Cloud Storage からファイルを読み込む必要はありません。ただし、deploymentUri フィールドを指定してモデルアーティファクトを指定する場合、コンテナで実行の開始時にそのアーティファクトを読み込む必要があります。AI Platform Prediction でのコンテナの起動時に AIP_STORAGE_URI 環境変数を、gs:// で始まる Cloud Storage URI に設定します。コンテナのエントリポイントコマンドでは、モデルのアーティファクトにアクセスするために、この URI で指定されたディレクトリをダウンロードできます。

AIP_STORAGE_URI 環境変数の値は、モデルバージョンの作成時に deploymentUri フィールドで指定した Cloud Storage URI と同じではありません。AIP_STORAGE_URI は、AI Platform Prediction が管理する別の Cloud Storage バケットにあるモデルアーティファクトディレクトリのコピーを指します。AI Platform Prediction は、モデルバージョンを作成するときにこのディレクトリに入力します。ディレクトリの内容を更新することはできません。新しいモデルアーティファクトを使用する場合は、新しいモデルバージョンを作成する必要があります。

コンテナがデフォルトで使用するサービスアカウントには、この URI からの読み取りが許可されています。一方、モデルバージョンの作成時にカスタムサービスアカウントを指定する場合、AI Platform Prediction で、指定されたサービスアカウントに URI の Cloud Storage バケットに対するストレージオブジェクト閲覧者（roles/storage.objectViewer）ロールが自動的に付与されます。

アプリケーションのデフォルト認証情報（ADC）がサポートされるライブラリを使用して、モデルアーティファクトを読み込みます。認証を明示的に構成する必要はありません。

コンテナで、AI Platform の Google が管理するサービスアカウント、またはカスタムサービスアカウント（指定した場合）に対する ADC がサポートされているため、サービスアカウントに権限が付与されている他の Google サービスにアクセスすることもできます。

コンテナで使用できる環境変数

実行中に、コンテナのエントリポイントコマンドで、手動で構成した環境変数と、AI Platform Prediction によって自動的に設定された環境変数を参照できます。このセクションでは、環境変数を設定する簡単な方法と、AI Platform Prediction によって自動的に設定される変数について詳しく説明します。

コンテナイメージで設定される変数

ビルド時にコンテナイメージ内で環境変数を設定するには、Docker の ENV の手順を使用します。接頭辞 AIP_ で始まる環境変数は設定しないでください。

コンテナのエントリポイントコマンドではこれらの環境変数を使用できますが、モデルバージョンの API フィールドで参照することはできません。

AI Platform Prediction によって設定される変数

AI Platform Prediction がコンテナの実行を開始すると、コンテナ環境で次の環境変数が設定されます。変数は接頭辞 AIP_ で始まります。この接頭辞を使用する環境変数は、手動で設定しないでください。

これらの変数には、コンテナの entrypoint コマンドでアクセスできます。また、これらの変数も参照できる AI Platform Training API と Prediction API のフィールドについては、ContainerSpec の API リファレンスをご覧ください。

変数名	デフォルト値	値の構成方法	詳細
AIP_ACCELERATOR_TYPE	設定解除	モデルバージョンの作成時に、`acceleratorConfig.type` フィールドを設定します。	この変数は、コンテナが動作している仮想マシン（VM）インスタンスによって使用されるアクセラレータのタイプを指定します。
AIP_FRAMEWORK	`CUSTOM_CONTAINER`	構成不可
AIP_HEALTH_ROUTE	`/v1/models/MODEL/versions/VERSION` この文字列では、`MODEL` を `AIP_MODEL_NAME` 変数の値に置き換え、`VERSION` を `AIP_VERSION_NAME` 変数の値に置き換えます。	モデルバージョンの作成時に、`routes.health` フィールドを設定します。	この変数は、AI Platform Prediction でヘルスチェックを送信するコンテナの HTTP パスを指定します。
AIP_HTTP_PORT	`8080`	モデルバージョンの作成時に、`containerSpec.ports` フィールドを設定します。このフィールドの最初のエントリは、`AIP_HTTP_PORT` の値になります。	AI Platform Prediction で、実行チェック、ヘルスチェック、予測リクエストがコンテナのこのポートに送信されます。コンテナの HTTP サーバーで、このポートでリクエストをリッスンする必要があります。
AIP_MACHINE_TYPE	デフォルトはありません。構成する必要があります	モデルバージョンの作成時に、`machineType` フィールドを設定します。	この変数は、コンテナが実行されている VM のタイプを指定します。
AIP_MODE	`PREDICTION`	構成不可	この変数は、オンライン予測のために AI Platform Prediction 上でコンテナが実行されていることを示します。この環境変数を使用すると、カスタムロジックをコンテナに追加して、複数のコンピューティング環境で実行できます。ただし、AI Platform Prediction での実行時に特定のコードパスのみを使用してください。
AIP_MODE_VERSION	`1.0.0`	構成不可	この変数は、AI Platform Prediction でコンテナが満たしているとされるカスタムコンテナの要件（このドキュメント）のバージョンを示します。このドキュメントは、セマンティックバージョニングに従って更新されます。
AIP_MODEL_NAME	デフォルトはありません。構成する必要があります	モデル（コンテナを使用するモデルバージョンの親）の作成時に、`name` フィールドを指定します。	この値には、AI Platform Training と Prediction API で出力される `projects/PROJECT_ID/models/` 接頭辞は含まれません。
AIP_PREDICT_ROUTE	`/v1/models/MODEL/versions/VERSION:predict` この文字列では、`MODEL` を `AIP_MODEL_NAME` 変数の値に置き換え、`VERSION` を `AIP_VERSION_NAME` 変数の値に置き換えます。	モデルバージョンの作成時に、`routes.predict` フィールドを設定します。	この変数では、AI Platform Prediction で予測リクエストを転送するコンテナの HTTP パスを指定します。
AIP_PROJECT_NUMBER	AI Platform Prediction を使用している Google Cloud プロジェクトのプロジェクト番号	構成不可
AIP_STORAGE_URI	モデルバージョンの作成時に `deploymentUri` フィールドを設定しない場合: 空の文字列モデルバージョンの作成時に `deploymentUri` フィールドを設定する場合: AI Platform Prediction で管理されるバケット内のディレクトリを指定する Cloud Storage の URI（`gs://` で始まる）	構成不可	この変数では、モデルアーティファクトのコピーが含まれるディレクトリを指定します（該当する場合）。
AIP_VERSION_NAME	デフォルトはありません。構成する必要があります	モデルバージョンの作成時に、`name` フィールドを設定します。	この値には、AI Platform Training と Prediction API で出力される `projects/PROJECT_ID/models/MODEL/versions/` 接頭辞は含まれません。

バージョンリソースで設定される変数

モデルバージョンの作成時に、container.env フィールドで追加の環境変数を設定できます。

次のステップ

カスタムコンテナを使用して予測を行う方法を学習する。
特定のカスタムコンテナを使用して予測を試行する場合について、PyTorch の予測の提供に関するチュートリアルで確認する。