プライベート エンドポイントを使用して Vertex AI でオンライン予測を処理すると、Vertex AI オンライン予測サービスとの接続を完全かつ低レイテンシで行うことができます。このガイドでは、VPC ネットワーク ピアリングを使用して Vertex AI オンライン予測サービスとネットワークをピアリングすることで、Vertex AI でプライベート エンドポイントを構成する方法について説明します。
概要
プライベート エンドポイントを使用してオンライン予測を行う前に、お使いのネットワークと Vertex AI の間でピアリング接続を確立するようにプライベート サービス アクセスを構成する必要があります。すでに設定している場合は、既存のピアリング接続を使用できます。
このガイドでは、次のタスクについて説明します。
- 既存のピアリング接続のステータスを確認する。
- 必要な API が有効になっていることを確認する。
- プライベート エンドポイントを作成する。
- プライベート エンドポイントにモデルをデプロイする。
- プライベート エンドポイントごとに 1 つのモデルのみがサポートされます。これは、1 つのエンドポイントにデプロイされた複数のモデル間でトラフィックを分割できる Vertex AI パブリック エンドポイントとは異なります。
- プライベート エンドポイントは、AutoML 表形式モデルとカスタム トレーニング モデルをサポートしています。
- プライベート エンドポイントに予測を送信する。
- リソースをクリーンアップする
既存のピアリング接続のステータスを確認する
Vertex AI で使用しているピアリング接続がすでに存在する場合は、それらのリストを取得してステータスを確認できます。
gcloud compute networks peerings list --network NETWORK_NAME
ピアリング接続の状態が ACTIVE
になっているはずです。詳しくは、アクティブなピアリング接続をご覧ください。
必要な API を有効にする
gcloud services enable aiplatform.googleapis.com
gcloud services enable dns.googleapis.com
プライベート エンドポイントを作成する
プライベート エンドポイントを作成するには、Google Cloud CLI を使用してエンドポイントを作成するときに --network
フラグを追加します。
gcloud beta ai endpoints create \
--display-name=ENDPOINT_DISPLAY_NAME \
--network=FULLY_QUALIFIED_NETWORK_NAME \
--region=REGION
NETWORK_NAME は、完全修飾ネットワーク名に置き換えます。
projects/PROJECT_NUMBER/global/networks/NETWORK_NAME
ネットワークを指定せずにエンドポイントを作成する場合は、パブリック エンドポイントを作成します。
プライベート エンドポイントの制限事項
プライベート エンドポイントには次の制限事項があります。
- プライベート エンドポイントはトラフィック分割をサポートしていません。回避策として、複数のプライベート エンドポイントにモデルをデプロイして、各プライベート エンドポイントで生成された予測 URL 間でトラフィックを分割することで、トラフィック分割を手動で作成できます。
- プライベート エンドポイントは SSL/TLS をサポートしていません。
- プライベート エンドポイントでアクセス ロギングを有効にする場合は、vertex-ai-feedback@google.com までご連絡ください。
- 1 つの Google Cloud プロジェクトで、すべてのプライベート エンドポイントに使用できるネットワークは 1 つだけです。別のネットワークに変更する場合は、
vertex-ai-feedback@google.com
にお問い合わせください。 - 回復可能なエラーの場合は、クライアント側での再試行を強くおすすめします。たとえば、次のようなエラーが考えられます。
- 空のレスポンス(HTTP エラーコード
0
)。接続が一時的に切断された可能性があります。 - サービスが一時的に利用できない可能性があることを示す HTTP エラーコード
5xx
。
- 空のレスポンス(HTTP エラーコード
- システムが現在過負荷になっていることを示す HTTP エラーコード
429
の場合は、再試行ではなく、トラフィックの速度を遅くすることを検討してください。 - Vertex AI Python クライアント ライブラリの
PredictionServiceClient
からの予測リクエストはサポートされていません。 - 限定公開サービス アクセス エンドポイントは、チューニング済みの基盤モデルをサポートしていません。チューニング済みの基盤モデルの場合は、Private Service Connect エンドポイントを使用してデプロイします。
プライベート エンドポイントをモニタリングする
指標ダッシュボードを使用すると、プライベート エンドポイントに送信されたトラフィックの可用性とレイテンシを調べることができます。
モニタリングをカスタマイズするには、Cloud Monitoring で次の指標をクエリします。
aiplatform.googleapis.com/prediction/online/private/response_count
予測レスポンスの数。この指標は、
deployed_model_id
または HTTP レスポンス コードでフィルタできます。aiplatform.googleapis.com/prediction/online/private/prediction_latencies
予測リクエストのレイテンシ(ミリ秒単位)。この指標は、成功したリクエストに対してのみ
deployed_model_id
でフィルタできます。
Metrics Explorer でこれらの指標を選択、クエリ、表示する方法をご確認ください。
モデルをデプロイする
新しいモデルをインポートすることも、すでにアップロードされている既存のモデルをデプロイすることもできます。新しいモデルをアップロードするには、gcloud ai models upload
を使用します。詳細については、Vertex AI にモデルをインポートするをご覧ください。
プライベート エンドポイントにモデルをデプロイするには、モデルをデプロイするに関するガイドをご覧ください。トラフィック分割と手動でのアクセス ロギングの有効化に加えて、カスタム トレーニング モデルのデプロイで他のオプションも使用できます。パブリック エンドポイントとの違いについては、プライベート エンドポイントの制限事項をご覧ください。
エンドポイントをデプロイすると、プライベート エンドポイントのメタデータから予測 URI を取得できます。
プライベート エンドポイントの表示名がわかっている場合は、次のコマンドを実行してエンドポイント ID を取得します。
ENDPOINT_ID=$(gcloud ai endpoints list \ --region=REGION \ --filter=displayName:ENDPOINT_DISPLAY_NAME \ --format="value(ENDPOINT_ID.scope())")
すべてのエンドポイントの ID と表示名を確認するには、次のコマンドを実行します。
gcloud ai endpoints list --region=REGION
最後に、次のコマンドを実行して、予測 URI を取得します。
gcloud beta ai endpoints describe ENDPOINT_ID \ --region=REGION \ --format="value(deployedModels.privateEndpoints.predictHttpUri)"
プライベート予測 URI の形式
プライベート エンドポイントと Vertex AI パブリック エンドポイントでは、予測 URI が異なります。
http://ENDPOINT_ID.aiplatform.googleapis.com/v1/models/DEPLOYED_MODEL_ID:predict
現在のモデルのデプロイを解除して新しいモデルで再デプロイすると、ドメイン名は再利用されますが、デプロイされた別のモデル ID がパスに含まれます。
プライベート エンドポイントに予測を送信する
VPC ネットワーク内に Compute Engine インスタンスを作成します。Vertex AI とピアリングした VPC ネットワークにインスタンスを作成します。
Compute Engine インスタンスに SSH で接続し、予測クライアントをインストールします(該当する場合)。それ以外の場合は、curl を使用できます。
予測を行うときに、モデルのデプロイから取得した予測 URL を使用します。この例では、同じ VPC ネットワーク内にある Compute Engine インスタンスの予測クライアントからリクエストを送信します。
curl -X POST -d@PATH_TO_JSON_FILE http://ENDPOINT_ID.aiplatform.googleapis.com/v1/models/DEPLOYED_MODEL_ID:predict
このサンプル リクエストでは、PATH_TO_JSON_FILE は予測リクエストのパスで、JSON ファイルとして保存されます。例:
example-request.json
リソースのクリーンアップ
パブリック モデルやエンドポイントの場合と同じ方法で、モデルのデプロイ解除とプライベート エンドポイントの削除を行うことができます。
例: 共有 VPC でのプライベート エンドポイントのテスト
この例では、共有 VPC ネットワークを持つ 2 つの Google Cloud プロジェクトを使用します。
- ホスト プロジェクトには共有 VPC ネットワークをホストします。
- クライアント プロジェクトには Compute Engine インスタンスをホストします。この Compute Engine インスタンスで予測クライアント(curl など)または独自の REST クライアントを実行して、予測リクエストを送信します。
クライアント プロジェクトに Compute Engine インスタンスを作成する場合は、ホスト プロジェクトの共有 VPC ネットワークのカスタム サブネット内にあり、モデルがデプロイされるリージョンに配置する必要があります。
ホスト プロジェクトでプライベート サービス アクセス用のピアリング接続を作成します。
gcloud services vpc-peerings connect
を実行します。gcloud services vpc-peerings connect \ --service=servicenetworking.googleapis.com \ --network=HOST_SHARED_VPC_NAME \ --ranges=PREDICTION_RESERVED_RANGE_NAME \ --project=HOST_PROJECT_ID
ホスト プロジェクトのネットワーク名を使用して、クライアント プロジェクトにエンドポイントを作成します。
gcloud beta ai endpoints create
を実行します。gcloud beta ai endpoints create \ --display-name=ENDPOINT_DISPLAY_NAME \ --network=HOST_SHARED_VPC_NAME \ --region=REGION \ --project=CLIENT_PROJECT_ID
クライアント プロジェクト内で予測クライアントを使用して、予測リクエストを送信します。