デプロイ間でリソースを共有する

Vertex AI モデルは、デフォルトで独自の仮想マシン（VM）インスタンスにデプロイされます。Vertex AI は同じ VM 上でモデルを共同ホスティングでき、次のようなメリットがあります。

複数のデプロイ間でのリソース共有。
費用対効果の高いモデルサービング。
メモリと計算リソースの使用率の改善。

このガイドでは、Vertex AI の複数のデプロイでリソースを共有する方法について説明します。

概要

モデルの共同ホスティングのサポートには DeploymentResourcePool のコンセプトが導入されています。これにより、単一の VM 内のリソースを共有するモデルのデプロイをグループ化します。複数のエンドポイントを DeploymentResourcePool 内の同じ VM にデプロイできます。各エンドポイントには 1 つ以上のモデルがデプロイされます。特定のエンドポイントにデプロイされたモデルは、同じまたは異なる DeploymentResourcePool にグループ化できます。

次の例では、4 つのモデルと 2 つのエンドポイントがあります。

Model_A、Model_B、Model_C は、Endpoint_1 にデプロイされ、これらのすべてにトラフィックがルーティングされます。Model_D は Endpoint_2 にデプロイされます。これは、そのエンドポイントのトラフィックをすべて受信します。各モデルを別々の VM に割り当てる代わりに、次のいずれかの方法でモデルをグループ化できます。

Model_A と Model_B をグループ化して VM を共有し、DeploymentResourcePool_X の一部にします。
Model_C と Model_D（現時点で同じエンドポイントにない）をグループ化して VM を共有し、DeploymentResourcePool_Y の一部にします。

異なるデプロイリソースプールが VM を共有することはできません。

考慮事項

1 つのデプロイリソースプールにデプロイできるモデルの数に上限はありません。選択した VM シェイプ、モデルサイズ、トラフィックパターンによって異なります。共同ホスティングは、低トラフィックで多くのデプロイ済みモデルを使用している場合に有効に機能するため、各デプロイ済みモデルに専用マシンを割り当てると、リソースを効果的に利用することができません。

同じデプロイリソースプールにモデルを同時にデプロイできます。ただし、同時に実施できるデプロイリクエストの数は 20 までです。

空のデプロイリソースプールは、リソースの割り当てを消費しません。リソースは、最初のモデルがデプロイされるとデプロイリソースプールにプロビジョニングされ、最後のモデルがデプロイ解除されると解放されます。

単一のデプロイリソースプール内のモデルは互いに分離されておらず、CPU とメモリの競合が発生する可能性があります。別のモデルが推論リクエストを同時に処理している場合、1 つのモデルのパフォーマンスが低下する可能性があります。

制限事項

リソース共有を有効にしてモデルをデプロイする場合、次の制限があります。

この機能は、次の構成でのみサポートされています。
- TensorFlow のビルド済みコンテナを使用する TensorFlow モデルのデプロイ
- PyTorch のビルド済みコンテナを使用する PyTorch モデルのデプロイ
その他のモデルのフレームワークとカスタムコンテナはサポートされていません。
カスタムトレーニング済みモデルとインポートされたモデルのみがサポートされています。AutoML モデルはサポートされていません。
同じデプロイリソースプールでデプロイできるのは、TensorFlow または PyTorch の予測用の Vertex AI ビルド済みコンテナの同じコンテナイメージ（フレームワークバージョンを含む）を使用するモデルのみです。
Vertex Explainable AI はサポートされていません。

モデルをデプロイ

モデルを DeploymentResourcePool にデプロイするには、次の操作を行います。

必要に応じて、デプロイリソースプールを作成します。
必要に応じてエンドポイントを作成します。
エンドポイント ID を取得します。
デプロイリソースプールのエンドポイントにモデルをデプロイします。

デプロイリソースプールを作成する

既存の DeploymentResourcePool にモデルをデプロイする場合は、この手順をスキップします。

CreateDeploymentResourcePool を使用してリソースプールを作成します。

Cloud コンソール

Google Cloud コンソールで、Vertex AI の [Deployment リソースプール] ページに移動します。

Deployment リソースプールに移動
[作成] をクリックし、フォームに入力します（下を参照）。

REST

リクエストのデータを使用する前に、次のように置き換えます。

LOCATION_ID: Vertex AI を使用するリージョン。
PROJECT_ID: 実際のプロジェクト ID。
MACHINE_TYPE: 省略可。このデプロイの各ノードで使用するマシンリソース。デフォルトの設定は n1-standard-2 です。マシンタイプの詳細をご覧ください。
ACCELERATOR_TYPE: マシンに接続するアクセラレータのタイプ。ACCELERATOR_COUNT が指定されていない場合、またはゼロの場合は省略できます。AutoML モデルや、GPU 以外のイメージを使用するカスタムトレーニングモデルでは、推奨されません。詳細。
ACCELERATOR_COUNT: 各レプリカで使用するアクセラレータの数。省略可。GPU 以外のイメージを使用する AutoML モデルまたはカスタムトレーニングモデルの場合、0 を指定するか何も指定しないかのどちらかにしてください。
MIN_REPLICA_COUNT: このデプロイの最小ノード数。ノード数は、予測負荷に応じてノードの最大数まで増減できますが、この数より少なくすることはできません。1 以上の値を指定してください。
MAX_REPLICA_COUNT: このデプロイの最大ノード数。ノード数は、予測負荷に応じてこのノード数まで増減できますが、最小ノード数より少なくなることはありません。
DEPLOYMENT_RESOURCE_POOL_ID: DeploymentResourcePool の名前。最大文字数は 63 文字で、有効な文字は /^[a-z]([a-z0-9-]{0,61}[a-z0-9])?$/ です。

HTTP メソッドと URL:

POST https://LOCATION_ID-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION_ID/deploymentResourcePools

リクエストの本文（JSON）:

{
  "deploymentResourcePool":{
    "dedicatedResources":{
      "machineSpec":{
        "machineType":"MACHINE_TYPE",
        "acceleratorType":"ACCELERATOR_TYPE",
        "acceleratorCount":"ACCELERATOR_COUNT"
      },
      "minReplicaCount":MIN_REPLICA_COUNT, 
      "maxReplicaCount":MAX_REPLICA_COUNT
    }
  },
  "deploymentResourcePoolId":"DEPLOYMENT_RESOURCE_POOL_ID"
}

リクエストを送信するには、次のいずれかのオプションを展開します。

curl（Linux、macOS、Cloud Shell）

注: 次のコマンドは、gcloud init または gcloud auth login を実行して、ユーザーアカウントで gcloud CLI にログインしているか、Cloud Shell を使用して自動的に gcloud CLI にログインしていることを前提としています。gcloud auth list を実行すると、現在アクティブなアカウントを確認できます。

リクエスト本文を request.json という名前のファイルに保存して、次のコマンドを実行します。

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://LOCATION_ID-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION_ID/deploymentResourcePools"

PowerShell（Windows）

注: 次のコマンドは、gcloud init または gcloud auth login を実行して、ご自分のユーザーアカウントで gcloud CLI にログインしていることを前提としています。gcloud auth list を実行すると、現在アクティブなアカウントを確認できます。

リクエスト本文を request.json という名前のファイルに保存して、次のコマンドを実行します。

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION_ID-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION_ID/deploymentResourcePools" | Select-Object -Expand Content

次のような JSON レスポンスが返されます。

{
  "name": "projects/PROJECT_NUMBER/locations/LOCATION_ID/deploymentResourcePools/DEPLOYMENT_RESOURCE_POOL_ID/operations/OPERATION_ID",
  "metadata": {
    "@type": "type.googleapis.com/google.cloud.aiplatform.v1.CreateDeploymentResourcePoolOperationMetadata",
    "genericMetadata": {
      "createTime": "2022-06-15T05:48:06.383592Z",
      "updateTime": "2022-06-15T05:48:06.383592Z"
    }
  }
}

レスポンスに "done": true が表示されるまで、オペレーションのステータスをポーリングできます。

Python

# Create a deployment resource pool.
deployment_resource_pool = aiplatform.DeploymentResourcePool.create(
    deployment_resource_pool_id="DEPLOYMENT_RESOURCE_POOL_ID",  # User-specified ID
    machine_type="MACHINE_TYPE",  # Machine type
    min_replica_count=MIN_REPLICA_COUNT,  # Minimum number of replicas
    max_replica_count=MAX_REPLICA_COUNT,  # Maximum number of replicas
)

次のように置き換えます。

DEPLOYMENT_RESOURCE_POOL_ID: DeploymentResourcePool の名前。最大文字数は 63 文字で、有効な文字は /^[a-z]([a-z0-9-]{0,61}[a-z0-9])?$/ です。
MACHINE_TYPE: 省略可。このデプロイの各ノードで使用するマシンリソース。デフォルト値は n1-standard-2 です。マシンタイプの詳細をご覧ください。
MIN_REPLICA_COUNT: このデプロイの最小ノード数。ノード数は、予測負荷に応じてノードの最大数まで増減できますが、この数より少なくすることはできません。1 以上の値を指定してください。
MAX_REPLICA_COUNT: このデプロイの最大ノード数。ノード数は、予測負荷に応じてこのノード数まで増減できますが、最小ノード数より少なくなることはありません。

エンドポイントを作成する

エンドポイントを作成するには、エンドポイントにモデルをデプロイするをご覧ください。この手順は、単一モデルのデプロイと同じです。

エンドポイント ID を取得する

エンドポイント ID を取得するには、エンドポイントにモデルをデプロイするをご覧ください。この手順は、単一モデルのデプロイと同じです。

デプロイリソースプールにモデルをデプロイする

DeploymentResourcePool とエンドポイントを作成したら、DeployModel API メソッドを使用してデプロイできる状態になります。このプロセスは、単一モデルのデプロイに似ています。DeploymentResourcePool が存在する場合は、デプロイする DeploymentResourcePool のリソース名を指定して DeployModel の shared_resources を指定します。

Cloud コンソール

Google Cloud コンソールで、Vertex AI の [Model Registry] ページに移動します。

[Model Registry] に移動
モデルを見つけて、[エンドポイントにデプロイ] をクリックします。
[モデル設定]（下を参照）で、[共有デプロイリソースプールへのデプロイ] を選択します。

REST

リクエストのデータを使用する前に、次のように置き換えます。

LOCATION_ID: Vertex AI を使用するリージョン。
PROJECT: 実際のプロジェクト ID。
ENDPOINT_ID: エンドポイントの ID。
MODEL_ID: デプロイするモデルの ID。
DEPLOYED_MODEL_NAME: DeployedModel の名前。DeployedModel の Model の表示名を使用することもできます。
DEPLOYMENT_RESOURCE_POOL_ID: DeploymentResourcePool の名前。最大文字数は 63 文字で、有効な文字は /^[a-z]([a-z0-9-]{0,61}[a-z0-9])?$/ です。
TRAFFIC_SPLIT_THIS_MODEL: このオペレーションでデプロイするモデルにルーティングされる、このエンドポイントへの予測トラフィックの割合。デフォルトは 100 です。すべてのトラフィックの割合の合計は 100 になる必要があります。トラフィック分割の詳細
DEPLOYED_MODEL_ID_N: 省略可。他のモデルがこのエンドポイントにデプロイされている場合は、すべての割合の合計が 100 になるように、トラフィック分割の割合を更新する必要があります。
TRAFFIC_SPLIT_MODEL_N: デプロイされたモデル ID キーのトラフィック分割の割合値。
PROJECT_NUMBER: プロジェクトに自動生成されたプロジェクト番号

HTTP メソッドと URL:

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/endpoints/ENDPOINT_ID:deployModel

リクエストの本文（JSON）:

{
  "deployedModel": {
    "model": "projects/PROJECT/locations/us-central1/models/MODEL_ID",
    "displayName": "DEPLOYED_MODEL_NAME",
    "sharedResources":"projects/PROJECT/locations/us-central1/deploymentResourcePools/DEPLOYMENT_RESOURCE_POOL_ID"
  },
  "trafficSplit": {
    "0": TRAFFIC_SPLIT_THIS_MODEL,
    "DEPLOYED_MODEL_ID_1": TRAFFIC_SPLIT_MODEL_1,
    "DEPLOYED_MODEL_ID_2": TRAFFIC_SPLIT_MODEL_2
  },
}

リクエストを送信するには、次のいずれかのオプションを展開します。

curl（Linux、macOS、Cloud Shell）

リクエスト本文を request.json という名前のファイルに保存して、次のコマンドを実行します。

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/endpoints/ENDPOINT_ID:deployModel"

PowerShell（Windows）

リクエスト本文を request.json という名前のファイルに保存して、次のコマンドを実行します。

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/endpoints/ENDPOINT_ID:deployModel" | Select-Object -Expand Content

次のような JSON レスポンスが返されます。

{
  "name": "projects/PROJECT_NUMBER/locations/LOCATION/endpoints/ENDPOINT_ID/operations/OPERATION_ID",
  "metadata": {
    "@type": "type.googleapis.com/google.cloud.aiplatform.v1.DeployModelOperationMetadata",
    "genericMetadata": {
      "createTime": "2022-06-19T17:53:16.502088Z",
      "updateTime": "2022-06-19T17:53:16.502088Z"
    }
  }
}

Python

# Deploy model in a deployment resource pool.
model = aiplatform.Model("MODEL_ID")
model.deploy(deployment_resource_pool=deployment_resource_pool)

MODEL_ID は、デプロイするモデルの ID に置き換えます。

同じ共有リソースを持つ異なるモデルに対して上記のリクエストを繰り返し、複数のモデルを同じデプロイリソースプールにデプロイします。

予測を取得する

Vertex AI にデプロイされた他のモデルに対して行う場合と同様に、DeploymentResourcePool のモデルに予測リクエストを送信できます。

デプロイ間でリソースを共有する コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

概要

考慮事項

制限事項

モデルをデプロイ

デプロイ リソース プールを作成する

Cloud コンソール

REST

curl（Linux、macOS、Cloud Shell）

PowerShell（Windows）

Python

エンドポイントを作成する

エンドポイント ID を取得する

デプロイ リソース プールにモデルをデプロイする

Cloud コンソール

REST

curl（Linux、macOS、Cloud Shell）

PowerShell（Windows）

Python

予測を取得する

デプロイ間でリソースを共有する

デプロイリソースプールを作成する

デプロイリソースプールにモデルをデプロイする