プロビジョンド スループットを使用する

このページでは、超過料金を管理する方法、プロビジョニングされたスループットをバイパスする方法、プロビジョニングされたスループットの使用状況をモニタリングする方法について説明します。

過剰な使用を制御するか、プロビジョンド スループットをバイパスする

購入したスループットを超過した場合の超過料金を管理したり、リクエストごとにプロビジョニングされたスループットをバイパスするには、REST API を使用します。

各オプションを確認して、ユースケースに何が必要かを判断してください。

デフォルトの動作

購入したスループット量を超えると、超過分はオンデマンドに移行し、従量課金制のレートで請求されます。プロビジョニングされたスループットの注文が有効になると、デフォルトの動作が自動的に適用されます。注文の使用を開始するためにコードを変更する必要はありません。

次の curl の例は、デフォルトの動作を示しています。

! curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  $URL \
  -d '{"contents": [{"role": "user", "parts": [{"text": "Hello."}]}]}'

プロビジョニングされたスループットのみを使用する

オンデマンド料金を回避して費用を管理する場合は、プロビジョニングされたスループットのみを使用します。プロビジョニングされたスループットの注文量を超えるリクエストは、エラー 429 を返します。

次の curl の例は、REST API を使用してプロビジョニングされたスループットのサブスクリプションのみを使用し、超過分に対してエラー 429 を返す方法を示しています。

X-Vertex-AI-LLM-Request-Type ヘッダーを dedicated に設定します。

! curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  -H "X-Vertex-AI-LLM-Request-Type: dedicated" \
  $URL \
  -d '{"contents": [{"role": "user", "parts": [{"text": "Hello."}]}]}'

従量課金制のみを使用する

これは、オンデマンドを使用する場合にも該当します。リクエストは、プロビジョニングされたスループットの注文をバイパスして、従量課金制に直接送信されます。これは、テストや開発中のアプリケーションに役立ちます。

次の curl の例は、REST API を使用してプロビジョニングされたスループットをバイパスし、従量課金制のみを使用する方法を示しています。

X-Vertex-AI-LLM-Request-Type ヘッダーを shared に設定します。

! curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  -H "X-Vertex-AI-LLM-Request-Type: shared" \
  $URL \
  -d '{"contents": [{"role": "user", "parts": [{"text": "Hello."}]}]}'

プロビジョニングされたスループットをモニタリングする

プロビジョニングされたスループットの使用状況は、モニタリング指標とリクエストごとにモニタリングできます。

レスポンス ヘッダー

プロビジョニングされたスループットを使用してリクエストが処理されると、レスポンスに次の HTTP ヘッダーが含まれます。このコード行は generateContent API 呼び出しにのみ適用されます。

  {"X-Vertex-AI-LLM-Request-Type": "dedicated"}

指標

プロビジョニングされたスループットは、aiplatform.googleapis.com/PublisherModel リソースタイプで測定される指標のセットを使用してモニタリングできます。各指標は、次のディメンションでフィルタできます。

  • type: inputoutput
  • request_type: dedicatedshared

指標をフィルタしてプロビジョニングされたスループットの使用状況を表示するには、dedicated リクエスト タイプを使用します。指標のパスの接頭辞は aiplatform.googleapis.com/publisher/online_serving です。

たとえば、/consumed_throughput 指標のフルパスは aiplatform.googleapis.com/publisher/online_serving/consumed_throughput です。

Gemini モデルの aiplatform.googleapis.com/PublisherModel リソースでは、次の Cloud Monitoring 指標を使用できます。これらの指標には、プロビジョニングされたスループットの使用状況のフィルタがあります。

指標 表示名 説明
/characters 文字 入力と出力の文字数分布。
/character_count 文字数 入力と出力の累積文字数。
/consumed_throughput 文字スループット 使用されたスループットの文字数(バーンダウン率を考慮)。
/model_invocation_count モデルの呼び出し回数 モデル呼び出しの数(予測リクエスト)。
/model_invocation_latencies モデル呼び出しのレイテンシ モデル呼び出しのレイテンシ(予測レイテンシ)。
/first_token_latencies 最初のトークンのレイテンシ リクエストを受信してから最初のトークンが返されるまでの時間。
/tokens トークン 入出力トークン数の分布。
/token_count トークン数 入力トークンと出力トークンの累積数。

Anthropic モデルには、プロビジョニングされたスループットのフィルタもありますが、tokens/token_count にのみ適用されます。

次のステップ