このページでは、超過料金を管理する方法、プロビジョニングされたスループットをバイパスする方法、プロビジョニングされたスループットの使用状況をモニタリングする方法について説明します。
過剰な使用を制御するか、プロビジョンド スループットをバイパスする
購入したスループットを超過した場合の超過料金を管理したり、リクエストごとにプロビジョニングされたスループットをバイパスするには、REST API を使用します。
各オプションを確認して、ユースケースに何が必要かを判断してください。
デフォルトの動作
購入したスループット量を超えると、超過分はオンデマンドに移行し、従量課金制のレートで請求されます。プロビジョニングされたスループットの注文が有効になると、デフォルトの動作が自動的に適用されます。注文の使用を開始するためにコードを変更する必要はありません。
次の curl の例は、デフォルトの動作を示しています。
! curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
$URL \
-d '{"contents": [{"role": "user", "parts": [{"text": "Hello."}]}]}'
プロビジョニングされたスループットのみを使用する
オンデマンド料金を回避して費用を管理する場合は、プロビジョニングされたスループットのみを使用します。プロビジョニングされたスループットの注文量を超えるリクエストは、エラー 429 を返します。
次の curl の例は、REST API を使用してプロビジョニングされたスループットのサブスクリプションのみを使用し、超過分に対してエラー 429 を返す方法を示しています。
X-Vertex-AI-LLM-Request-Type
ヘッダーを dedicated
に設定します。
! curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
-H "X-Vertex-AI-LLM-Request-Type: dedicated" \
$URL \
-d '{"contents": [{"role": "user", "parts": [{"text": "Hello."}]}]}'
従量課金制のみを使用する
これは、オンデマンドを使用する場合にも該当します。リクエストは、プロビジョニングされたスループットの注文をバイパスして、従量課金制に直接送信されます。これは、テストや開発中のアプリケーションに役立ちます。
次の curl の例は、REST API を使用してプロビジョニングされたスループットをバイパスし、従量課金制のみを使用する方法を示しています。
X-Vertex-AI-LLM-Request-Type
ヘッダーを shared
に設定します。
! curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
-H "X-Vertex-AI-LLM-Request-Type: shared" \
$URL \
-d '{"contents": [{"role": "user", "parts": [{"text": "Hello."}]}]}'
プロビジョニングされたスループットをモニタリングする
プロビジョニングされたスループットの使用状況は、モニタリング指標とリクエストごとにモニタリングできます。
レスポンス ヘッダー
プロビジョニングされたスループットを使用してリクエストが処理されると、レスポンスに次の HTTP ヘッダーが含まれます。このコード行は generateContent
API 呼び出しにのみ適用されます。
{"X-Vertex-AI-LLM-Request-Type": "dedicated"}
指標
プロビジョニングされたスループットは、aiplatform.googleapis.com/PublisherModel
リソースタイプで測定される指標のセットを使用してモニタリングできます。各指標は、次のディメンションでフィルタできます。
type
:input
、output
request_type
:dedicated
、shared
指標をフィルタしてプロビジョニングされたスループットの使用状況を表示するには、dedicated
リクエスト タイプを使用します。指標のパスの接頭辞は aiplatform.googleapis.com/publisher/online_serving
です。
たとえば、/consumed_throughput
指標のフルパスは aiplatform.googleapis.com/publisher/online_serving/consumed_throughput
です。
Gemini モデルの aiplatform.googleapis.com/PublisherModel
リソースでは、次の Cloud Monitoring 指標を使用できます。これらの指標には、プロビジョニングされたスループットの使用状況のフィルタがあります。
指標 | 表示名 | 説明 |
---|---|---|
/characters |
文字 | 入力と出力の文字数分布。 |
/character_count |
文字数 | 入力と出力の累積文字数。 |
/consumed_throughput |
文字スループット | 使用されたスループットの文字数(バーンダウン率を考慮)。 |
/model_invocation_count |
モデルの呼び出し回数 | モデル呼び出しの数(予測リクエスト)。 |
/model_invocation_latencies |
モデル呼び出しのレイテンシ | モデル呼び出しのレイテンシ(予測レイテンシ)。 |
/first_token_latencies |
最初のトークンのレイテンシ | リクエストを受信してから最初のトークンが返されるまでの時間。 |
/tokens |
トークン | 入出力トークン数の分布。 |
/token_count |
トークン数 | 入力トークンと出力トークンの累積数。 |
Anthropic モデルには、プロビジョニングされたスループットのフィルタもありますが、tokens/token_count
にのみ適用されます。
次のステップ
- エラーコード
429
のトラブルシューティングを行います。