このページは Cloud Translation API によって翻訳されました。

プロビジョンドスループットを使用する

このページでは、プロビジョンドスループットの仕組み、超過料金を管理する方法、プロビジョンドスループットをバイパスする方法、使用状況をモニタリングする方法について説明します。

プロビジョンドスループットの仕組み

このセクションでは、割り当ての適用期間中の割り当てチェックを使用して、プロビジョンドスループットの仕組みについて説明します。

プロビジョンドスループットの割り当ての確認

プロビジョンドスループットの最大割り当ては、購入した生成 AI スケールユニット（GSU）の数と GSU あたりのスループットの倍数です。これは、割り当て適用期間内にリクエストを送信するたびに確認されます。割り当て適用期間は、最大プロビジョンドスループット割り当てが適用される頻度です。

リクエストを受信した時点では、実際のレスポンスサイズは不明です。リアルタイムアプリケーションではレスポンスの速度が優先されるため、プロビジョンドスループットは出力トークンサイズを推定します。初期見積もりが、利用可能なプロビジョンドスループットの最大割り当てを超えると、リクエストは従量課金制として処理されます。それ以外の場合は、プロビジョンドスループットとして処理されます。これは、初期見積もりとプロビジョンドスループットの最大割り当てを比較することで行われます。

レスポンスが生成され、実際の出力トークンサイズがわかると、推定値と実際の使用量の差が、使用可能なプロビジョンドスループットの割り当て量に追加され、実際の使用量と割り当てが調整されます。

プロビジョンドスループットの割り当て適用期間

Gemini モデルの場合、割り当ての適用期間は最大 30 秒です。これは、変更される可能性があります。つまり、場合によっては、1 秒あたりの割り当て量を超える優先トラフィックが一時的に発生する可能性がありますが、30 秒あたりの割り当て量を超えることはありません。これらの期間は Vertex AI の内部クロック時間に基づいており、リクエストが行われた時間とは関係ありません。

たとえば、1 GSU の gemini-2.0-flash-001 を購入した場合、常時稼働のスループットは 1 秒あたり 3,360 トークンになります。平均して、30 秒あたり 100,800 トークンを超えないようにする必要があります。これは次の式で計算されます。

3,360 tokens per second * 30 seconds = 100,800 tokens

1 秒あたり 8,000 個のトークンを消費するリクエストを 1 日に 1 回だけ送信した場合、リクエスト時に 1 秒あたり 3,360 個のトークンの上限を超えたとしても、プロビジョンドスループットリクエストとして処理されることがあります。これは、リクエストが 30 秒あたり 100,800 トークンのしきい値を超えていないためです。

過剰な使用を制御するか、プロビジョンドスループットをバイパスする

購入したスループットを超過した場合の超過料金を管理するか、リクエストごとにプロビジョンドスループットをバイパスするには、API を使用します。

各オプションを確認して、ユースケースに何が必要かを判断してください。

デフォルトの動作

購入したスループット量を超えると、超過分はオンデマンドに移行し、従量課金制のレートで請求されます。プロビジョンドスループットの注文が有効になると、デフォルトの動作が自動的に適用されます。プロビジョニングされたリージョンで注文を使用している限り、コードを変更する必要はありません。

プロビジョンドスループットのみを使用する

オンデマンド料金を回避して費用を管理する場合は、プロビジョンドスループットのみを使用します。プロビジョンドスループットの注文量を超えるリクエストは、エラー 429 を返します。

API にリクエストを送信するときは、X-Vertex-AI-LLM-Request-Type HTTP ヘッダーを dedicated に設定します。

従量課金制のみを使用する

これは、オンデマンドを使用する場合にも該当します。リクエストは、プロビジョンドスループットの注文をバイパスして、従量課金制に直接送信されます。これは、テストや開発中のアプリケーションに役立ちます。

API にリクエストを送信するときは、X-Vertex-AI-LLM-Request-Type HTTP ヘッダーを shared に設定します。

例

Python

インストール

pip install --upgrade google-genai

詳しくは、SDK リファレンスドキュメントをご覧ください。

Vertex AI で Gen AI SDK を使用するための環境変数を設定します。

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_VERTEXAI=True

from google import genai
from google.genai.types import HttpOptions

client = genai.Client(
    http_options=HttpOptions(
        api_version="v1",
        headers={
            # Options:
            # - "dedicated": Use Provisioned Throughput
            # - "shared": Use pay-as-you-go
            # https://cloud.google.com/vertex-ai/generative-ai/docs/use-provisioned-throughput
            "X-Vertex-AI-LLM-Request-Type": "shared"
        },
    )
)
response = client.models.generate_content(
    model="gemini-2.5-flash",
    contents="How does AI work?",
)
print(response.text)
# Example response:
# Okay, let's break down how AI works. It's a broad field, so I'll focus on the ...
#
# Here's a simplified overview:
# ...

Go

Go をインストールまたは更新する方法について学びます。

詳しくは、SDK リファレンスドキュメントをご覧ください。

Vertex AI で Gen AI SDK を使用するための環境変数を設定します。

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=global
export GOOGLE_GENAI_USE_VERTEXAI=True

import (
	"context"
	"fmt"
	"io"
	"net/http"

	"google.golang.org/genai"
)

// generateText shows how to generate text Provisioned Throughput.
func generateText(w io.Writer) error {
	ctx := context.Background()

	client, err := genai.NewClient(ctx, &genai.ClientConfig{
		HTTPOptions: genai.HTTPOptions{
			APIVersion: "v1",
			Headers: http.Header{
				// Options:
				// - "dedicated": Use Provisioned Throughput
				// - "shared": Use pay-as-you-go
				// https://cloud.google.com/vertex-ai/generative-ai/docs/use-provisioned-throughput
				"X-Vertex-AI-LLM-Request-Type": []string{"shared"},
			},
		},
	})
	if err != nil {
		return fmt.Errorf("failed to create genai client: %w", err)
	}

	modelName := "gemini-2.5-flash"
	contents := genai.Text("How does AI work?")

	resp, err := client.Models.GenerateContent(ctx, modelName, contents, nil)
	if err != nil {
		return fmt.Errorf("failed to generate content: %w", err)
	}

	respText := resp.Text()

	fmt.Fprintln(w, respText)

	// Example response:
	// Artificial Intelligence (AI) isn't magic, nor is it a single "thing." Instead, it's a broad field of computer science focused on creating machines that can perform tasks that typically require human intelligence.
	// .....
	// In Summary:
	// ...

	return nil
}

REST

環境をセットアップしたら、REST を使用してテキストプロンプトをテストできます。次のサンプルは、パブリッシャーモデルのエンドポイントにリクエストを送信します。

curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  -H "X-Vertex-AI-LLM-Request-Type: dedicated" \ # Options: dedicated, shared
  $URL \
  -d '{"contents": [{"role": "user", "parts": [{"text": "Hello."}]}]}'

プロビジョンドスループットをモニタリングする

プロビジョンドスループットの使用状況は、aiplatform.googleapis.com/PublisherModel リソースタイプで測定される指標のセットを使用して自己モニタリングできます。

プロビジョンドスループットのトラフィックモニタリングは、パブリックプレビュー機能です。

ディメンション

次のディメンションを使用して指標をフィルタリングできます。

ディメンション 値

type input
output

ディメンション	値
`type`	`input` `output`
`request_type`	`dedicated`: プロビジョンドスループットを使用してトラフィックが処理されます。 `spillover`: プロビジョンドスループットの割り当てを超えると、トラフィックは従量課金制の割り当てとして処理されます。 `shared`: プロビジョンドスループットが有効になっている場合、トラフィックは共有 HTTP ヘッダーを使用して従量課金制の割り当てとして処理されます。プロビジョンドスループットが有効になっていない場合、トラフィックはデフォルトで従量課金制として処理されます。

request_type

dedicated: プロビジョンドスループットを使用してトラフィックが処理されます。

spillover: プロビジョンドスループットの割り当てを超えると、トラフィックは従量課金制の割り当てとして処理されます。

shared: プロビジョンドスループットが有効になっている場合、トラフィックは共有 HTTP ヘッダーを使用して従量課金制の割り当てとして処理されます。プロビジョンドスループットが有効になっていない場合、トラフィックはデフォルトで従量課金制として処理されます。

パスの接頭辞

指標のパスの接頭辞は aiplatform.googleapis.com/publisher/online_serving です。

たとえば、/consumed_throughput 指標のフルパスは aiplatform.googleapis.com/publisher/online_serving/consumed_throughput です。

指標

Gemini モデルの aiplatform.googleapis.com/PublisherModel リソースでは、次の Cloud Monitoring 指標を使用できます。dedicated リクエストタイプを使用して、プロビジョンドスループットの使用状況をフィルタリングします。

指標	表示名	説明
`/dedicated_gsu_limit`	上限（GSU）	専用の上限（GSU）。この指標を使用して、プロビジョンドスループットの最大割り当て（GSU）を把握します。
`/tokens`	トークン	入出力トークン数の分布。
`/token_count`	トークン数	入力トークンと出力トークンの累積数。
`/consumed_token_throughput`	トークンのスループット	バーンダウン率を考慮したスループット使用量（トークン単位）。割り当ての調整も含まれます。プロビジョンドスループットの割り当ての確認をご覧ください。この指標を使用して、プロビジョンドスループットの割り当てがどのように使用されたかを把握します。
`/dedicated_token_limit`	上限（1 秒あたりのトークン数）	1 秒あたりのトークン数で表される専用の上限。この指標を使用して、トークンベースのモデルのプロビジョンドスループットの最大割り当てを把握します。
`/characters`	文字数	入力と出力の文字数分布。
`/character_count`	文字数	入力と出力の累積文字数。
`/consumed_throughput`	文字スループット	バーンダウン率を考慮したスループット使用量。割り当ての調整とプロビジョンドスループットの割り当ての確認が組み込まれています。この指標を使用して、プロビジョンドスループットの割り当てがどのように使用されたかを把握します。トークンベースのモデルの場合、この指標はトークンで消費されるスループットに 4 を掛けた値に相当します。
`/dedicated_character_limit`	上限（1 秒あたりの文字数）	1 秒あたりの文字数で表される専用の上限。この指標を使用して、文字ベースのモデルのプロビジョンドスループットの最大割り当てを確認します。
`/model_invocation_count`	モデルの呼び出し回数	モデル呼び出しの数（予測リクエスト）。
`/model_invocation_latencies`	モデル呼び出しのレイテンシ	モデル呼び出しのレイテンシ（予測レイテンシ）。
`/first_token_latencies`	最初のトークンのレイテンシ	リクエストを受信してから最初のトークンが返されるまでの時間。

Anthropic モデルには、プロビジョンドスループットのフィルタもありますが、tokens と token_count にのみ適用されます。

ダッシュボード

プロビジョンドスループットのデフォルトのモニタリングダッシュボードには、使用状況とプロビジョンドスループットの使用率をより詳細に把握できる指標が用意されています。ダッシュボードにアクセスする手順は次のとおりです。

Google Cloud コンソールで、[プロビジョンドスループット] ページに移動します。
[プロビジョンドスループット] に移動
注文全体における各モデルのプロビジョンドスループットの使用率を表示するには、[使用率の概要] タブを選択します。

[モデル別のプロビジョンドスループットの使用率] テーブルには、選択した期間の次の情報が表示されます。
- お持ちの GSU の合計数。
- GSU で表したピーク時のスループット使用量。
- GSU の平均使用率。
- プロビジョンドスループットの上限に達した回数。
[モデル別のプロビジョンドスループット使用率] テーブルからモデルを選択すると、選択したモデルに固有の指標が表示されます。

ダッシュボードの制限事項

特に、トラフィックの急増や低頻度のトラフィック（1 秒あたりのクエリ数が 1 未満など）の場合、ダッシュボードに予期しない結果が表示されることがあります。これらの結果には、次のような理由が考えられます。

12 時間を超える期間を指定すると、割り当ての適用期間の精度が低下する可能性があります。スループット指標とその派生指標（使用率など）には、選択した期間に基づくアライメント期間の平均が表示されます。期間が延長されると、各アライメント期間も延長されます。アライメント期間は、平均使用量の計算全体に及びます。割り当ての適用は 1 分未満のレベルで計算されるため、期間を 12 時間以下に設定すると、実際の割り当て適用期間との比較が容易な分単位のデータが得られます。アライメント期間の詳細については、アライメント: 系列内の正則化をご覧ください。期間の詳細については、時間間隔の正則化をご覧ください。
複数のリクエストが同時に送信された場合、モニタリングの集計により、特定のリクエストにフィルタリングする機能に影響する可能性があります。
プロビジョンドスループットは、リクエストが行われたときにトラフィックを調整しますが、割り当てが調整された後に使用状況指標を報告します。
プロビジョンドスループットの割り当て適用期間は、モニタリングの集計期間やリクエストまたはレスポンスの期間とは独立しており、一致しない場合があります。
エラーが発生しなかった場合でも、エラー率のグラフにエラーメッセージが表示されることがあります。たとえば、「データのリクエスト中にエラーが発生しました。1 つ以上のリソースが見つかりませんでした。

Genmedia モデルをモニタリングする

プロビジョンドスループットのモニタリングは、Veo 3 モデルと Imagen モデルでは使用できません。

アラート

アラートを有効にしたら、トラフィック使用量の管理に役立つデフォルトのアラートを設定します。

アラートを有効にする

ダッシュボードでアラートを有効にする手順は次のとおりです。

Google Cloud コンソールで、[プロビジョンドスループット] ページに移動します。
[プロビジョンドスループット] に移動
注文全体における各モデルのプロビジョンドスループットの使用率を表示するには、[使用率の概要] タブを選択します。
[推奨アラート] を選択すると、次のアラートが表示されます。
- Provisioned Throughput Usage Reached Limit
- Provisioned Throughput Utilization Exceeded 80%
- Provisioned Throughput Utilization Exceeded 90%
トラフィックの管理に役立つアラートを確認します。

アラートの詳細を表示する

アラートの詳細を表示する手順は次のとおりです。

[インテグレーション] ページに移動します。
[インテグレーション] に移動
[フィルタ] フィールドに「vertex」と入力し、Enter キーを押します。[Google Vertex AI] が表示されます。
詳細を表示するには、[詳細を表示] をクリックします。[Google Vertex AI の詳細] ペインが表示されます。
[アラート] タブを選択し、[アラートポリシー] テンプレートを選択します。

次のステップ

エラーコード 429 のトラブルシューティングを行う。