サポートされているモデル

次の表に、プロビジョニングされたスループットをサポートするモデル、各生成 AI のスケール単位(GSU)のスループット、各モデルのバーンダウン率を示します。

Google モデル

次の表に、プロビジョニングされたスループットをサポートする Google モデルのスループット、購入単位、バーンダウン率を示します。1 秒あたりのスループットは、すべてのリクエストにわたるプロンプト入力と生成出力を 1 秒あたりで定義したものです。

プロビジョニングされたスループットは、モデルの API を使用してプロジェクトから直接呼び出すモデルのみをサポートします。Vertex AI エージェントや Vertex AI Search などの他の Vertex AI プロダクトによって呼び出されるモデルはサポートしていません。

ワークロードに必要なトークン数を確認するには、SDK トークン化ツールまたは countTokens API をご覧ください。

モデル GSU あたりの 1 秒あたりのスループット 単位 GSU の最小購入単位 バーンダウン率
Gemini 2.0 Flash 3,360 トークン 1 1 入力テキスト トークン = 1 トークン
1 入力画像トークン = 1 トークン
1 入力動画トークン = 1 トークン
1 出力テキスト トークン = 4 トークン
Gemini 1.5 Flash 128,000 トークン未満のコンテキスト ウィンドウ:
54,000

128,000 トークンを超えるコンテキスト ウィンドウ:
27,000
文字数 1 128,000 トークン未満のコンテキスト ウィンドウ:
1 入力文字 = 1 文字
1 出力文字 = 4 文字
1 画像 = 1,067 文字
1 秒あたり 1 動画 = 1,067 文字
1 秒あたり 1 音声 = 107 文字

128,000 トークンを超えるコンテキスト ウィンドウ:
1 入力文字 = 2 文字
1 出力文字 = 8 文字
1 画像 = 2,134 文字
1 秒あたり 1 動画 = 2,134 文字
1 秒あたり 1 音声 = 214 文字
Gemini 1.5 Pro 800 文字数 1 128,000 トークン未満のコンテキスト ウィンドウ:
1 入力文字 = 1 文字
1 出力文字 = 3 文字
1 画像 = 1,052 文字
1 秒あたり 1 動画 = 1,052 文字
1 秒あたり 1 音声 = 100 文字

128,000 トークンを超えるコンテキスト ウィンドウ:
1 入力文字 = 2 文字
1 出力文字 = 6 文字
1 画像 = 2,104 文字
1 秒あたり 1 動画 = 2,104 文字
1 秒あたり 1 音声 = 200 文字
Gemini 1.0 Pro 8,000 文字数 1 1 入力文字 = 1 文字
1 出力文字 = 3 文字
1 画像 = 20,000 文字
1 秒分の動画 = 16,000 文字
Imagen 3 0.025 画像 1 プロビジョンド スループットの割り当てにカウントされるのは、出力画像のみです。
Imagen 3 Fast 0.05 画像 1 プロビジョンド スループットの割り当てにカウントされるのは、出力画像のみです。
Imagen 2 0.05 画像 1 プロビジョンド スループットの割り当てにカウントされるのは、出力画像のみです。
Imagen 2 Edit 0.05 画像 1 プロビジョンド スループットの割り当てにカウントされるのは、出力画像のみです。
MedLM medium 2,000 文字数 1 1 入力文字 = 1 文字
1 出力文字 = 2 文字
MedLM large 200 文字数 1 1 入力文字 = 1 文字
1 出力文字 = 3 文字
MedLM large 1.5 200 文字数 1 1 入力文字 = 1 文字
1 出力文字 = 3 文字

サポートされているロケーションの詳細については、利用可能なロケーションをご覧ください。

新しいモデルが利用可能になり次第、アップグレードできます。モデルの提供状況と廃止日については、Google モデルをご覧ください。

プレビューの機能

プロビジョニングされたスループットのプレビュー機能を使用するには、アクセス権の承認が必要です。アクセスをリクエストするには、プロビジョニングされたスループットのアクセス制御フォームに記入して送信します。

プレビュー版では、Google モデルに対して次の機能が提供されます。

  • プロビジョニングされたスループットは、ベースモデルと、それらのベースモデルの教師ありファインチューニング バージョンの両方に適用できます。

  • 教師ありファインチューニング済みモデルのエンドポイントと、それに対応するベースモデルは、同じプロビジョニング済みスループット割り当てに対してカウントされます。

    たとえば、特定のプロジェクトの gemini-1.5-pro-002 用に購入したプロビジョニング済みスループットでは、そのプロジェクト内で作成された gemini-1.5-pro-002 の教師ありファインチューニング バージョンから行われたリクエストが優先されます。適切なヘッダーを使用して、トラフィックの動作を制御します。

  • プロビジョニングされたスループットは、月単位の定期購入ではなく 1 週間の期間で購入できます。また、注文から 2 週間以内の開始日を指定することもできます。

Google のレガシーモデル

プロビジョニングされたスループットをサポートするレガシーモデルをご覧ください。

パートナーのモデル

この表は、プロビジョニングされたスループットをサポートするパートナー モデルのスループット、購入単位、バーンダウン率を示しています。Claude モデルは、1 秒あたりのトークンで測定されます。これは、1 秒あたりのすべてのリクエストの入力トークンと出力トークンの合計として定義されます。

モデル GSU あたりのスループット(トークン/秒) GSU の最小購入量 GSU の購入単位 バーンダウン率
Anthropic の Claude 3.5 Sonnet v2 350 25 1 1 入力トークン = 1 トークン
1 出力トークン = 5 トークン
Anthropic の Claude 3.5 Haiku 2,000 10 1 1 入力トークン = 1 トークン
1 出力トークン = 5 トークン
Anthropic の Claude 3 Opus 70 35 1 1 入力トークン = 1 トークン
1 出力トークン = 5 トークン
Anthropic の Claude 3 Haiku 4,200 5 1 1 入力トークン = 1 トークン
1 出力トークン = 5 トークン
Anthropic の Claude 3.5 Sonnet 350 25 1 1 入力トークン = 1 トークン
1 出力トークン = 5 トークン

サポートされているロケーションについては、Anthropic Claude リージョンの可用性をご覧ください。Anthropic モデル用のプロビジョニングされたスループットを注文するには、Google Cloud アカウント担当者にお問い合わせください。

次のステップ