サポートされているモデル

次の表に、プロビジョニングされたスループットをサポートするモデル、各生成 AI のスケール単位(GSU)のスループット、各モデルのバーンダウン率を示します。

Google モデル

次の表に、プロビジョニングされたスループットをサポートする Google モデルのスループット、購入単位、バーンダウン率を示します。Google モデルは 1 秒あたりの文字数で測定されます。これは、リクエスト全体のプロンプト入力と生成されたテキスト出力文字を 1 秒あたりで定義したものです。

モデル GSU あたりのスループット(文字/秒) GSU の最小購入単位 バーンダウン率
Gemini 1.5 Flash コンテキスト ウィンドウが 128,000 以下の場合:
54,000

コンテキスト ウィンドウが 128,000 を超える場合:
27,000
1 128,000 未満のコンテキスト ウィンドウ:
1 入力文字 = 1 文字
1 出力文字 = 4 文字
1 画像 = 1,067 文字
1 秒あたり 1 動画 = 1,067 文字
1 秒あたり 1 音声 = 107 文字
128,000 を超えるコンテキスト ウィンドウ:
1 入力文字 = 2 文字
1 出力文字 = 8 文字
1 画像 = 2,134 文字
1 秒分の動画 = 2,134 文字
1 秒分の音声 = 214 文字
Gemini 1.5 Pro 800 1 128,000 未満のコンテキスト ウィンドウ:
1 入力文字 = 1 文字
1 出力文字 = 3 文字
1 画像 = 1,052 文字
1 秒あたり 1 動画 = 1,052 文字
1 秒あたり 1 音声 = 100 文字
128,000 を超えるコンテキスト ウィンドウ:
1 入力文字 = 2 文字
1 出力文字 = 6 文字
1 画像 = 2,104 文字
1 秒分の動画 = 2,104 文字
1 秒分の音声 = 200 文字
Gemini 1.0 Pro 8,000 1 1 入力文字 = 1 文字
1 出力文字 = 3 文字
1 画像 = 20,000 文字
1 秒分の動画 = 16,000 文字
Imagen 3 0.025
スループットは、文字/秒ではなく画像/秒で測定されます。
1 プロビジョンド スループットの割り当てにカウントされるのは、出力画像のみです。
Imagen 3 Fast 0.05
スループットは、文字/秒ではなく画像/秒で測定されます。
1 プロビジョンド スループットの割り当てにカウントされるのは、出力画像のみです。
Imagen 2 0.05
スループットは、文字/秒ではなく画像/秒で測定されます。
1 プロビジョンド スループットの割り当てにカウントされるのは、出力画像のみです。
Imagen 2 Edit 0.05
スループットは、文字/秒ではなく画像/秒で測定されます。
1 プロビジョンド スループットの割り当てにカウントされるのは、出力画像のみです。
MedLM medium 2,000 1 1 入力文字 = 1 文字
1 出力文字 = 2 文字
MedLM large 200 1 1 入力文字 = 1 文字
1 出力文字 = 3 文字
MedLM large 1.5 200 1 1 入力文字 = 1 文字
1 出力文字 = 3 文字

サポートされているロケーションの詳細については、利用可能なロケーションをご覧ください。

新しいモデルが利用可能になり次第、アップグレードできます。モデルの提供状況と廃止日については、Google モデルをご覧ください。

プレビューの機能

プロビジョニングされたスループットのプレビュー機能を使用するには、アクセス権の承認が必要です。アクセスをリクエストするには、プロビジョニングされたスループットのアクセス制御フォームに記入して送信します。

プレビュー版では、Google モデルに対して次の機能が提供されます。

  • プロビジョニングされたスループットは、ベースモデルと、それらのベースモデルの教師ありファインチューニング バージョンの両方に適用できます。

  • 教師ありファインチューニング済みモデルのエンドポイントと、それに対応するベースモデルは、同じプロビジョニング済みスループット割り当てに対してカウントされます。

    たとえば、特定のプロジェクトの gemini-1.5-pro-002 用に購入したプロビジョニング済みスループットでは、そのプロジェクト内で作成された gemini-1.5-pro-002 の教師ありファインチューニング バージョンから行われたリクエストが優先されます。適切なヘッダーを使用して、トラフィックの動作を制御します。

  • プロビジョニングされたスループットは、月単位の定期購入ではなく 1 週間の期間で購入できます。また、注文から 2 週間以内の開始日を指定することもできます。

Google のレガシーモデル

プロビジョニングされたスループットをサポートするレガシーモデルをご覧ください。

パートナーのモデル

この表は、プロビジョニングされたスループットをサポートするパートナー モデルのスループット、購入単位、バーンダウン率を示しています。Claude モデルは、1 秒あたりのトークンで測定されます。これは、1 秒あたりのすべてのリクエストの入力トークンと出力トークンの合計として定義されます。

モデル GSU あたりのスループット(トークン/秒) GSU の最小購入量 GSU の購入単位 バーンダウン率
Anthropic の Claude 3.5 Sonnet v2 350 25 1 1 入力トークン = 1 トークン
1 出力トークン = 5 トークン
Anthropic の Claude 3.5 Haiku 2,000 10 1 1 入力トークン = 1 トークン
1 出力トークン = 5 トークン
Anthropic の Claude 3 Opus 70 35 1 1 入力トークン = 1 トークン
1 出力トークン = 5 トークン
Anthropic の Claude 3 Haiku 4,200 5 1 1 入力トークン = 1 トークン
1 出力トークン = 5 トークン
Anthropic の Claude 3.5 Sonnet 350 25 1 1 入力トークン = 1 トークン
1 出力トークン = 5 トークン
Anthropic の Claude 3 Sonnet 350 25 1 1 入力トークン = 1 トークン
1 出力トークン = 5 トークン

サポートされているロケーションの詳細については、利用可能なロケーションをご覧ください。

プロビジョニングされたスループットをサポートするパートナー モデルをサブスクライブするには、 Google Cloudアカウント担当者にお問い合わせください

次のステップ