次の表に、プロビジョニングされたスループットをサポートするモデル、各生成 AI のスケール単位(GSU)のスループット、各モデルのバーンダウン率を示します。
Google モデル
次の表に、プロビジョニングされたスループットをサポートする Google モデルのスループット、購入単位、バーンダウン率を示します。1 秒あたりのスループットは、すべてのリクエストにわたるプロンプト入力と生成出力を 1 秒あたりで定義したものです。
プロビジョニングされたスループットは、モデルの API を使用してプロジェクトから直接呼び出すモデルのみをサポートします。Vertex AI エージェントや Vertex AI Search などの他の Vertex AI プロダクトによって呼び出されるモデルはサポートしていません。
ワークロードに必要なトークン数を確認するには、SDK トークン化ツールまたは countTokens API をご覧ください。
モデル | GSU あたりの 1 秒あたりのスループット | 単位 | GSU の最小購入単位 | バーンダウン率 |
---|---|---|---|---|
Gemini 2.0 Flash | 3,360 | トークン | 1 | 1 入力テキスト トークン = 1 トークン 1 入力画像トークン = 1 トークン 1 入力動画トークン = 1 トークン 1 出力テキスト トークン = 4 トークン |
Gemini 1.5 Flash | 128,000 トークン未満のコンテキスト ウィンドウ: 54,000 128,000 トークンを超えるコンテキスト ウィンドウ: 27,000 |
文字数 | 1 | 128,000 トークン未満のコンテキスト ウィンドウ: 1 入力文字 = 1 文字 1 出力文字 = 4 文字 1 画像 = 1,067 文字 1 秒あたり 1 動画 = 1,067 文字 1 秒あたり 1 音声 = 107 文字 128,000 トークンを超えるコンテキスト ウィンドウ: 1 入力文字 = 2 文字 1 出力文字 = 8 文字 1 画像 = 2,134 文字 1 秒あたり 1 動画 = 2,134 文字 1 秒あたり 1 音声 = 214 文字 |
Gemini 1.5 Pro | 800 | 文字数 | 1 | 128,000 トークン未満のコンテキスト ウィンドウ: 1 入力文字 = 1 文字 1 出力文字 = 3 文字 1 画像 = 1,052 文字 1 秒あたり 1 動画 = 1,052 文字 1 秒あたり 1 音声 = 100 文字 128,000 トークンを超えるコンテキスト ウィンドウ: 1 入力文字 = 2 文字 1 出力文字 = 6 文字 1 画像 = 2,104 文字 1 秒あたり 1 動画 = 2,104 文字 1 秒あたり 1 音声 = 200 文字 |
Gemini 1.0 Pro | 8,000 | 文字数 | 1 | 1 入力文字 = 1 文字 1 出力文字 = 3 文字 1 画像 = 20,000 文字 1 秒分の動画 = 16,000 文字 |
Imagen 3 | 0.025 | 画像 | 1 | プロビジョンド スループットの割り当てにカウントされるのは、出力画像のみです。 |
Imagen 3 Fast | 0.05 | 画像 | 1 | プロビジョンド スループットの割り当てにカウントされるのは、出力画像のみです。 |
Imagen 2 | 0.05 | 画像 | 1 | プロビジョンド スループットの割り当てにカウントされるのは、出力画像のみです。 |
Imagen 2 Edit | 0.05 | 画像 | 1 | プロビジョンド スループットの割り当てにカウントされるのは、出力画像のみです。 |
MedLM medium | 2,000 | 文字数 | 1 | 1 入力文字 = 1 文字 1 出力文字 = 2 文字 |
MedLM large | 200 | 文字数 | 1 | 1 入力文字 = 1 文字 1 出力文字 = 3 文字 |
MedLM large 1.5 | 200 | 文字数 | 1 | 1 入力文字 = 1 文字 1 出力文字 = 3 文字 |
サポートされているロケーションの詳細については、利用可能なロケーションをご覧ください。
新しいモデルが利用可能になり次第、アップグレードできます。モデルの提供状況と廃止日については、Google モデルをご覧ください。
プレビューの機能
プロビジョニングされたスループットのプレビュー機能を使用するには、アクセス権の承認が必要です。アクセスをリクエストするには、プロビジョニングされたスループットのアクセス制御フォームに記入して送信します。
プレビュー版では、Google モデルに対して次の機能が提供されます。
プロビジョニングされたスループットは、ベースモデルと、それらのベースモデルの教師ありファインチューニング バージョンの両方に適用できます。
教師ありファインチューニング済みモデルのエンドポイントと、それに対応するベースモデルは、同じプロビジョニング済みスループット割り当てに対してカウントされます。
たとえば、特定のプロジェクトの
gemini-1.5-pro-002
用に購入したプロビジョニング済みスループットでは、そのプロジェクト内で作成されたgemini-1.5-pro-002
の教師ありファインチューニング バージョンから行われたリクエストが優先されます。適切なヘッダーを使用して、トラフィックの動作を制御します。プロビジョニングされたスループットは、月単位の定期購入ではなく 1 週間の期間で購入できます。また、注文から 2 週間以内の開始日を指定することもできます。
Google のレガシーモデル
プロビジョニングされたスループットをサポートするレガシーモデルをご覧ください。
パートナーのモデル
この表は、プロビジョニングされたスループットをサポートするパートナー モデルのスループット、購入単位、バーンダウン率を示しています。Claude モデルは、1 秒あたりのトークンで測定されます。これは、1 秒あたりのすべてのリクエストの入力トークンと出力トークンの合計として定義されます。
モデル | GSU あたりのスループット(トークン/秒) | GSU の最小購入量 | GSU の購入単位 | バーンダウン率 |
---|---|---|---|---|
Anthropic の Claude 3.5 Sonnet v2 | 350 | 25 | 1 | 1 入力トークン = 1 トークン 1 出力トークン = 5 トークン |
Anthropic の Claude 3.5 Haiku | 2,000 | 10 | 1 | 1 入力トークン = 1 トークン 1 出力トークン = 5 トークン |
Anthropic の Claude 3 Opus | 70 | 35 | 1 | 1 入力トークン = 1 トークン 1 出力トークン = 5 トークン |
Anthropic の Claude 3 Haiku | 4,200 | 5 | 1 | 1 入力トークン = 1 トークン 1 出力トークン = 5 トークン |
Anthropic の Claude 3.5 Sonnet | 350 | 25 | 1 | 1 入力トークン = 1 トークン 1 出力トークン = 5 トークン |
サポートされているロケーションについては、Anthropic Claude リージョンの可用性をご覧ください。Anthropic モデル用のプロビジョニングされたスループットを注文するには、Google Cloud アカウント担当者にお問い合わせください。