このセクションでは、生成 AI のスケール単位(GSU)とバーンダウン率のコンセプトについて説明します。プロビジョニングされたスループットは、生成 AI のスケール単位(GSU)とバーンダウン率を使用して計算され、料金が設定されます。
GSU とバーンダウン率
生成 AI のスケール単位(GSU)は、プロンプトとレスポンスのスループットの測定値です。この量は、モデルをプロビジョニングするスループットを指定します。
バーンダウン率は、入力と出力の文字数を 1 秒あたりの入力文字数(スループット)に変換する比率です。この比率は、モデル間で標準単位を生成するために使用されます。
モデルによって使用するスループットが異なります。各モデルの最小 GSU 購入額と購入単位については、このドキュメントのサポートされているモデルとバーンダウン率をご覧ください。
次の式は、スループットの計算方法を示しています。
inputs_per_query = inputs_across_modalities_converted_using_burndown_rates
outputs_per_query = outputs_across_modalities_converted_using_burndown_rates
throughput_per_second = (inputs_per_query + outputs_per_query) * queries_per_second
計算された 1 秒あたりのスループットから、ユースケースに必要な GSU の数を決定します。
重要な考慮事項
プロビジョニングされたスループットのニーズを計画するには、次の重要な考慮事項を確認してください。
リクエストには優先順位が設定されます。
プロビジョニングされたスループットを購入したユーザーからのリクエストは、オンデマンド リクエストよりも優先され、最初に処理されます。
スループットは繰り越せません。
未使用のスループットは、翌月に蓄積や繰り越しされません。
プロビジョニングされたスループットは、1 秒あたりの文字数またはトークンで測定されます。
プロビジョニングされたスループットは、1 分あたりのクエリ数(QPM)ではなく、1 秒あたりの文字数またはトークン数で測定されます。そのため、プロビジョニングされたスループットの測定は、ユースケースのクエリサイズ、レスポンス サイズ、QPM によって異なります。
プロビジョニングされたスループットは割り当てを確認します。
プロビジョニングされたスループットの割り当ては、割り当て期間内にリクエストを送信するたびに確認されます。
gemini-2.0-flash-001
、gemini-1.5-flash-002
、gemini-1.5-pro-002
モデルの場合、割り当てウィンドウは最大 30 秒に設定できます。この値は変更される可能性があります。つまり、場合によっては、1 秒あたりの割り当て量を超える優先トラフィックが一時的に発生する可能性がありますが、30 秒あたりの割り当て量を超えることはありません。他のモデルの割り当て期間は最大 1 分です。割り当てウィンドウは Vertex AI クロック時間に基づいており、リクエストの実行時間とは関係ありません。たとえば、1 GSU の
gemini-1.5-pro-002
を購入した場合、常にオンのスループットは 1 秒あたり 800 文字になります。平均して、30 秒あたり 24,000 文字を超えないようにする必要があります。これは次の式で計算されます。800 文字 / 秒 × 30 秒 = 24,000 文字
1 秒あたり 1,600 文字を使用するリクエストを 1 日中送信した場合、リクエスト時に 1 秒あたり 800 文字の上限を超えたとしても、プロビジョニングされたスループット リクエストとして処理されることがあります。
プロビジョニングされたスループットは、プロジェクト、リージョン、モデル、バージョンに固有です。
プロビジョニングされたスループットは、特定のプロジェクト、リージョン、モデル、バージョンの組み合わせに割り当てられます。別のリージョンから呼び出された同じモデルは、プロビジョニングされたスループットの割り当てにはカウントされず、オンデマンド リクエストよりも優先されません。
プロビジョンド スループットの必要量の計算例
プロビジョニングされたスループットの必要量を計算するには、Google Cloud コンソールの見積もりツールを使用します。次の例は、モデル用のプロビジョンド スループットの量を見積もるプロセスを示しています。この見積もりの計算では、リージョンは考慮されません。
次の表に、例に沿って使用できる gemini-1.5-flash
のバーンダウン率を示します。
モデル | GSU あたりのスループット(文字/秒) | GSU の最小購入単位 | バーンダウン率 |
---|---|---|---|
Gemini 1.5 Flash | 128,000 トークン未満のコンテキスト ウィンドウ: 54,000 128,000 トークンを超えるコンテキスト ウィンドウ: 27,000 |
1 | 128,000 トークン未満のコンテキスト ウィンドウ: 1 入力文字 = 1 文字 1 出力文字 = 4 文字 1 画像 = 1,067 文字 1 秒あたり 1 動画 = 1,067 文字 1 秒あたり 1 音声 = 107 文字 128,000 トークンを超えるコンテキスト ウィンドウ: 1 入力文字 = 2 文字 1 出力文字 = 8 文字 1 画像 = 2,134 文字 1 秒あたり 1 動画 = 2,134 文字 1 秒あたり 1 音声 = 214 文字 |
要件をまとめます。
この例では、
gemini-1.5-flash
を使用して、2 つの画像で 2,000 文字を送信し、1 秒あたり 10 件のクエリで 300 文字の出力を受け取ることを要件とします。ここでは、入力と出力のサイズ、秒間クエリ数(QPS)、モデルを特定しているため、ユースケースを理解していることを前提としています。
スループットを推定するには、モデルを指定します。この例では、モデルは
gemini-1.5-flash
です。入力の種類を指定し、バーンダウン率を特定します。バーンダウン率を使用して、入力の種類に基づいてバーンダウン率を特定します。
gemini-1.5-flash
モデルの画像のバーンダウン率は 1,067 文字です。
スループットを計算します。
画像数に特定のモデルの入力タイプのバーンダウン率を掛けます。
2 枚の画像 × 入力文字数 1,067 文字 / 画像 = 入力文字数 2,134 文字
出力文字の合計は 300 文字です。バーンダウン率の表に戻り、特定のモデル(
gemini-1.5-flash
)の出力文字(出力文字あたり 4 文字)のバーンダウン率を確認します。出力文字数 300 文字 × 出力文字あたり 4 文字 = 入力文字数(変換後)1,200 文字
合計します。
入力文字数 2,000 文字 + 画像の入力文字数(変換後)2,134 文字 + 出力の入力文字数(変換後)1,200 文字 = クエリあたりの入力文字数(変換後)5,334 文字
クエリあたりの文字数に 1 秒あたりの予想クエリ数を掛けて、1 秒あたりの合計スループットを算出します。
クエリあたりの入力文字数(変換後)5,334 文字 × 10 QPS = 1 秒あたりの入力文字数(変換後)の合計 53,340 文字
GSU を計算します。
GSU は、1 秒あたりの合計スループットをバーンダウン率の表にある GSU あたりのスループットで割った値です。
1 秒あたりの入力文字数(変換後)の合計 53,340 文字 ÷ GSU あたりのスループット 54,000 = 0.988 GSU
gemini-1.5-flash
の最小 GSU 購入単位は 1 で、要件を満たしています。