このセクションでは、生成 AI のスケール単位(GSU)とバーンダウン率のコンセプトについて説明します。プロビジョニングされたスループットは、生成 AI のスケール単位(GSU)とバーンダウン率を使用して計算され、料金が設定されます。
GSU とバーンダウン率
生成 AI のスケール単位(GSU)は、プロンプトとレスポンスのスループットの測定値です。この量は、モデルをプロビジョニングするスループットを指定します。
バーンダウン率は、入力と出力の文字数を 1 秒あたりの入力文字数(スループット)に変換する比率です。この比率は、モデル間で標準単位を生成するために使用されます。
モデルによって使用するスループットが異なります。各モデルの最小 GSU 購入額と購入単位については、このドキュメントのサポートされているモデルとバーンダウン率をご覧ください。
次の式は、スループットの計算方法を示しています。
inputs_per_query = inputs_across_modalities_converted_using_burndown_rates
outputs_per_query = outputs_across_modalities_converted_using_burndown_rates
throughput_per_second = (inputs_per_query + outputs_per_query) * queries_per_second
計算された 1 秒あたりのスループットから、ユースケースに必要な GSU の数を決定します。
プロビジョンド スループットの必要量の計算例
プロビジョニングされたスループットの必要量を計算するには、 Google Cloud コンソールの見積もりツールを使用します。次の例は、モデル用のプロビジョンド スループットの量を見積もるプロセスを示しています。この見積もりの計算では、リージョンは考慮されません。
次の表に、例に沿って使用できる gemini-1.5-flash
のバーンダウン率を示します。
モデル | GSU あたりのスループット(文字/秒) | GSU の最小購入単位 | バーンダウン率 | |
---|---|---|---|---|
Gemini 1.5 Flash | コンテキスト ウィンドウが 128,000 以下の場合: 54,000 コンテキスト ウィンドウが 128,000 を超える場合: 27,000 |
1 | 128,000 未満のコンテキスト ウィンドウ: 1 入力文字 = 1 文字 1 出力文字 = 4 文字 1 画像 = 1,067 文字 1 秒あたり 1 動画 = 1,067 文字 1 秒あたり 1 音声 = 107 文字 |
128,000 を超えるコンテキスト ウィンドウ: 1 入力文字 = 2 文字 1 出力文字 = 8 文字 1 画像 = 2,134 文字 1 秒分の動画 = 2,134 文字 1 秒分の音声 = 214 文字 |
要件をまとめます。
この例では、
gemini-1.5-flash
を使用して、2 つの画像で 2,000 文字を送信し、1 秒あたり 10 件のクエリで 300 文字の出力を受け取ることを要件とします。ここでは、入力と出力のサイズ、秒間クエリ数(QPS)、モデルを特定しているため、ユースケースを理解していることを前提としています。
スループットを推定するには、モデルを指定します。この例では、モデルは
gemini-1.5-flash
です。入力の種類を指定し、バーンダウン率を特定します。バーンダウン率の表を使用して、入力の種類に基づいてバーンダウン率を特定します。
gemini-1.5-flash
モデルの画像のバーンダウン率は 1,067 文字です。
スループットを計算します。
画像数に特定のモデルの入力タイプのバーンダウン率を掛けます。
2 枚の画像 × 入力文字数 1,067 文字 / 画像 = 入力文字数 2,134 文字
出力文字の合計は 300 文字です。バーンダウン率の表に戻り、特定のモデル(
gemini-1.5-flash
)の出力文字(出力文字あたり 4 文字)のバーンダウン率を確認します。出力文字数 300 文字 × 出力文字あたり 4 文字 = 入力文字数(変換後)1,200 文字
合計します。
入力文字数 2,000 文字 + 画像の入力文字数(変換後)2,134 文字 + 出力の入力文字数(変換後)1,200 文字 = クエリあたりの入力文字数(変換後)5,334 文字
クエリあたりの文字数に 1 秒あたりの予想クエリ数を掛けて、1 秒あたりの合計スループットを算出します。
クエリあたりの入力文字数(変換後)5,334 文字 × 10 QPS = 1 秒あたりの入力文字数(変換後)の合計 53,340 文字
GSU を計算します。
GSU は、1 秒あたりの合計スループットをバーンダウン率の表にある GSU あたりのスループットで割った値です。
1 秒あたりの入力文字数(変換後)の合計 53,340 文字 ÷ GSU あたりのスループット 54,000 = 0.988 GSU
gemini-1.5-flash
の最小 GSU 購入単位は 1 で、要件を満たしています。