プロビジョニングされたスループットを測定する

このセクションでは、生成 AI のスケール単位(GSU)とバーンダウン率のコンセプトについて説明します。プロビジョニングされたスループットは、生成 AI のスケール単位(GSU)とバーンダウン率を使用して計算され、料金が設定されます。

GSU とバーンダウン率

生成 AI のスケール単位(GSU)は、プロンプトとレスポンスのスループットの測定値です。この量は、モデルをプロビジョニングするスループットを指定します。

バーンダウン率は、入力と出力の文字数を 1 秒あたりの入力文字数(スループット)に変換する比率です。この比率は、モデル間で標準単位を生成するために使用されます。

モデルによって使用するスループットが異なります。各モデルの最小 GSU 購入額と購入単位については、このドキュメントのサポートされているモデルとバーンダウン率をご覧ください。

次の式は、スループットの計算方法を示しています。

inputs_per_query = inputs_across_modalities_converted_using_burndown_rates
outputs_per_query = outputs_across_modalities_converted_using_burndown_rates

throughput_per_second = (inputs_per_query + outputs_per_query) * queries_per_second

計算された 1 秒あたりのスループットから、ユースケースに必要な GSU の数を決定します。

プロビジョンド スループットの必要量の計算例

プロビジョニングされたスループットの必要量を計算するには、 Google Cloud コンソールの見積もりツールを使用します。次の例は、モデル用のプロビジョンド スループットの量を見積もるプロセスを示しています。この見積もりの計算では、リージョンは考慮されません。

次の表に、例に沿って使用できる gemini-1.5-flash のバーンダウン率を示します。

モデル GSU あたりのスループット(文字/秒) GSU の最小購入単位 バーンダウン率
Gemini 1.5 Flash コンテキスト ウィンドウが 128,000 以下の場合:
54,000

コンテキスト ウィンドウが 128,000 を超える場合:
27,000
1 128,000 未満のコンテキスト ウィンドウ:
1 入力文字 = 1 文字
1 出力文字 = 4 文字
1 画像 = 1,067 文字
1 秒あたり 1 動画 = 1,067 文字
1 秒あたり 1 音声 = 107 文字
128,000 を超えるコンテキスト ウィンドウ:
1 入力文字 = 2 文字
1 出力文字 = 8 文字
1 画像 = 2,134 文字
1 秒分の動画 = 2,134 文字
1 秒分の音声 = 214 文字
  1. 要件をまとめます。

    1. この例では、gemini-1.5-flash を使用して、2 つの画像で 2,000 文字を送信し、1 秒あたり 10 件のクエリで 300 文字の出力を受け取ることを要件とします。

      ここでは、入力と出力のサイズ、秒間クエリ数(QPS)、モデルを特定しているため、ユースケースを理解していることを前提としています。

    2. スループットを推定するには、モデルを指定します。この例では、モデルは gemini-1.5-flash です。

    3. 入力の種類を指定し、バーンダウン率を特定します。バーンダウン率の表を使用して、入力の種類に基づいてバーンダウン率を特定します。

      gemini-1.5-flash モデルの画像のバーンダウン率は 1,067 文字です。

  2. スループットを計算します。

    1. 画像数に特定のモデルの入力タイプのバーンダウン率を掛けます。

      2 枚の画像 × 入力文字数 1,067 文字 / 画像 = 入力文字数 2,134 文字

    2. 出力文字の合計は 300 文字です。バーンダウン率の表に戻り、特定のモデル(gemini-1.5-flash)の出力文字(出力文字あたり 4 文字)のバーンダウン率を確認します。

      出力文字数 300 文字 × 出力文字あたり 4 文字 = 入力文字数(変換後)1,200 文字

    3. 合計します。

      入力文字数 2,000 文字 + 画像の入力文字数(変換後)2,134 文字 + 出力の入力文字数(変換後)1,200 文字 = クエリあたりの入力文字数(変換後)5,334 文字

    4. クエリあたりの文字数に 1 秒あたりの予想クエリ数を掛けて、1 秒あたりの合計スループットを算出します。

      クエリあたりの入力文字数(変換後)5,334 文字 × 10 QPS = 1 秒あたりの入力文字数(変換後)の合計 53,340 文字

  3. GSU を計算します。

    1. GSU は、1 秒あたりの合計スループットをバーンダウン率の表にある GSU あたりのスループットで割った値です。

      1 秒あたりの入力文字数(変換後)の合計 53,340 文字 ÷ GSU あたりのスループット 54,000 = 0.988 GSU

    2. gemini-1.5-flash の最小 GSU 購入単位は 1 で、要件を満たしています。

次のステップ