Live API のプロビジョンドスループット

このセクションでは、トークン数のカウントや割り当ての適用において、プロビジョンドスループットが Live API とどのように連携して動作するかを説明します。

Live API は、セッションを通じて低レイテンシのマルチモーダルなインタラクションをサポートします。セッションメモリを使用して、セッション内のインタラクションから情報を保持し、呼び出します。これにより、モデルは以前に提供または議論された情報を思い出すことができます。プロビジョンドスループットは、Live API モデルの Gemini 2.5 Flash をサポートしています。セッションの制限や機能など、Live API の詳細については、Live API リファレンスをご覧ください。

Live API のスループットを計算する

Live API を使用している間、セッションメモリに保存されたトークンは、その後のモデルへのリクエストでも利用できます。その結果、プロビジョンドスループットは、今回のリクエストで送信されたトークンに加えて、セッションメモリに保存されているトークンも計算に含めます。そのため、1 回のリクエストで処理されるトークンの数が、ユーザーがそのリクエストで送信したトークンの数よりも多くなることがあります。

Live API には、セッションメモリに保存できるトークンの合計数に上限があります。また、トークンの合計数を含むメタデータフィールドもあります。リクエストを処理するために必要なスループットを計算する際は、セッションメモリ内のトークンを考慮する必要があります。従量課金制（PayGo）で Live API を使用したことがある場合は、これらのトラフィックパターンとセッショントークンを使用して、プロビジョンドスループットのニーズを見積もることができます。

Live API のプロビジョンドスループット要件を見積もる方法の例

セッション中、すべてのトラフィックはプロビジョンドスループットまたは従量課金制として処理されます。セッション中にプロビジョンドスループットの割り当てに達すると、後で再試行するように求めるエラーメッセージが表示されます。割り当て内に収まると、リクエストの送信を再開できます。セッションがライブである限り、セッションメモリなどのセッション状態を使用できます。

この例は、セッションメモリからトークンを含めることで、2 つの連続するリクエストが処理される方法を示しています。

リクエスト 1 の詳細

期間: 10 秒

送信されたトークン（音声）: 10 秒 × 25 トークン/秒 = 250 トークン

送信されたトークン数（動画）: 10 秒 × 258 トークン/フレーム/秒 = 2,580 トークン

リクエスト 1 で処理されたトークンの合計数:

送信されたトークン数: 送信された音声トークンと動画トークンの合計 = 2,580 + 250 = 2,830 トークン
受信したトークン: 100（音声）

リクエスト 2 の詳細

期間: 40 秒

送信されたトークン（音声）: 40 秒 × 25 トークン/秒 = 1,000 トークン

リクエスト 2 で処理されたトークンの合計数:

送信されたトークン数: リクエスト 2 で送信されたトークン数 + リクエスト 1 のセッションメモリトークン数 = 2,830 トークン + 1,000 トークン = 3,830 トークン
受信したトークン: 200（音声）

リクエストで処理されたトークンの数を計算する

これらのリクエストで処理されるトークンの数は、次のように計算されます。

セッションメモリに追加のトークンがないため、リクエスト 1 は進行中のリクエストの入力トークンと出力トークンのみを処理します。
リクエスト 2 は、進行中のリクエストの入力トークンと出力トークンを処理しますが、セッションメモリの入力トークンも含まれます。これは、セッションメモリの前のリクエスト（リクエスト 1）の入力トークンで構成されます。セッションメモリ内のトークンのバーンダウン率は、標準の入力トークンと同じです（入力セッションメモリトークン 1 個 = 入力トークン 1 個）。

リクエスト 2 の送信後、処理に 1 秒かかった場合、トークンは次のように処理され、プロビジョンドスループットの割り当てに適用されます。
- 入力にバーンダウン率を掛けて、入力トークンの合計数を取得します。
  
  2,830 x（セッションメモリトークンあたり 1 トークン）+ 1,000 x（入力テキストトークンあたり 1 トークン）= クエリあたりのバーンダウン調整済み入力トークン数 3,830
- 出力にバーンダウン率を掛けて、出力トークンの合計を取得します。
  
  200 x（音声出力トークンあたり 6 トークン）= 1,200 トークン
- 次の 2 つの合計を追加して、処理されたトークンの合計数を取得します。
  
  3,830 個のトークン + 1,200 個のトークン = 5,030 個のトークン

プロビジョンドスループットの割り当てが 1 秒あたり 5,030 トークンを超える場合、このリクエストはすぐに処理できます。割り当てに設定したレートで、トークンが時間とともに処理されます。

次のステップ

プロビジョンドスループットを購入する。