コンテキスト キャッシュ保存の概要

コンテキスト キャッシュ保存は、繰り返されるコンテンツを含む Gemini へのリクエストの費用とレイテンシを削減することを目的としています。

デフォルトでは、Google はすべての Gemini モデルの入力を自動的にキャッシュに保存し、レイテンシを短縮して、後続のプロンプトに対するレスポンスを高速化します。

Gemini 2.5 Flash(最小入力トークン数 1,024)モデルと Gemini 2.5 Pro(最小入力トークン数 2,048)モデルでは、キャッシュ ヒットが発生すると、キャッシュに保存された入力トークンは標準入力トークンと比較して 75% 割引で課金されます。

レスポンスのメタデータ フィールドでキャッシュ ヒット トークン情報を確認します。この機能を無効にするには、生成 AI とデータ ガバナンスをご覧ください。

Vertex AI API を使用すると、コンテキスト キャッシュを作成し、次の方法でより詳細に制御できます。

Vertex AI API を使用して、コンテキスト キャッシュに関する情報を取得することもできます。

Vertex AI API を使用してリクエストをキャッシュに保存すると、標準入力トークンに対して 75% の割引が適用され、コスト削減が保証されます。データの保存時間に基づくストレージ料金も発生します。

コンテキスト キャッシュ保存を使用する状況

コンテキスト キャッシュ保存は、初期コンテキストの実体部分が、後続のリクエストで繰り返し参照されるシナリオに特に適しています。

大量のテキスト、音声ファイル、動画ファイルなど、キャッシュに保存されたコンテキスト アイテムは、Gemini API へのプロンプト リクエストで使用して出力を生成できます。プロンプト内で同じキャッシュを使用するリクエストには、各プロンプトに固有のテキストも含まれます。たとえば、チャットの会話を構成する各プロンプト リクエストには、チャットの各ターンを構成する一意のテキストだけでなく、動画を参照する同一のコンテキスト キャッシュも含まれる場合があります。

次のようなユースケースでは、コンテキスト キャッシュ保存の使用を検討してください。

  • 広範なシステム指示を伴う chatbot
  • 長時間の動画ファイルの繰り返し分析
  • 大規模なドキュメント セットに対する繰り返しのクエリ
  • 頻繁なコード リポジトリの分析やバグ修正

キャッシュ保存による費用対効果の向上

コンテキスト キャッシュ保存は、全体的な運用コストを削減するために設計された有料の機能です。ご請求は次の項目に基づいて行われます。

  • キャッシュ トークン数: キャッシュに保存された入力トークンの数。後続のプロンプトに含まれる場合は、割引料金で請求されます。
  • 保存期間: キャッシュに保存されたトークンの保存時間。時間単位で課金されます。コンテキスト キャッシュが期限切れになると、キャッシュに保存されたトークンは削除されます。
  • その他の項目: 入力トークンや出力トークンがキャッシュされていない場合などは、別の料金が適用されます。

入力のキャッシュに保存された部分のトークン数は、レスポンスのメタデータ フィールドの cachedContentTokenCount フィールドで確認できます。

プロビジョンド スループットのコンテキスト キャッシュ保存のサポートは、デフォルトのキャッシュ保存のプレビュー版です。Vertex AI API を使用したコンテキスト キャッシュ保存は、プロビジョニングされたスループットではサポートされていません。詳しくは、プロビジョンド スループット ガイドをご覧ください。

サポートされているモデル

次の Gemini モデルはコンテキスト キャッシュ保存をサポートしています。

詳細については、利用可能な Gemini モデルの安定版をご覧ください。コンテキスト キャッシュ保存は、サポートされているモデルのすべての MIME タイプをサポートしています。

対象

コンテキスト キャッシュは、Vertex AI の生成 AI が利用可能なリージョンで使用できます。詳細については、Vertex AI ロケーションの生成 AI をご覧ください。

VPC Service Controls のサポート

コンテキスト キャッシュは VPC Service Controls をサポートしています。つまり、キャッシュがサービス境界外に漏洩することはありません。Cloud Storage を使用してキャッシュを構築する場合は、キャッシュ コンテンツを保護するために、バケットをサービス境界に含めます。

詳細については、Vertex AI ドキュメントの Vertex AI を使用した VPC Service Controls をご覧ください。

次のステップ