このページは Cloud Translation API によって翻訳されました。

コンテキストキャッシュ保存の概要

コンテキストキャッシュ保存は、繰り返されるコンテンツを含む Gemini へのリクエストの費用とレイテンシを削減することを目的としています。

デフォルトでは、Google はすべての Gemini モデルの入力を自動的にキャッシュに保存し、レイテンシを短縮して、後続のプロンプトに対するレスポンスを高速化します。

Gemini 2.5 Flash（最小入力トークン数 1,024）モデルと Gemini 2.5 Pro（最小入力トークン数 2,048）モデルでは、キャッシュヒットが発生すると、キャッシュに保存された入力トークンは標準入力トークンと比較して 75% 割引で課金されます。

レスポンスのメタデータフィールドでキャッシュヒットトークン情報を確認します。この機能を無効にするには、生成 AI とデータガバナンスをご覧ください。

Vertex AI API を使用すると、コンテキストキャッシュを作成し、次の方法でより詳細に制御できます。

コンテキストキャッシュを使用する: プロンプトリクエストでリソース名を使用してコンテンツを参照します。
コンテキストキャッシュの有効期限（TTL）をデフォルトの 60 分を超えて更新する。
不要になったコンテキストキャッシュを削除する。

Vertex AI API を使用して、コンテキストキャッシュに関する情報を取得することもできます。

Vertex AI API を使用してリクエストをキャッシュに保存すると、標準入力トークンに対して 75% の割引が適用され、コスト削減が保証されます。データの保存時間に基づくストレージ料金も発生します。

コンテキストキャッシュ保存を使用する状況

コンテキストキャッシュ保存は、初期コンテキストの実体部分が、後続のリクエストで繰り返し参照されるシナリオに特に適しています。

大量のテキスト、音声ファイル、動画ファイルなど、キャッシュに保存されたコンテキストアイテムは、Gemini API へのプロンプトリクエストで使用して出力を生成できます。プロンプト内で同じキャッシュを使用するリクエストには、各プロンプトに固有のテキストも含まれます。たとえば、チャットの会話を構成する各プロンプトリクエストには、チャットの各ターンを構成する一意のテキストだけでなく、動画を参照する同一のコンテキストキャッシュも含まれる場合があります。

次のようなユースケースでは、コンテキストキャッシュ保存の使用を検討してください。

広範なシステム指示を伴う chatbot
長時間の動画ファイルの繰り返し分析
大規模なドキュメントセットに対する繰り返しのクエリ
頻繁なコードリポジトリの分析やバグ修正

キャッシュ保存による費用対効果の向上

コンテキストキャッシュ保存は、全体的な運用コストを削減するために設計された有料の機能です。ご請求は次の項目に基づいて行われます。

キャッシュトークン数: キャッシュに保存された入力トークンの数。後続のプロンプトに含まれる場合は、割引料金で請求されます。
保存期間: キャッシュに保存されたトークンの保存時間。時間単位で課金されます。コンテキストキャッシュが期限切れになると、キャッシュに保存されたトークンは削除されます。
その他の項目: 入力トークンや出力トークンがキャッシュされていない場合などは、別の料金が適用されます。

入力のキャッシュに保存された部分のトークン数は、レスポンスのメタデータフィールドの cachedContentTokenCount フィールドで確認できます。

プロビジョンドスループットのコンテキストキャッシュ保存のサポートは、デフォルトのキャッシュ保存のプレビュー版です。Vertex AI API を使用したコンテキストキャッシュ保存は、プロビジョニングされたスループットではサポートされていません。詳しくは、プロビジョンドスループットガイドをご覧ください。

サポートされているモデル

次の Gemini モデルはコンテキストキャッシュ保存をサポートしています。

詳細については、利用可能な Gemini モデルの安定版をご覧ください。コンテキストキャッシュ保存は、サポートされているモデルのすべての MIME タイプをサポートしています。

対象

コンテキストキャッシュは、Vertex AI の生成 AI が利用可能なリージョンで使用できます。詳細については、Vertex AI ロケーションの生成 AI をご覧ください。

VPC Service Controls のサポート

コンテキストキャッシュは VPC Service Controls をサポートしています。つまり、キャッシュがサービス境界外に漏洩することはありません。Cloud Storage を使用してキャッシュを構築する場合は、キャッシュコンテンツを保護するために、バケットをサービス境界に含めます。

詳細については、Vertex AI ドキュメントの Vertex AI を使用した VPC Service Controls をご覧ください。

次のステップ

Gemini API の詳細を確認する。
マルチモーダルプロンプトを使用する方法を確認する。