コンテキスト キャッシュ保存を使用すると、入力トークン数が多い繰り返しコンテンツを含むリクエストの費用が削減されます。大量のテキスト、音声ファイル、動画ファイルなど、キャッシュに保存されたコンテキスト アイテムは、Gemini API へのプロンプト リクエストで使用して出力を生成できます。プロンプト内で同じキャッシュを使用するリクエストには、各プロンプトに固有のテキストも含まれます。たとえば、チャットの会話を構成する各プロンプト リクエストには、チャットの各ターンを構成する一意のテキストだけでなく、動画を参照する同一のコンテキスト キャッシュも含まれる場合があります。コンテキスト キャッシュの最小サイズは 32,768 トークンです。
サポートされているモデル
次のモデルはコンテキスト キャッシュ保存をサポートしています。
- Gemini 1.5 Flash の安定版
- Gemini 1.5 Pro の安定版
詳細については、利用可能な Gemini モデルの安定版をご覧ください。
コンテキスト キャッシュは、Vertex AI の生成 AI が利用可能なリージョンで使用できます。詳細については、Vertex AI ロケーションの生成 AI をご覧ください。
サポートされている MIME タイプ
コンテキスト キャッシュ保存は、次の MIME タイプをサポートしています。
application/pdf
audio/mp3
audio/mpeg
audio/wav
image/jpeg
image/png
text/plain
video/avi
video/flv
video/mov
video/mp4
video/mpeg
video/mpegps
video/mpg
video/wmv
コンテキスト キャッシュ保存を使用する状況
コンテキスト キャッシュ保存は、初期コンテキストの実体部分が、短いリクエストで繰り返し参照されるシナリオに特に適しています。次のようなユースケースでは、コンテキスト キャッシュ保存の使用を検討してください。
- 広範なシステム指示を伴う chatbot
- 長時間の動画ファイルの繰り返し分析
- 大規模なドキュメント セットに対する繰り返しのクエリ
- 頻繁なコード リポジトリの分析やバグ修正
キャッシュ保存による費用対効果の向上
コンテキスト キャッシュ保存は、全体的な運用コストを削減するために設計された有料の機能です。ご請求は次の項目に基づいて行われます。
- キャッシュ トークン数: キャッシュに保存された入力トークンの数。後続のプロンプトに含まれる場合は、割引料金で請求されます。
- 保存期間: キャッシュに保存されたトークンの保存時間。時間単位で課金されます。コンテキスト キャッシュが期限切れになると、キャッシュに保存されたトークンは削除されます。
- その他の項目: 入力トークンや出力トークンがキャッシュされていない場合などは、別の料金が適用されます。
コンテキスト キャッシュの使用方法
コンテキスト キャッシュ保存を使用するには、まずコンテキスト キャッシュを作成します。プロンプト リクエストでコンテキスト キャッシュの内容を参照するには、リソース名を使用します。コンテキスト キャッシュのリソース名は、その作成に使用したコマンドのレスポンスで確認できます。
各コンテキスト キャッシュのデフォルトの有効期限は、作成時刻から 60 分後です。必要な場合は、コンテキスト キャッシュの作成時に別の有効期限を指定したり、期限切れになっていないコンテキスト キャッシュの有効期限を更新したりできます。
次の各トピックでは、コンテキスト キャッシュの作成、使用、更新、情報の取得、削除を行う際に役立つ詳細な情報とサンプルを示します。
- コンテキスト キャッシュを作成する
- コンテキスト キャッシュを使用する
- コンテキスト キャッシュに関する情報を取得する
- コンテキスト キャッシュの有効期限を更新する
- コンテキスト キャッシュを削除する
VPC Service Controls のサポート
コンテキスト キャッシュは VPC Service Controls をサポートしているため、キャッシュをサービス境界外に漏洩させることはできません。Cloud Storage を使用してキャッシュを作成する場合は、バケットをサービス境界に含めてキャッシュ コンテンツを保護します。
詳細については、Vertex AI のドキュメントの Vertex AI を使用した VPC Service Controls をご覧ください。
次のステップ
- Gemini API の詳細を確認する。
- マルチモーダル プロンプトを使用する方法を確認する。