Mit dem Kontext-Caching sollen die Kosten und die Latenz von Anfragen an Gemini reduziert werden, die wiederholte Inhalte enthalten.
Standardmäßig speichert Google Eingaben für alle Gemini-Modelle automatisch im Cache, um die Latenz zu verringern und Antworten auf nachfolgende Prompts zu beschleunigen.
Bei den Modellen Gemini 2.5 Flash (Mindestanzahl von Eingabetokens: 1.024) und Gemini 2.5 Pro (Mindestanzahl von Eingabetokens: 2.048) werden die im Cache gespeicherten Eingabetokens bei einem Cache-Treffer mit einem Rabatt von 75% im Vergleich zu Standard-Eingabetokens berechnet.
Informationen zum Cache-Hit-Token finden Sie im Metadatenfeld der Antworten. Informationen zum Deaktivieren dieser Funktion finden Sie unter Generative KI und Data Governance.
Über die Vertex AI API können Sie Kontext-Caches erstellen und sie besser steuern, indem Sie:
- Kontext-Cache verwenden: Verweisen Sie in einer Prompt-Anfrage mit dem Ressourcennamen auf den Inhalt des Kontext-Caches.
- Ablaufzeit (TTL) eines Kontext-Caches über die Standardeinstellung von 60 Minuten hinaus aktualisieren.
- Kontext-Cache löschen, wenn Sie ihn nicht mehr benötigen.
Sie können auch die Vertex AI API verwenden, um Informationen zu einem Kontext-Cache abzurufen.
Hinweis: Wenn Sie Anfragen über die Vertex AI API im Cache speichern, werden Eingabetokens mit demselben Rabatt von 75% im Vergleich zu Standard-Eingabetokens berechnet. So können Sie sicher Kosten sparen. Außerdem wird eine Speichergebühr basierend auf der Dauer der Datenspeicherung berechnet.
Wann Kontext-Caching verwendet werden sollte
Kontext-Caching eignet sich besonders für Szenarien, bei denen in nachfolgenden Anfragen wiederholt auf eine hohe anfängliche Kontextmenge verwiesen wird.
Im Cache gespeicherte Kontextelemente, z. B. große Textmengen, Audio- oder Videodateien, können in Prompt-Anfragen an die Gemini API genutzt werden, um Ausgaben zu generieren. Anfragen, die im Prompt denselben Cache verwenden, weisen auch den für Prompts einmaligen Text auf. Zum Beispiel können Promptanfragen zum Erstellen von Chatunterhaltungen denselben Kontext-Cache enthalten, der z. B. auf ein Video verweist und zusätzlich einmaligen Text enthält, der die einzelnen Chat-Runden umfasst.
Ziehen Sie die Verwendung von Kontext-Caching für Anwendungsfälle wie diese in Betracht:
- Chatbots mit ausführlichen Systemanweisungen
- Wiederholte Analyse langer Videodateien
- Wiederkehrende Abfragen großer Dokumentgruppen
- Häufige Analyse des Code-Repositorys oder Fehlerbehebung
Kosteneffizienz durch Caching
Das Kontext-Caching ist eine kostenpflichtige Funktion, die die Gesamtbetriebskosten senken soll. Die Abrechnung basiert auf den folgenden Faktoren:
- Anzahl der Cache-Tokens: Die Anzahl der im Cache gespeicherten Eingabetokens, für die ein ermäßigter Tarif für die Nutzung in nachfolgenden Prompts gilt.
- Speicherdauer: Die Zeit, über die hinweg im Cache gespeicherte Tokens erhalten werden. Die Abrechnung erfolgt Stundengenau. Die im Cache gespeicherten Tokens werden gelöscht, wenn ein Kontext-Cache abläuft.
- Andere Faktoren: Es fallen weitere Gebühren an, z. B. für nicht im Cache gespeicherte Eingabe- und Ausgabetokens.
Die Anzahl der Tokens im zwischengespeicherten Teil Ihrer Eingabe finden Sie in den Metadaten Ihrer Antwort im Feld cachedContentTokenCount
.
Die Unterstützung für das Zwischenspeichern von Kontext für den bereitgestellten Durchsatz befindet sich in der Vorschau für das Standard-Caching. Das Zwischenspeichern von Kontext mithilfe der Vertex AI API wird für den bereitgestellten Durchsatz nicht unterstützt. Weitere Informationen finden Sie im Leitfaden zum bereitgestellten Durchsatz.
Unterstützte Modelle
Die folgenden Gemini-Modelle unterstützen das Zwischenspeichern von Kontext:
Weitere Informationen finden Sie unter Verfügbare stabile Gemini-Modellversionen. Das Zwischenspeichern von Kontext unterstützt alle MIME-Typen für unterstützte Modelle.
Verfügbarkeit
Kontext-Caching ist in Regionen verfügbar, in denen Generative AI in Vertex AI verfügbar ist. Weitere Informationen finden Sie unter Generative AI in Vertex AI-Standorten.
Unterstützung durch VPC Service Controls
Das Zwischenspeichern von Kontexten unterstützt VPC Service Controls. Das bedeutet, dass Ihr Cache nicht über Ihren Dienstperimeter hinaus exfiltriert werden kann. Wenn Sie Cloud Storage zum Erstellen Ihres Cache verwenden, fügen Sie Ihren Bucket auch in Ihren Dienstperimeter ein, um Ihre Cache-Inhalte zu schützen.
Weitere Informationen finden Sie in der Vertex AI-Dokumentation unter VPC Service Controls mit Vertex AI.