Diese Seite wurde von der Cloud Translation API übersetzt.

Kontext-Caching – Übersicht

Das Kontext-Caching trägt dazu bei, die Kosten und Latenz von Anfragen an Gemini zu reduzieren, die wiederholte Inhalte enthalten. Vertex AI bietet zwei Arten von Caching:

Implizites Caching:Standardmäßig aktiviertes automatisches Caching, das bei Cache-Treffern Kosteneinsparungen ermöglicht.
Explizites Caching:Das manuelle Caching wird über die Vertex AI API aktiviert. Sie deklarieren explizit die Inhalte, die Sie im Cache speichern möchten, und geben an, ob sich Ihre Prompts auf die Inhalte im Cache beziehen sollen.

Sowohl beim impliziten als auch beim expliziten Caching gibt das Feld cachedContentTokenCount in den Metadaten Ihrer Antwort die Anzahl der Tokens im zwischengespeicherten Teil Ihrer Eingabe an. Caching-Anfragen müssen mindestens 2.048 Tokens enthalten.

Speicherkosten für Caching

Sowohl beim impliziten als auch beim expliziten Caching fallen für das Schreiben in den Cache keine zusätzlichen Kosten an, die über die Standardkosten für Eingabetokens hinausgehen. Beim expliziten Caching fallen Speicherkosten an, die davon abhängen, wie lange Caches gespeichert werden. Für das implizite Caching fallen keine Speicherkosten an. Weitere Informationen finden Sie unter Vertex AI-Preise.

Implizites Caching

Für alle Google Cloud Projekte ist das implizite Caching standardmäßig aktiviert. Durch implizites Caching erhalten Sie einen Rabatt von 90% auf gecachte Tokens im Vergleich zu Standard-Eingabetokens.

Wenn diese Option aktiviert ist, werden die Kosteneinsparungen durch implizite Cache-Treffer automatisch an Sie weitergegeben. So erhöhen Sie die Wahrscheinlichkeit eines impliziten Cache-Treffers:

Platzieren Sie große und allgemeine Inhalte am Anfang Ihres Prompts.
Anfragen mit einem ähnlichen Präfix werden innerhalb kurzer Zeit gesendet.

Unterstützte Modelle

Implizites Caching wird bei Verwendung der folgenden Modelle unterstützt:

Das implizite Caching unterstützt auch die neuesten Aliase, darunter:

gemini-flash-latest
gemini-flash-lite-latest

Explizites Caching

Explizites Caching bietet mehr Kontrolle und sorgt für einen Rabatt, wenn explizite Caches referenziert werden. Bei Gemini 2.5-Modellen beträgt dieser Rabatt 90%, bei Gemini 2.0-Modellen 75%.

Mit der Vertex AI API haben Sie folgende Möglichkeiten:

Kontext-Caches erstellen und effektiver steuern.
Kontext-Cache verwenden: Verweisen Sie in einer Prompt-Anfrage mit dem Ressourcennamen auf den Inhalt des Kontext-Caches.
Ablaufzeit (Gültigkeitsdauer oder TTL) eines Kontext-Caches über die Standardeinstellung von 60 Minuten hinaus aktualisieren.
Kontext-Cache löschen, wenn er nicht mehr benötigt wird.

Sie können auch die Vertex AI API verwenden, um Informationen zu einem Kontext-Cache abzurufen.

Explizite Caches interagieren mit dem impliziten Caching, was dazu führen kann, dass beim Erstellen eines Caches zusätzliche Inhalte gecacht werden. Um die Aufbewahrung von Cache-Daten zu verhindern, deaktivieren Sie das implizite Caching und vermeiden Sie das Erstellen expliziter Caches. Weitere Informationen finden Sie unter Caching aktivieren und deaktivieren.

Unterstützte Modelle

Explizites Caching wird bei den folgenden Modellen unterstützt:

Das explizite Caching unterstützt auch die neuesten Aliase, darunter:

gemini-flash-latest
gemini-flash-lite-latest

Wann Kontext-Caching verwendet werden sollte

Kontext-Caching eignet sich besonders für Szenarien, bei denen in nachfolgenden Anfragen wiederholt auf eine hohe anfängliche Kontextmenge verwiesen wird.

Im Cache gespeicherte Kontextelemente, z. B. große Textmengen, Audio- oder Videodateien, können in Prompt-Anfragen an die Gemini API genutzt werden, um Ausgaben zu generieren. Anfragen, die im Prompt denselben Cache verwenden, weisen auch den für Prompts einmaligen Text auf. Zum Beispiel können Promptanfragen zum Erstellen von Chatunterhaltungen denselben Kontext-Cache enthalten, der z. B. auf ein Video verweist und zusätzlich einmaligen Text enthält, der die einzelnen Chat-Runden umfasst.

Ziehen Sie die Verwendung von Kontext-Caching für Anwendungsfälle wie diese in Betracht:

Chatbots mit ausführlichen Systemanweisungen
Wiederholte Analyse langer Videodateien
Wiederkehrende Abfragen großer Dokumentgruppen
Häufige Analyse des Code-Repositorys oder Fehlerbehebung

Die Unterstützung für das Zwischenspeichern von Kontext für den bereitgestellten Durchsatz befindet sich in der Vorschau für das implizite Zwischenspeichern. Explizites Caching wird für bereitgestellten Durchsatz nicht unterstützt. Weitere Informationen finden Sie im Leitfaden zum bereitgestellten Durchsatz.

Verfügbarkeit

Kontext-Caching ist in Regionen verfügbar, in denen Generative AI in Vertex AI verfügbar ist. Weitere Informationen finden Sie unter Generative AI in Vertex AI-Standorten.

Limits

Die Inhalte, die Sie explizit im Cache speichern, müssen den in der folgenden Tabelle aufgeführten Beschränkungen entsprechen:

Limits für Kontext-Caching
Mindestanzahl von Cache-Tokens	`2,048` für alle Modelle
Maximale Größe von Inhalten, die Sie mit einem Blob oder Text im Cache speichern können	10 MB
Mindestzeit, bevor ein Cache nach dessen Erstellung abläuft	1 Minute
Maximale Zeit, bevor ein Cache nach dessen Erstellung abläuft	Es gibt keine maximale Cache-Dauer.

Unterstützung durch VPC Service Controls

Das Zwischenspeichern von Kontexten unterstützt VPC Service Controls. Das bedeutet, dass Ihr Cache nicht über Ihren Dienstperimeter hinaus exfiltriert werden kann. Wenn Sie Cloud Storage zum Erstellen Ihres Cache verwenden, fügen Sie Ihren Bucket auch in Ihren Dienstperimeter ein, um Ihre Cacheinhalte zu schützen.

Weitere Informationen finden Sie in der Vertex AI-Dokumentation unter VPC Service Controls mit Vertex AI.

Kontext-Caching – Übersicht

Speicherkosten für Caching

Implizites Caching

Unterstützte Modelle

Explizites Caching

Unterstützte Modelle

Wann Kontext-Caching verwendet werden sollte

Verfügbarkeit

Limits

Unterstützung durch VPC Service Controls

Nächste Schritte