Verwenden Sie das Kontext-Caching, um die Kosten für Anfragen zu reduzieren, die wiederkehrende Inhalte mit vielen Eingabetokens enthalten. Im Cache gespeicherte Kontextelemente, z. B. große Textmengen, Audio- oder Videodateien, können in Prompt-Anfragen an die Gemini API genutzt werden, um Ausgaben zu generieren. Anfragen, die im Prompt denselben Cache verwenden, weisen auch den für Prompts einmaligen Text auf. Zum Beispiel können Prompts zum Erstellen von Chatunterhaltungen denselben Kontext-Cache enthalten, der z. B. auf ein Video verweist, das einmaligen Text enthält, der die einzelnen Chat-Runden umfasst. Die Mindestgröße eines Kontext-Caches beträgt 32.769 Tokens.
Unterstützte Modelle
Die folgenden Modelle unterstützen Kontext-Caching:
- Stabile Versionen von Gemini 1.5 Flash
- Stabile Versionen von Gemini 1.5 Pro
Weitere Informationen finden Sie unter Verfügbare stabile Gemini-Modellversionen.
Wann sollte Kontext-Caching verwendet werden?
Kontext-Caching eignet sich besonders für Szenarien, bei denen in kürzeren Anfragen wiederholt auf eine hohe anfängliche Kontextmenge verwiesen wird. Ziehen Sie die Verwendung von Kontext-Caching für Anwendungsfälle wie diese in Betracht:
- Chatbots mit ausführlichen Systemanweisungen
- Wiederholte Analyse langer Videodateien
- Wiederkehrende Abfragen großer Dokumentgruppen
- Häufige Analyse von Code-Repositories oder Fehlerkorrekturen
Kosteneffizienz durch Caching
Kontext-Caching ist eine kostenpflichtige Funktion, mit der die Betriebskosten insgesamt gesenkt werden sollen. Die Abrechnung basiert auf den folgenden Faktoren:
- Anzahl der Cache-Tokens: Die Anzahl der im Cache gespeicherten Eingabetokens, für die ein ermäßigter Tarif für die Nutzung in nachfolgenden Prompts gilt.
- Speicherdauer: Die Zeit, über die hinweg im Cache gespeicherte Tokens erhalten werden. Die Abrechnung erfolgt Stundengenau. Die im Cache gespeicherten Tokens werden gelöscht, wenn ein Kontext-Cache abläuft.
- Andere Faktoren: Es fallen weitere Gebühren an, z. B. für nicht im Cache gespeicherte Eingabe- und Ausgabetokens.
Informationen zu den Preisen finden Sie unter Gemini API-Preise.
Kontext-Cache verwenden
Um Kontext-Caching zu verwenden, erstellen Sie zuerst den Kontext-Cache. Verwenden Sie den Ressourcennamen, um in einer Prompt-Anfrage auf den Inhalt des Kontext-Caches zu verweisen. Sie finden den Ressourcennamen eines Kontext-Cache in der Antwort des Befehls, mit dem der Cache erstellt wurde.
Jeder Kontext-Cache hat eine Standardablaufzeit von 60 Minuten nach seiner Erstellung. Bei Bedarf können Sie beim Erstellen des Kontext-Caches oder beim Aktualisieren der Ablaufzeit eines nicht abgelaufenen Kontext-Cache eine andere Ablaufzeit angeben.
Die folgenden Themen enthalten Details und Beispiele, die Sie dabei unterstützen, Kontext-Caches zu erstellen, zu verwenden, zu aktualisieren, abzurufen und zu löschen:
- Kontext-Cache erstellen
- Kontext-Cache verwenden
- Informationen zu einem Kontext-Cache abrufen
- Ablaufzeit eines Kontext-Caches aktualisieren
- Kontext-Cache löschen
Nächste Schritte
- Weitere Informationen zur Gemini API
- Multimodale Prompts verwenden