Prompt-Caching

Die Anthropic Claude-Modelle bieten ein Prompt-Caching, um Latenz und Kosten zu reduzieren, wenn dieselben Inhalte in mehreren Anfragen wiederverwendet werden. Wenn Sie eine Abfrage senden, können Sie alle oder bestimmte Teile Ihrer Eingabe im Cache speichern, damit nachfolgende Abfragen die im Cache gespeicherten Ergebnisse der vorherigen Anfrage verwenden können. So werden zusätzliche Rechen- und Netzwerkkosten vermieden. Caches sind für Ihr Google Cloud -Projekt eindeutig und können nicht von anderen Projekten verwendet werden.

Weitere Informationen zur Strukturierung von Prompts finden Sie in der Dokumentation zum Prompt-Caching von Anthropic.

Unterstützte Anthropic Claude-Modelle

Vertex AI unterstützt das Prompt-Caching für die folgenden Claude-Modelle von Anthropic:

  • Claude 3.5 Sonnet v2 (claude-3-5-sonnet-v2@20241022)
  • Claude 3.5 Sonnet (claude-3-5-sonnet@20240620)
  • Claude 3.5 Haiku (claude-3-5-haiku@20241022)
  • Claude 3 Haiku (claude-3-haiku@20240307)
  • Claude 3 Opus (claude-3-opus@20240229)

Datenverarbeitung

Das explizite Prompt-Caching von Anthropic ist ein Feature der Claude-Modelle von Anthropic. Das Vertex AI-Angebot dieser Anthropic-Modelle verhält sich wie in der Anthropic-Dokumentation beschrieben.

Das Caching von Prompts ist eine optionale Funktion. Claude berechnet die Hash-Werte (Fingerabdrücke) von Anfragen für Caching-Schlüssel. Diese Hashes werden nur für Anfragen berechnet, bei denen das Caching aktiviert ist.

Das Prompt-Caching ist zwar eine Funktion, die von den Claude-Modellen implementiert wird, aus Sicht der Datenverarbeitung betrachtet Google diese Hashes jedoch als eine Art „Nutzermetadaten“. Sie werden gemäß den Google CloudDatenschutzhinweisen als „Dienstdaten“ des Kunden behandelt und nicht als „Kundendaten“ gemäß dem Zusatz zur Verarbeitung von Cloud-Daten (Kunden). Insbesondere gelten für diese Hashes keine zusätzlichen Schutzmaßnahmen für „Kundendaten“. Google verwendet diese Hash-Werte nicht für andere Zwecke.

Wenn Sie diese Funktion für Prompts vollständig deaktivieren und sie für bestimmte Google Cloud Projekte nicht verfügbar machen möchten, können Sie sich an den Kundensupport wenden und die entsprechenden Projektnummern angeben. Wenn das explizite Caching für ein Projekt deaktiviert ist, werden Anfragen vom Projekt mit aktiviertem sofortigem Caching abgelehnt.

Prompt-Caching verwenden

Sie können das Anthropic Claude SDK oder die Vertex AI REST API verwenden, um Anfragen an den Vertex AI-Endpunkt zu senden.

Weitere Informationen finden Sie unter So funktioniert das Prompt-Caching.

Weitere Beispiele finden Sie in der Anthropic-Dokumentation unter Beispiele für Prompt-Caching.

Das Caching erfolgt automatisch, wenn nachfolgende Anfragen denselben Text, dieselben Bilder und denselben cache_control-Parameter wie die erste Anfrage enthalten. Alle Anfragen müssen außerdem den Parameter cache_control in denselben Blöcken enthalten.

Der Cache hat eine Lebensdauer von fünf Minuten. Er wird jedes Mal aktualisiert, wenn auf die im Cache gespeicherten Inhalte zugegriffen wird.

Preise

Das Caching von Prompts kann sich auf die Abrechnungskosten auswirken. Hinweis:

  • Cache-Schreibtokens sind 25% teurer als Basis-Eingabetokens.
  • Cache-Lesetokens sind 90% günstiger als Basiseingabetokens.
  • Für reguläre Eingabe- und Ausgabetokens gelten die Standardpreise.

Weitere Informationen finden Sie auf der Preisseite.