I modelli Anthropic Claude offrono una memorizzazione nella cache rapida per ridurre la latenza e i costi quando si riutilizzano gli stessi contenuti in più richieste. Quando invii una query, puoi memorizzare nella cache tutte o parti specifiche dell'input in modo che le query successive possano utilizzare i risultati memorizzati nella cache della richiesta precedente. In questo modo si evitano costi aggiuntivi per l'elaborazione e la rete. Le cache sono univoche per il tuo progetto Google Cloud e non possono essere utilizzate da altri progetti.
Per informazioni dettagliate su come strutturare i prompt, consulta la documentazione relativa alla memorizzazione nella cache dei prompt di Anthropic.
Modelli Anthropic Claude supportati
Vertex AI supporta la memorizzazione nella cache dei prompt per i seguenti modelli Claude di Anthropic:
- Claude 3.5 Sonnet v2 (
claude-3-5-sonnet-v2@20241022
) - Claude 3.5 Haiku (
claude-3-5-haiku@20241022
)
Trattamento dati
La memorizzazione nella cache dei prompt espliciti di Anthropic è una funzionalità dei modelli Claude di Anthropic. L'offerta Vertex AI di questi modelli Anthropic si comporta come descritto nella documentazione di Anthropic.
La memorizzazione nella cache dei prompt è una funzionalità facoltativa. Claude calcola gli hash (impronte digitali) delle richieste per le chiavi di memorizzazione nella cache. Questi hash vengono calcolati solo per le richieste per le quali è attivata la memorizzazione nella cache.
Sebbene la memorizzazione nella cache dei prompt sia una funzionalità implementata dai modelli Claude, dal punto di vista della gestione dei dati, Google considera questi hash come un tipo di "Metadati dell'utente". Questi dati vengono trattati come "Dati di servizio" del cliente ai sensi dell'Informativa sulla privacy diGoogle Cloud e non come "Dati del cliente" ai sensi dell'Addendum per il trattamento dei dati Cloud (clienti). In particolare, a questi hash non si applicano le protezioni aggiuntive per i "Dati dei clienti". Google non utilizza questi hash per altri scopi.
Se vuoi disattivare completamente questa funzionalità di memorizzazione nella cache dei prompt e renderla non disponibile in progetti Google Cloud specifici, puoi richiederlo contattando l'assistenza clienti e fornendo i numeri di progetto pertinenti. Una volta disattivata la memorizzazione nella cache esplicita per un progetto, le richieste provenienti dal progetto con la memorizzazione nella cache immediata abilitata vengono rifiutate.
Utilizzare la memorizzazione nella cache dei prompt
Puoi utilizzare l'SDK Anthropic Claude o l'API REST Vertex AI per inviare richieste all'endpoint Vertex AI.
Per ulteriori informazioni, vedi Come funziona la memorizzazione nella cache dei prompt.
Per altri esempi, consulta gli esempi di memorizzazione nella cache della richiesta nella documentazione di Anthropic.
La memorizzazione nella cache avviene automaticamente quando le richieste successive contengono testo, immagini e parametro cache_control
identici alla prima richiesta. Tutte le richieste devono includere anche il parametro cache_control
negli stessi blocchi.
La cache ha una durata di cinque minuti. Viene aggiornato ogni volta che si accede ai contenuti memorizzati nella cache.
Prezzi
La memorizzazione nella cache dei prompt può influire sui costi di fatturazione. Ricorda:
- I token di scrittura nella cache sono il 25% più costosi dei token di input di base
- I token di lettura della cache sono inferiori del 90% rispetto ai token di input di base
- I token di input e output standard hanno un prezzo a tariffe standard
Per ulteriori informazioni, consulta la pagina dei prezzi.