La memorizzazione nella cache del contesto contribuisce a ridurre il costo e la latenza delle richieste a Gemini che contengono contenuti ripetuti. Vertex AI offre due tipi di memorizzazione nella cache:
- Memorizzazione implicita nella cache:memorizzazione automatica nella cache abilitata per impostazione predefinita che consente di risparmiare sui costi quando si verificano hit della cache.
- Caching esplicito:caching manuale attivato utilizzando l'API Vertex AI, in cui dichiari esplicitamente i contenuti che vuoi memorizzare nella cache e se i prompt devono o meno fare riferimento ai contenuti della cache.
Per la memorizzazione nella cache implicita ed esplicita, il campo cachedContentTokenCount
nei metadati della risposta indica il numero di token nella parte memorizzata nella cache
dell'input. Le richieste di memorizzazione nella cache devono contenere almeno 2048 token.
La memorizzazione nella cache implicita ed esplicita è supportata quando utilizzi i seguenti modelli:
Per la memorizzazione nella cache implicita ed esplicita, non sono previsti costi aggiuntivi per la scrittura nella cache, oltre ai costi standard dei token di input. Per la memorizzazione nella cache esplicita, esistono costi di archiviazione in base alla durata di archiviazione delle cache. Non sono previsti costi di archiviazione per la memorizzazione nella cache implicita. Per maggiori informazioni, consulta la pagina Prezzi di Vertex AI.
Memorizzazione nella cache implicita
Per impostazione predefinita, la memorizzazione nella cache implicita è abilitata per tutti i Google Cloud progetti. La memorizzazione nella cache implicita offre uno sconto del 75% sui token memorizzati nella cache rispetto ai token di input standard.
Se abilitati, i risparmi sui costi per gli successo della cache implicita vengono trasferiti automaticamente a te. Per aumentare le probabilità di un successo della cache implicito:
- Inserisci i contenuti più grandi e comuni all'inizio del prompt.
- Invia richieste con un prefisso simile in un breve periodo di tempo.
Memorizzazione nella cache esplicita
La memorizzazione nella cache esplicita offre un maggiore controllo e garantisce uno sconto del 75% quando vengono fatti riferimenti alle cache esplicite.
Utilizzando l'API Vertex AI, puoi:
- Crea cache contestuali e controllale in modo più efficace.
- Utilizza una cache contestuale facendo riferimento ai suoi contenuti in una richiesta di prompt con il nome della risorsa.
- Aggiorna il tempo di scadenza (Time to Live o TTL) di una cache contestuale oltre i 60 minuti predefiniti.
- Elimina una cache contestuale quando non è più necessaria.
Puoi anche utilizzare l'API Vertex AI per recuperare informazioni su una cache del contesto.
Le cache esplicite interagiscono con la memorizzazione implicita nella cache, il che potrebbe portare a una memorizzazione nella cache aggiuntiva oltre ai contenuti specificati durante la creazione di una cache. Per impedire la conservazione dei dati della cache, disattiva la memorizzazione nella cache implicita ed evita di creare cache esplicite. Per ulteriori informazioni, vedi Attivare e disattivare la memorizzazione nella cache.
Quando utilizzare la memorizzazione nella cache del contesto
La memorizzazione nella cache del contesto è particolarmente adatta agli scenari in cui un contesto iniziale sostanziale viene referenziato ripetutamente da richieste successive.
Gli elementi di contesto memorizzati nella cache, come una grande quantità di testo, un file audio o un file video, possono essere utilizzati nelle richieste di prompt all'API Gemini per generare output. Le richieste che utilizzano la stessa cache nel prompt includono anche testo univoco per ogni prompt. Ad esempio, ogni richiesta di prompt che compone una conversazione di chat potrebbe includere la stessa cache di contesto che fa riferimento a un video insieme a un testo univoco che comprende ogni turno della chat.
Prendi in considerazione l'utilizzo della memorizzazione nella cache del contesto per casi d'uso come:
- Chatbot con istruzioni di sistema dettagliate
- Analisi ripetitiva di file video di grandi dimensioni
- Query ricorrenti su grandi set di documenti
- Analisi frequente del repository di codici o correzione di bug
Il supporto della memorizzazione nella cache del contesto per il throughput riservato è in anteprima per la memorizzazione nella cache implicita. La memorizzazione esplicita nella cache non è supportata per il throughput riservato. Per ulteriori dettagli, consulta la guida al throughput di cui è stato eseguito il provisioning.
Disponibilità
La memorizzazione nella cache del contesto è disponibile nelle regioni in cui è disponibile l'AI generativa su Vertex AI. Per ulteriori informazioni, consulta Località dell'AI generativa su Vertex AI.
Limiti
I contenuti memorizzati esplicitamente nella cache devono rispettare i limiti indicati nella tabella seguente:
Limiti della memorizzazione nella cache del contesto | |
---|---|
Numero minimo di token della cache |
2,048 per tutti i modelli
|
Dimensione massima dei contenuti che puoi memorizzare nella cache utilizzando un blob o un testo |
10 MB |
Tempo minimo prima della scadenza di una cache dopo la creazione |
1 minuto |
Tempo massimo prima della scadenza di una cache dopo la creazione |
Non esiste una durata massima della cache |
Supporto dei Controlli di servizio VPC
La memorizzazione nella cache del contesto supporta i Controlli di servizio VPC, il che significa che la cache non può essere esfiltrata oltre il perimetro di servizio. Se utilizzi Cloud Storage per creare la cache, includi anche il bucket nel perimetro di servizio per proteggere i contenuti della cache.
Per ulteriori informazioni, consulta la sezione Controlli di servizio VPC con Vertex AI nella documentazione di Vertex AI.
Passaggi successivi
- Scopri di più sull'API Gemini.
- Scopri come utilizzare i prompt multimodali.