Panoramica della memorizzazione nella cache del contesto

Utilizza la memorizzazione nella cache del contesto per ridurre il costo delle richieste che contengono contenuti ripetuti con un numero elevato di token di input. Elementi di contesto memorizzati nella cache, come una grande quantità di testo, un file audio o un file video, possono essere utilizzati nelle richieste di prompt all'API Gemini per generare l'output. Le richieste che usano la stessa cache nel prompt includono anche un testo univoco per ogni prompt. Ad esempio, ogni richiesta di prompt che compone una conversazione in chat potrebbe includere la stessa cache di contesto che fa riferimento a un video insieme a un testo univoco che comprende ogni turno della chat. La dimensione minima di una cache di contesto è di 32.769 token.

Modelli supportati

I seguenti modelli supportano la memorizzazione nella cache di contesto:

  • Versioni stabili di Gemini 1.5 Flash
  • Versioni stabili di Gemini 1.5 Pro

Per maggiori informazioni, consulta Versioni di modelli stabili Gemini disponibili.

La memorizzazione nella cache del contesto è disponibile nella regione us-central1.

Quando utilizzare la memorizzazione nella cache di contesto

La memorizzazione nella cache del contesto è particolarmente adatta agli scenari in cui richieste più brevi fanno riferimento ripetutamente a un contesto iniziale sostanziale. Valuta la possibilità di utilizzare la memorizzazione nella cache di contesto per casi d'uso quali:

  • Chatbot con istruzioni di sistema complete.
  • Analisi ripetitiva di file video di lunga durata
  • Query ricorrenti su set di documenti di grandi dimensioni
  • Analisi frequenti del repository di codice o correzione di bug

Efficienza in termini di costi grazie alla memorizzazione nella cache

La memorizzazione nella cache del contesto è una funzionalità a pagamento progettata per ridurre i costi operativi complessivi. La fatturazione si basa sui seguenti fattori:

  • Conteggio token cache: il numero di token di input memorizzati nella cache, fatturati a una tariffa ridotta quando inclusi nei prompt successivi.
  • Durata dell'archiviazione: la quantità di tempo di archiviazione dei token memorizzati nella cache, fatturata ogni ora. I token memorizzati nella cache vengono eliminati alla scadenza di una cache di contesto.
  • Altri fattori: vengono applicati altri addebiti, ad esempio per i token di input e di output non memorizzati nella cache.

Come utilizzare una cache contestuale

Per utilizzare la memorizzazione nella cache di contesto, devi prima creare la cache di contesto. Per fare riferimento ai contenuti della cache di contesto in una richiesta di prompt, utilizza il nome della risorsa corrispondente. Puoi individuare il nome della risorsa di una cache di contesto nella risposta al comando utilizzato per crearla.

Ogni cache di contesto ha una scadenza predefinita di 60 minuti dopo la data di creazione. Se necessario, puoi specificare una scadenza diversa quando crei la cache di contesto o aggiorni la data di scadenza di una cache di contesto non scaduta.

Gli argomenti seguenti includono dettagli ed esempi utili per creare, utilizzare, aggiornare, ottenere informazioni ed eliminare una cache di contesto:

Passaggi successivi