Panoramica della memorizzazione nella cache del contesto

Usa la memorizzazione nella cache di contesto per ridurre il costo delle richieste che contengono si ripetono contenuti con un numero elevato di token di input. Gli elementi di contesto memorizzati nella cache, ad esempio nel prompt può essere usata una grande quantità di testo, un file audio o un file video richieste all'API Gemini per generare l'output. Richieste che usano la stessa cache nel prompt includono anche un testo univoco per ogni prompt. Ad esempio, ogni prompt che la richiesta che compone una conversazione in chat potrebbe includere la stessa cache di contesto che fa riferimento a un video insieme a un testo unico che comprende ogni turno chat. La dimensione minima di una cache di contesto è di 32.769 token.

Modelli supportati

I seguenti modelli supportano la memorizzazione nella cache di contesto:

  • Versioni stabili di Gemini 1.5 Flash
  • Versioni stabili di Gemini 1.5 Pro

Per ulteriori informazioni, vedi Versioni dei modelli Gemini stabili disponibili.

La memorizzazione nella cache del contesto è disponibile nella regione us-central1.

Quando utilizzare la memorizzazione nella cache di contesto

La memorizzazione nella cache del contesto è particolarmente adatta a situazioni in cui una al contesto iniziale viene fatto riferimento ripetutamente da richieste più brevi. Valuta l'uso memorizzazione nella cache di contesto per casi d'uso quali:

  • Chatbot con istruzioni di sistema complete.
  • Analisi ripetitiva di file video di lunga durata
  • Query ricorrenti su set di documenti di grandi dimensioni
  • Analisi frequenti del repository di codice o correzione di bug

Efficienza in termini di costi grazie alla memorizzazione nella cache

La memorizzazione nella cache del contesto è una funzionalità a pagamento progettata per ridurre i costi operativi complessivi. La fatturazione si basa sui seguenti fattori:

  • Conteggio token cache: il numero di token di input memorizzati nella cache, fatturati a un anche se inclusi in prompt successivi.
  • Durata dell'archiviazione: la quantità di tempo per cui i token memorizzati nella cache vengono archiviati, fatturati ogni ora. I token memorizzati nella cache vengono eliminati alla scadenza di una cache di contesto.
  • Altri fattori: si applicano altri costi, ad esempio per i token di input non memorizzati nella cache e token di output.

Come utilizzare una cache contestuale

Per utilizzare la memorizzazione nella cache di contesto, devi prima creare la cache di contesto. Per fare riferimento della cache di contesto in una richiesta di prompt, utilizza il nome della risorsa corrispondente. Puoi il nome della risorsa di una cache di contesto nella risposta al comando usato a crearlo.

Ogni cache di contesto ha una scadenza predefinita di 60 minuti dopo la data di creazione. Se necessario, puoi specificare una data di scadenza diversa quando crei la cache di contesto o aggiorni la data di scadenza di un cache di contesto.

I seguenti argomenti includono dettagli ed esempi per aiutarti Creare, utilizzare, aggiornare, ottenere informazioni ed eliminare una cache di contesto:

Passaggi successivi