Panoramica della memorizzazione nella cache del contesto

Utilizza la memorizzazione nella cache del contesto per ridurre il costo delle richieste che contengono contenuti ripetuti con un numero elevato di token di input. Elementi di contesto memorizzati nella cache, ad esempio nel prompt può essere usata una grande quantità di testo, un file audio o un file video all'API Gemini per generare l'output. Richieste che utilizzano stessa cache nel prompt includerà anche un testo univoco per ogni prompt. Ad esempio, ogni richiesta di prompt che compone una conversazione in chat potrebbe includere la stessa cache di contesto che fa riferimento a un video, oltre al testo univoco che compone ogni turno nella chat. La dimensione minima di una cache di contesto è di 32.768 token.

Modelli supportati

I seguenti modelli supportano la memorizzazione nella cache di contesto:

  • Versioni stabili di Gemini 1.5 Flash
  • Versioni stabili di Gemini 1.5 Pro

Per ulteriori informazioni, vedi Versioni dei modelli Gemini stabili disponibili.

La memorizzazione nella cache del contesto è disponibile nelle regioni in cui è disponibile l'IA generativa su Vertex AI. Per ulteriori informazioni, vedi L'IA generativa nelle località di Vertex AI.

Tipi MIME supportati

La memorizzazione nella cache del contesto supporta i seguenti tipi MIME:

  • application/pdf
  • audio/mp3
  • audio/mpeg
  • audio/wav
  • image/jpeg
  • image/png
  • text/plain
  • video/avi
  • video/flv
  • video/mov
  • video/mp4
  • video/mpeg
  • video/mpegps
  • video/mpg
  • video/wmv

Quando utilizzare la memorizzazione nella cache del contesto

La memorizzazione nella cache del contesto è particolarmente adatta a situazioni in cui una al contesto iniziale viene fatto riferimento ripetutamente da richieste più brevi. Valuta l'uso di memorizzazione nella cache di contesto per casi d'uso quali:

  • Chatbot con istruzioni di sistema complete.
  • Analisi ripetitiva di file video di grandi dimensioni
  • Query ricorrenti su set di documenti di grandi dimensioni
  • Analisi frequenti del repository di codice o correzione di bug

Efficienza in termini di costi tramite la memorizzazione nella cache

La memorizzazione nella cache del contesto è una funzionalità a pagamento progettata per ridurre i costi operativi complessivi. La fatturazione si basa sui seguenti fattori:

  • Conteggio token cache: il numero di token di input memorizzati nella cache, fatturati a un anche se inclusi in prompt successivi.
  • Durata dell'archiviazione: la quantità di tempo per cui i token memorizzati nella cache vengono archiviati, fatturati ogni ora. I token memorizzati nella cache vengono eliminati alla scadenza di una cache di contesto.
  • Altri fattori: si applicano altri costi, ad esempio per i token di input non memorizzati nella cache e token di output.
per informazioni su Gemini e sulla memorizzazione nella cache del contesto.

Come utilizzare una cache di contesto

Per utilizzare la memorizzazione nella cache di contesto, devi prima creare la cache di contesto. Per fare riferimento della cache di contesto in una richiesta di prompt, utilizza il nome della risorsa corrispondente. Puoi il nome della risorsa di una cache di contesto nella risposta al comando usato a crearlo.

Ogni cache di contesto ha una scadenza predefinita di 60 minuti dopo la relativa ora di creazione. Se necessario, puoi specificare una data di scadenza diversa quando crei la cache di contesto o aggiornare la data di scadenza di una cache di contesto non scaduta.

I seguenti argomenti includono dettagli ed esempi per aiutarti Creare, utilizzare, aggiornare, ottenere informazioni ed eliminare una cache di contesto:

Passaggi successivi