Panoramica della memorizzazione nella cache del contesto

Utilizza la memorizzazione nella cache del contesto per ridurre il costo delle richieste che contengono contenuti ripetuti con un numero elevato di token di input. Gli elementi di contesto memorizzati nella cache, ad esempio una grande quantità di testo, un file audio o un file video, possono essere utilizzati nelle richieste di prompt all'API Gemini per generare output. Le richieste che utilizzano la stessa cache nel prompt includono anche un testo univoco per ogni prompt. Ad esempio, ogni richiesta di prompt che compone una conversazione in chat potrebbe includere la stessa cache di contesto che fa riferimento a un video, oltre al testo univoco che compone ogni turno nella chat. La dimensione minima di una cache di contesto è 32.768 token.

Modelli supportati

I seguenti modelli supportano la memorizzazione nella cache del contesto:

  • Versioni stabili di Gemini 1.5 Flash
  • Versioni stabili di Gemini 1.5 Pro

Per saperne di più, consulta Le versioni dei modelli stabili di Gemini disponibili.

La memorizzazione nella cache del contesto è disponibile nelle regioni in cui è disponibile l'IA generativa su Vertex AI. Per ulteriori informazioni, consulta Località dell'IA generativa su Vertex AI.

Tipi MIME supportati

La memorizzazione nella cache del contesto supporta i seguenti tipi MIME:

  • application/pdf
  • audio/mp3
  • audio/mpeg
  • audio/wav
  • image/jpeg
  • image/png
  • text/plain
  • video/avi
  • video/flv
  • video/mov
  • video/mp4
  • video/mpeg
  • video/mpegps
  • video/mpg
  • video/wmv

Quando utilizzare la memorizzazione nella cache del contesto

La memorizzazione nella cache del contesto è particolarmente adatta a scenari in cui un contesto iniziale sostanziale viene fatto riferimento ripetutamente da richieste più brevi. Valuta la possibilità di utilizzare la memorizzazione nella cache del contesto per casi d'uso come:

  • Chatbot con istruzioni di sistema dettagliate
  • Analisi ripetitiva di file video di grandi dimensioni
  • Query ricorrenti su insiemi di documenti di grandi dimensioni
  • Analisi frequente del repository di codice o correzione di bug

Efficienza in termini di costi tramite la memorizzazione nella cache

La memorizzazione nella cache del contesto è una funzionalità a pagamento progettata per ridurre i costi operativi complessivi. La fatturazione si basa sui seguenti fattori:

  • Numero di token della cache:il numero di token di input memorizzati nella cache, fatturati a un tasso ridotto se inclusi nei prompt successivi.
  • Durata di archiviazione:il periodo di tempo per cui vengono archiviati i token memorizzati nella cache, fatturato su base oraria. I token memorizzati nella cache vengono eliminati alla scadenza di una cache di contesto.
  • Altri fattori: si applicano altri costi, ad esempio per i token di input e di output non memorizzati nella cache.
per informazioni su Gemini e sulla memorizzazione nella cache del contesto.

Come utilizzare una cache di contesto

Per utilizzare la memorizzazione nella cache del contesto, devi prima creare la cache del contesto. Per fare riferimento ai contenuti della cache di contesto in una richiesta di prompt, utilizza il nome della risorsa. Puoi trovare il nome della risorsa di una cache di contesto nella risposta del comando utilizzato per crearla.

Ogni cache di contesto ha una scadenza predefinita pari a 60 minuti dopo la relativa ora di creazione. Se necessario, puoi specificare una data di scadenza diversa quando crei la cache di contesto o aggiornare la data di scadenza di una cache di contesto non scaduta.

I seguenti argomenti includono dettagli ed esempi che ti aiutano a creare, utilizzare, aggiornare, ottenere informazioni ed eliminare una cache di contesto:

Supporto dei Controlli di servizio VPC

La memorizzazione nella cache del contesto supporta i Controlli di servizio VPC, il che significa che la cache non può essere esfiltrata oltre il perimetro del servizio. Se utilizzi Cloud Storage per costruire la cache, includi anche il bucket nel perimetro di servizio per difendere i contenuti della cache.

Per ulteriori informazioni, consulta Controlli di servizio VPC con Vertex AI nella documentazione di Vertex AI.

Passaggi successivi