Utilizza la memorizzazione nella cache del contesto per ridurre il costo delle richieste che contengono contenuti ripetuti con un numero elevato di token di input. Elementi di contesto memorizzati nella cache, ad esempio nel prompt può essere usata una grande quantità di testo, un file audio o un file video all'API Gemini per generare l'output. Richieste che utilizzano stessa cache nel prompt includerà anche un testo univoco per ogni prompt. Ad esempio, ogni richiesta di prompt che compone una conversazione in chat potrebbe includere la stessa cache di contesto che fa riferimento a un video, oltre al testo univoco che compone ogni turno nella chat. La dimensione minima di una cache di contesto è di 32.768 token.
Modelli supportati
I seguenti modelli supportano la memorizzazione nella cache di contesto:
- Versioni stabili di Gemini 1.5 Flash
- Versioni stabili di Gemini 1.5 Pro
Per ulteriori informazioni, vedi Versioni dei modelli Gemini stabili disponibili.
La memorizzazione nella cache del contesto è disponibile nelle regioni in cui è disponibile l'IA generativa su Vertex AI. Per ulteriori informazioni, vedi L'IA generativa nelle località di Vertex AI.
Tipi MIME supportati
La memorizzazione nella cache del contesto supporta i seguenti tipi MIME:
application/pdf
audio/mp3
audio/mpeg
audio/wav
image/jpeg
image/png
text/plain
video/avi
video/flv
video/mov
video/mp4
video/mpeg
video/mpegps
video/mpg
video/wmv
Quando utilizzare la memorizzazione nella cache del contesto
La memorizzazione nella cache del contesto è particolarmente adatta a situazioni in cui una al contesto iniziale viene fatto riferimento ripetutamente da richieste più brevi. Valuta l'uso di memorizzazione nella cache di contesto per casi d'uso quali:
- Chatbot con istruzioni di sistema complete.
- Analisi ripetitiva di file video di grandi dimensioni
- Query ricorrenti su set di documenti di grandi dimensioni
- Analisi frequenti del repository di codice o correzione di bug
Efficienza in termini di costi tramite la memorizzazione nella cache
La memorizzazione nella cache del contesto è una funzionalità a pagamento progettata per ridurre i costi operativi complessivi. La fatturazione si basa sui seguenti fattori:
- Conteggio token cache: il numero di token di input memorizzati nella cache, fatturati a un anche se inclusi in prompt successivi.
- Durata dell'archiviazione: la quantità di tempo per cui i token memorizzati nella cache vengono archiviati, fatturati ogni ora. I token memorizzati nella cache vengono eliminati alla scadenza di una cache di contesto.
- Altri fattori: si applicano altri costi, ad esempio per i token di input non memorizzati nella cache e token di output.
Come utilizzare una cache di contesto
Per utilizzare la memorizzazione nella cache di contesto, devi prima creare la cache di contesto. Per fare riferimento della cache di contesto in una richiesta di prompt, utilizza il nome della risorsa corrispondente. Puoi il nome della risorsa di una cache di contesto nella risposta al comando usato a crearlo.
Ogni cache di contesto ha una scadenza predefinita di 60 minuti dopo la relativa ora di creazione. Se necessario, puoi specificare una data di scadenza diversa quando crei la cache di contesto o aggiornare la data di scadenza di una cache di contesto non scaduta.
I seguenti argomenti includono dettagli ed esempi per aiutarti Creare, utilizzare, aggiornare, ottenere informazioni ed eliminare una cache di contesto:
- Creare una cache di contesto
- Utilizzare una cache di contesto
- Ottenere informazioni su una cache di contesto
- Aggiornare la scadenza di una cache di contesto
- Eliminare una cache di contesto
Passaggi successivi
- Scopri di più sull'API Gemini.
- Scopri come utilizzare prompt multimodali.