Utilisez la mise en cache de contexte pour réduire le coût des requêtes contenant du contenu répété avec un nombre élevé de jetons d'entrée. Les éléments de contexte mis en cache, tels qu'une grande quantité de texte, un fichier audio ou un fichier vidéo, peuvent être utilisés dans les requêtes adressées à l'API Gemini pour générer un résultat. Les requêtes qui utilisent le même cache dans la requête incluent également du texte unique pour chaque requête. Par exemple, chaque requête qui compose une conversation de chat peut inclure le même cache de contexte qui fait référence à une vidéo, ainsi qu'un texte unique qui comprend chaque tour de la conversation. La taille minimale d'un cache de contexte est de 32 768 jetons.
Modèles compatibles
Les modèles suivants sont compatibles avec la mise en cache de contexte :
- Versions stables de Gemini 1.5 Flash
- Versions stables de Gemini 1.5 Pro
Pour en savoir plus, consultez les versions stables disponibles des modèles Gemini.
La mise en cache du contexte est disponible dans les régions où l'IA générative sur Vertex AI est disponible. Pour en savoir plus, consultez la page IA générative dans les emplacements Vertex AI.
Types MIME compatibles
La mise en cache du contexte est compatible avec les types MIME suivants :
application/pdf
audio/mp3
audio/mpeg
audio/wav
image/jpeg
image/png
text/plain
video/avi
video/flv
video/mov
video/mp4
video/mpeg
video/mpegps
video/mpg
video/wmv
Quand utiliser la mise en cache de contexte
La mise en cache de contexte est particulièrement adaptée aux scénarios où un contexte initial important est référencé à plusieurs reprises par des requêtes plus courtes. Envisagez d'utiliser la mise en cache de contexte pour les cas d'utilisation suivants :
- Chatbots avec des instructions système détaillées
- Analyse répétitive de fichiers vidéo longs
- Requêtes récurrentes sur des ensembles de documents volumineux
- Analyse fréquente du dépôt de code ou correction de bugs
Rentabilité grâce à la mise en cache
La mise en cache de contexte est une fonctionnalité payante conçue pour réduire les coûts opérationnels globaux. La facturation dépend des facteurs suivants :
- Nombre de jetons mis en cache : nombre de jetons d'entrée mis en cache, facturés à un tarif réduit lorsqu'ils sont inclus dans les requêtes suivantes.
- Durée de stockage : durée pendant laquelle les jetons mis en cache sont stockés, facturés à l'heure. Les jetons mis en cache sont supprimés lorsqu'un cache de contexte expire.
- Autres facteurs : d'autres frais s'appliquent, par exemple pour les jetons d'entrée et de sortie non mis en cache.
Utiliser un cache de contexte
Pour utiliser la mise en cache de contexte, vous devez d'abord créer le cache de contexte. Pour référencer le contenu du cache de contexte dans une requête, utilisez son nom de ressource. Vous pouvez localiser le nom de ressource d'un cache de contexte dans la réponse de la commande utilisée pour le créer.
Chaque cache de contexte a un délai d'expiration par défaut de 60 minutes après sa création. Si nécessaire, vous pouvez spécifier un délai d'expiration différent lorsque vous créez le cache de contexte ou modifiez le délai d'expiration d'un cache de contexte non expiré.
Les rubriques suivantes incluent des détails et des exemples qui vous aideront à créer, utiliser, modifier, obtenir des informations et supprimer un cache de contexte :
- Créer un cache de contexte
- Utiliser un cache de contexte
- Obtenir des informations sur un cache de contexte
- Modifier l'heure d'expiration d'un cache de contexte
- Supprimer un cache de contexte
Étapes suivantes
- En savoir plus sur l'API Gemini
- Découvrez comment utiliser les requêtes multimodales.