Présentation de la mise en cache de contexte

Utilisez la mise en cache de contexte pour réduire le coût des requêtes contenant du contenu répété avec un nombre élevé de jetons d'entrée. Les éléments de contexte mis en cache, tels qu'une grande quantité de texte, un fichier audio ou un fichier vidéo, peuvent être utilisés dans les requêtes adressées à l'API Gemini pour générer un résultat. Les requêtes qui utilisent le même cache dans la requête incluent également du texte unique pour chaque requête. Par exemple, chaque requête qui compose une conversation de chat peut inclure le même cache de contexte qui fait référence à une vidéo, ainsi qu'un texte unique qui comprend chaque tour de la conversation. La taille minimale d'un cache de contexte est de 32 769 jetons.

Modèles compatibles

Les modèles suivants sont compatibles avec la mise en cache de contexte :

  • Versions stables de Gemini 1.5 Flash
  • Versions stables de Gemini 1.5 Pro

Pour en savoir plus, consultez les versions stables disponibles des modèles Gemini.

La mise en cache de contexte est disponible dans la région us-central1.

Quand utiliser la mise en cache de contexte

La mise en cache de contexte est particulièrement adaptée aux scénarios où un contexte initial important est référencé à plusieurs reprises par des requêtes plus courtes. Envisagez d'utiliser la mise en cache de contexte pour les cas d'utilisation suivants :

  • Chatbots avec des instructions système détaillées
  • Analyse répétitive de fichiers vidéo longs
  • Requêtes récurrentes sur des ensembles de documents volumineux
  • Analyse fréquente du dépôt de code ou correction de bugs

Rentabilité grâce à la mise en cache

La mise en cache de contexte est une fonctionnalité payante conçue pour réduire les coûts opérationnels globaux. La facturation dépend des facteurs suivants :

  • Nombre de jetons mis en cache : nombre de jetons d'entrée mis en cache, facturés à un tarif réduit lorsqu'ils sont inclus dans les requêtes suivantes.
  • Durée de stockage : durée pendant laquelle les jetons mis en cache sont stockés, facturés à l'heure. Les jetons mis en cache sont supprimés lorsqu'un cache de contexte expire.
  • Autres facteurs : d'autres frais s'appliquent, par exemple pour les jetons d'entrée et de sortie non mis en cache.

Pour en savoir plus sur les tarifs, consultez la page Tarifs de l'API Gemini.

Utiliser un cache de contexte

Pour utiliser la mise en cache de contexte, vous devez d'abord créer le cache de contexte. Pour référencer le contenu du cache de contexte dans une requête, utilisez son nom de ressource. Vous pouvez localiser le nom de ressource d'un cache de contexte dans la réponse de la commande utilisée pour le créer.

Chaque cache de contexte a un délai d'expiration par défaut de 60 minutes après sa création. Si nécessaire, vous pouvez spécifier un délai d'expiration différent lorsque vous créez le cache de contexte ou modifiez le délai d'expiration d'un cache de contexte non expiré.

Les rubriques suivantes incluent des détails et des exemples qui vous aideront à créer, utiliser, modifier, obtenir des informations et supprimer un cache de contexte :

Étapes suivantes