Descripción general del almacenamiento en caché de contexto

Usa el almacenamiento en caché de contexto para reducir el costo de las solicitudes que incluyen contenido repetido con recuentos de tokens de entrada altos. Los elementos de contexto almacenados en caché, como una gran cantidad de texto, un archivo de audio o un archivo de video, se pueden usar en solicitudes de instrucciones a la API de Gemini para generar resultados. Las solicitudes que usan la misma caché en el mensaje también incluyen texto único para cada mensaje. Por ejemplo, cada solicitud de instrucción que redacte una conversación de chat puede incluir la misma caché de contexto que hace referencia a un video junto con texto único que comprende cada turno del chat. El tamaño mínimo de una caché de contexto es de 32,769 tokens.

Modelos compatibles

Los siguientes modelos admiten el almacenamiento en caché de contexto:

  • Versiones estables de Gemini 1.5 Flash
  • Versiones estables de Gemini 1.5 Pro

Para obtener más información, consulta Versiones de modelos estables de Gemini disponibles.

El almacenamiento en caché de contexto está disponible en la región us-central1.

Cuándo usar el almacenamiento en caché de contexto

El almacenamiento en caché de contexto es particularmente adecuado para situaciones en las que las solicitudes más cortas hacen referencia de forma repetida a un contexto inicial sustancial. Considera usar el almacenamiento en caché de contexto para casos de uso como los siguientes:

  • Chatbots con instrucciones exhaustivas del sistema
  • Análisis repetitivo de archivos de video largos
  • Consultas recurrentes en conjuntos de documentos grandes
  • Análisis frecuente de repositorios de código o corrección de errores

Rentabilidad mediante el almacenamiento en caché

El almacenamiento en caché de contexto es una función pagada diseñada para reducir los costos operativos generales. La facturación se basa en los siguientes factores:

  • Recuento de tokens de caché: Es la cantidad de tokens de entrada almacenados en caché, que se facturan a una tarifa reducida cuando se incluyen en mensajes posteriores.
  • Duración del almacenamiento: La cantidad de tiempo que se almacenan los tokens almacenados en caché, facturados por hora. Los tokens almacenados en caché se borran cuando vence una caché de contexto.
  • Otros factores: Se aplican otros cargos, como los tokens de entrada y los tokens de salida no almacenados en caché.

Cómo usar una caché de contexto

Para usar el almacenamiento en caché de contexto, primero debes crear la caché de contexto. Para hacer referencia al contenido de la caché de contexto en una solicitud de instrucción, usa su nombre de recurso. Puedes ubicar el nombre del recurso de una caché de contexto en la respuesta del comando que se usó para crearla.

Cada caché de contexto tiene un tiempo de vencimiento predeterminado que es de 60 minutos después de la hora de creación. Si es necesario, puedes especificar un plazo de vencimiento diferente cuando creas la caché de contexto o actualizar la fecha de vencimiento de una caché de contexto sin vencer.

En los siguientes temas, se incluyen detalles y muestras que te ayudan a crear, usar, actualizar, obtener información sobre una caché de contexto y borrarla:

¿Qué sigue?