Descripción general del almacenamiento en caché de contexto

Usa el almacenamiento en caché de contexto para reducir el costo de las solicitudes que contienen contenido repetido con recuentos altos de tokens de entrada. Los elementos de contexto almacenados en caché, como una gran cantidad de texto, un archivo de audio o un archivo de video, se pueden usar en solicitudes de instrucciones a la API de Gemini para generar resultados. Las solicitudes que usan la misma caché en el mensaje también incluyen texto único para cada mensaje. Por ejemplo, cada solicitud de instrucción que compone una conversación de chat puede incluir la misma caché de contexto que hace referencia a un video junto con el texto único que comprende cada turno en el chat. El tamaño mínimo de una caché de contexto es de 32,768 tokens.

Modelos compatibles

Los siguientes modelos admiten la caché de contexto:

  • Versiones estables de Gemini 1.5 Flash
  • Versiones estables de Gemini 1.5 Pro

Para obtener más información, consulta Versiones de modelos estables de Gemini disponibles.

La caché de contexto está disponible en las regiones donde está disponible la IA generativa en Vertex AI. Para obtener más información, consulta IA generativa en ubicaciones de Vertex AI.

Tipos de MIME admitidos

La caché de contexto admite los siguientes tipos de MIME:

  • application/pdf
  • audio/mp3
  • audio/mpeg
  • audio/wav
  • image/jpeg
  • image/png
  • text/plain
  • video/avi
  • video/flv
  • video/mov
  • video/mp4
  • video/mpeg
  • video/mpegps
  • video/mpg
  • video/wmv

Cuándo usar el almacenamiento en caché de contexto

La caché de contexto es particularmente adecuada para situaciones en las que se hace referencia a un contexto inicial sustancial de forma reiterada a través de solicitudes más cortas. Considera usar el almacenamiento en caché de contexto para casos de uso como los siguientes:

  • Chatbots con instrucciones del sistema extensas
  • Análisis repetitivo de archivos de video largos
  • Consultas recurrentes en conjuntos de documentos grandes
  • Análisis frecuentes del repositorio de código o corrección de errores

Rentabilidad a través del almacenamiento en caché

La caché de contexto es una función pagada diseñada para reducir los costos operativos generales. La facturación se basa en los siguientes factores:

  • Recuento de tokens de caché: Es la cantidad de tokens de entrada almacenados en caché, que se facturan a una tarifa reducida cuando se incluyen en instrucciones posteriores.
  • Duración del almacenamiento: Es la cantidad de tiempo que se almacenan los tokens almacenados en caché, que se factura por hora. Los tokens almacenados en caché se borran cuando vence una caché de contexto.
  • Otros factores: Se aplican otros cargos, como los de tokens de entrada y salida que no se almacenaron en caché.

Cómo usar una caché de contexto

Para usar el almacenamiento en caché de contexto, primero debes crear la caché de contexto. Para hacer referencia al contenido de la caché de contexto en una solicitud de instrucción, usa su nombre de recurso. Puedes encontrar el nombre del recurso de una caché de contexto en la respuesta del comando que se usó para crearla.

Cada caché de contexto tiene un tiempo de vencimiento predeterminado que es de 60 minutos después de su hora de creación. Si es necesario, puedes especificar una hora de vencimiento diferente cuando crees la caché de contexto o actualices la hora de vencimiento de una caché de contexto que no haya vencido.

En los siguientes temas, se incluyen detalles y muestras que te ayudarán a crear, usar, actualizar, obtener información sobre y borrar una caché de contexto:

Compatibilidad con los Controles del servicio de VPC

La caché de contexto admite los Controles del servicio de VPC, lo que significa que tu caché no se puede exfiltrar más allá de tu perímetro de servicio. Si usas Cloud Storage para compilar tu caché, incluye tu bucket en el perímetro de servicio para proteger el contenido de la caché.

Para obtener más información, consulta Controles del servicio de VPC con Vertex AI en la documentación de Vertex AI.

¿Qué sigue?