El almacenamiento en caché del contexto ayuda a reducir el costo y la latencia de las solicitudes a Gemini que contienen contenido repetido. Vertex AI ofrece dos tipos de almacenamiento en caché:
- Almacenamiento en caché implícito: Es el almacenamiento en caché automático habilitado de forma predeterminada que proporciona ahorros de costos cuando se producen aciertos de caché.
- Almacenamiento en caché explícito: Almacenamiento en caché manual habilitado con la API de Vertex AI, en el que declaras de forma explícita el contenido que deseas almacenar en caché y si tus instrucciones deben hacer referencia al contenido de la caché.
Tanto para el almacenamiento en caché implícito como para el explícito, el campo cachedContentTokenCount
en los metadatos de tu respuesta indica la cantidad de tokens en la parte almacenada en caché de tu entrada. Las solicitudes de almacenamiento en caché deben contener un mínimo de 2,048 tokens.
Se admite el almacenamiento en caché tanto implícito como explícito cuando se usan los siguientes modelos:
Tanto para el almacenamiento en caché implícito como para el explícito, no hay cargos adicionales por escribir en la caché, aparte de los costos estándar de los tokens de entrada. En el caso del almacenamiento en caché explícito, hay costos de almacenamiento según el tiempo que se almacenan los elementos en caché. No hay costos de almacenamiento para el almacenamiento en caché implícito. Para obtener más información, consulta los precios de Vertex AI.
Almacenamiento en caché implícito
Todos los proyectos de Google Cloud tienen habilitado el almacenamiento en caché implícito de forma predeterminada. El almacenamiento en caché implícito proporciona un descuento del 75% en los tokens almacenados en caché en comparación con los tokens de entrada estándar.
Cuando está habilitada, los ahorros de costos por acierto de caché implícitos se te transfieren automáticamente. Para aumentar las probabilidades de un acierto de caché implícito, haz lo siguiente:
- Coloca el contenido grande y común al principio de la instrucción.
- Enviar solicitudes con un prefijo similar en un corto período
Almacenamiento en caché explícito
El almacenamiento en caché explícito ofrece más control y garantiza un descuento del 75% cuando se hace referencia a cachés explícitas.
Con la API de Vertex AI, puedes hacer lo siguiente:
- Crear cachés de contexto y controlarlas de manera más eficaz
- Usa una caché de contexto haciendo referencia a su contenido en una solicitud de mensaje con su nombre de recurso.
- Actualiza el tiempo de vencimiento (tiempo de actividad o TTL) de una caché de contexto más allá de los 60 minutos predeterminados.
- Borra una caché de contexto cuando ya no la necesites.
También puedes usar la API de Vertex AI para recuperar información sobre una caché de contexto.
Las cachés explícitas interactúan con el almacenamiento en caché implícito, lo que puede generar almacenamiento en caché adicional más allá de los contenidos especificados cuando se crea una caché. Para evitar la retención de datos en caché, inhabilita el almacenamiento en caché implícito y evita crear cachés explícitas. Para obtener más información, consulta Habilita e inhabilita el almacenamiento en caché.
Cuándo usar el almacenamiento en caché de contexto
El almacenamiento de contexto en caché es especialmente adecuado para situaciones en las que las solicitudes posteriores hacen referencia repetidamente a un contexto inicial sustancial.
Los elementos de contexto almacenados en caché, como una gran cantidad de texto, un archivo de audio o un archivo de video, se pueden usar en solicitudes de instrucciones a la API de Gemini para generar resultados. Las solicitudes que usan la misma caché en la instrucción también incluyen texto único para cada instrucción. Por ejemplo, cada solicitud de instrucción que compone una conversación de chat puede incluir la misma caché de contexto que hace referencia a un video junto con el texto único que comprende cada turno en el chat.
Considera usar el almacenamiento en caché de contexto para casos de uso como los siguientes:
- Chatbots con instrucciones del sistema detalladas
- Análisis repetitivo de archivos de video extensos
- Consultas recurrentes en grandes conjuntos de documentos
- Análisis frecuente del repositorio de código o corrección de errores
La compatibilidad con el almacenamiento en caché del contexto para la capacidad de procesamiento aprovisionada se encuentra en vista previa para el almacenamiento en caché implícito. El almacenamiento en caché explícito no se admite para el rendimiento aprovisionado. Consulta la guía de capacidad de procesamiento aprovisionada para obtener más detalles.
Disponibilidad
La caché de contexto está disponible en las regiones donde está disponible la IA generativa en Vertex AI. Para obtener más información, consulta Ubicaciones de la IA generativa en Vertex AI.
Límites
El contenido que almacenes en caché de forma explícita debe cumplir con los límites que se muestran en la siguiente tabla:
Límites del almacenamiento de contexto en caché | |
---|---|
Cantidad mínima de tokens de caché |
2,048 para todos los modelos
|
Tamaño máximo del contenido que puedes almacenar en caché con un BLOB o texto |
10 MB |
Tiempo mínimo antes de que venza una caché después de su creación |
1 minuto |
Tiempo máximo antes de que venza una caché después de su creación |
No hay una duración máxima de la caché. |
Compatibilidad con los Controles del servicio de VPC
El almacenamiento en caché de contexto admite los Controles del servicio de VPC, lo que significa que tu caché no se puede filtrar fuera de tu perímetro de servicio. Si usas Cloud Storage para compilar tu caché, incluye tu bucket en el perímetro de servicio también para proteger el contenido de la caché.
Para obtener más información, consulta Controles del servicio de VPC con Vertex AI en la documentación de Vertex AI.
¿Qué sigue?
- Obtén más información sobre la API de Gemini.
- Obtén más información para usar instrucciones multimodales.