El almacenamiento en caché del contexto reduce el costo y la latencia, ya que te permite almacenar en caché partes reutilizables de tus instrucciones. En esta página, se abordan los siguientes temas: Cuando envías solicitudes a Gemini que contienen contenido repetido, el almacenamiento en caché del contexto puede reducir el costo y la latencia de esas solicitudes. De forma predeterminada, Google almacena automáticamente en caché las entradas de todos los modelos de Gemini para reducir la latencia y acelerar las respuestas a las instrucciones posteriores. Para obtener un control más detallado, puedes usar la API de Vertex AI para crear y administrar cachés de contexto. En la siguiente tabla, se comparan los métodos de almacenamiento en caché disponibles. Cuando usas la API de Vertex AI, puedes administrar las memorias caché de las siguientes maneras: También puedes usar la API de Vertex AI para obtener información sobre una caché de contexto. Ten en cuenta que las solicitudes de almacenamiento en caché que usan la API de Vertex AI cobran los tokens de entrada con el mismo descuento del 75% en relación con los tokens de entrada estándar y proporcionan ahorros de costos garantizados. También se cobra un cargo por almacenamiento según el tiempo que se almacenan los datos. El almacenamiento de contexto en caché es más eficaz en situaciones en las que las solicitudes posteriores hacen referencia repetidamente a un contexto inicial grande. Puedes usar elementos de contexto almacenados en caché, como un documento grande o un archivo de video, en solicitudes de instrucciones a la API de Gemini. Cada solicitud puede combinar el mismo contexto almacenado en caché con texto único. Por ejemplo, en una conversación de chat sobre un video, cada instrucción puede hacer referencia al mismo contexto de video almacenado en caché junto con el texto nuevo de cada turno en el chat. Considera usar el almacenamiento en caché de contexto para los siguientes casos de uso: Debido a que las respuestas de los LLM no son deterministas, el uso de la misma caché de contexto y la misma instrucción no garantiza respuestas de modelos idénticas. Una caché de contexto almacena partes de la instrucción de entrada, no la salida del modelo. El almacenamiento en caché del contexto es una función pagada diseñada para reducir los costos operativos generales. Se te factura el almacenamiento en caché del contexto según los siguientes factores: Puedes encontrar la cantidad de tokens en la parte almacenada en caché de tu entrada en el campo Consulta la información del token de acierto de caché en el campo de metadatos de las respuestas. Para inhabilitar esta opción, consulta IA generativa y administración de datos. Para obtener detalles sobre los precios, consulta Gemini y el almacenamiento en caché del contexto en la página de precios de Gemini. Compatibilidad con la capacidad de procesamiento aprovisionada La compatibilidad con el almacenamiento en caché del contexto para la capacidad de procesamiento aprovisionada se encuentra en versión preliminar para el almacenamiento en caché predeterminado. El almacenamiento en caché del contexto con la API de Vertex AI no es compatible con la capacidad de procesamiento aprovisionada. Para obtener más detalles, consulta la guía de capacidad de procesamiento aprovisionada. Compatibilidad con modelos ajustados La caché de contexto es compatible con los modelos de Gemini básicos y ajustados. Para obtener más información, consulta Caché de contexto para modelos de Gemini ajustados. Los siguientes modelos de Gemini admiten el almacenamiento en caché del contexto: Para obtener más información, consulta Versiones de modelos estables de Gemini disponibles. La caché de contexto admite todos los tipos de MIME para los modelos compatibles. La caché de contexto está disponible en las regiones donde está disponible la IA generativa en Vertex AI. Para obtener más información, consulta IA generativa en ubicaciones de Vertex AI. El almacenamiento en caché de contexto admite los Controles del servicio de VPC, lo que ayuda a evitar que la caché se mueva fuera del perímetro de servicio. Para proteger el contenido de la caché cuando usas Cloud Storage para compilarla, incluye tu bucket en el perímetro de servicio. Para obtener más información, consulta Controles del servicio de VPC con Vertex AI.
Métodos de almacenamiento en caché
Método
Descripción
Control
Caso de uso
Almacenamiento en caché predeterminado
Google administra el almacenamiento en caché automático para reducir la latencia de todos los modelos de Gemini.
Limitado. Puedes habilitarlo o inhabilitarlo de forma global. Tiene un tiempo de vencimiento predeterminado de 60 minutos.
Se mejoró el rendimiento general para las instrucciones repetidas sin necesidad de configuración manual.
Almacenamiento en caché administrado por la API
Creas y administras de forma explícita las memorias caché a través de la API de Vertex AI.
Control total para crear, usar, actualizar el tiempo de vencimiento y borrar cachés específicas
Aplicaciones con contextos grandes, conocidos y que se usan de forma repetida (por ejemplo, documentos o videos grandes) que se benefician del control detallado sobre el ciclo de vida de la caché.
Cuándo usar el almacenamiento en caché de contexto
Rentabilidad a través del almacenamiento en caché
cachedContentTokenCount
de los metadatos de la respuesta. Consulta cachedContentTokenCount
.Modelos compatibles
Disponibilidad
Compatibilidad con los Controles del servicio de VPC
¿Qué sigue?
Descripción general del almacenamiento en caché de contexto
Salvo que se indique lo contrario, el contenido de esta página está sujeto a la licencia Atribución 4.0 de Creative Commons, y los ejemplos de código están sujetos a la licencia Apache 2.0. Para obtener más información, consulta las políticas del sitio de Google Developers. Java es una marca registrada de Oracle o sus afiliados.
Última actualización: 2025-08-19 (UTC)