Descripción general del almacenamiento en caché de contexto

El almacenamiento en caché del contexto reduce el costo y la latencia, ya que te permite almacenar en caché partes reutilizables de tus instrucciones. En esta página, se abordan los siguientes temas:

Cuando envías solicitudes a Gemini que contienen contenido repetido, el almacenamiento en caché del contexto puede reducir el costo y la latencia de esas solicitudes. De forma predeterminada, Google almacena automáticamente en caché las entradas de todos los modelos de Gemini para reducir la latencia y acelerar las respuestas a las instrucciones posteriores. Para obtener un control más detallado, puedes usar la API de Vertex AI para crear y administrar cachés de contexto.

Métodos de almacenamiento en caché

En la siguiente tabla, se comparan los métodos de almacenamiento en caché disponibles.

Método Descripción Control Caso de uso
Almacenamiento en caché predeterminado Google administra el almacenamiento en caché automático para reducir la latencia de todos los modelos de Gemini. Limitado. Puedes habilitarlo o inhabilitarlo de forma global. Tiene un tiempo de vencimiento predeterminado de 60 minutos. Se mejoró el rendimiento general para las instrucciones repetidas sin necesidad de configuración manual.
Almacenamiento en caché administrado por la API Creas y administras de forma explícita las memorias caché a través de la API de Vertex AI. Control total para crear, usar, actualizar el tiempo de vencimiento y borrar cachés específicas Aplicaciones con contextos grandes, conocidos y que se usan de forma repetida (por ejemplo, documentos o videos grandes) que se benefician del control detallado sobre el ciclo de vida de la caché.

Cuando usas la API de Vertex AI, puedes administrar las memorias caché de las siguientes maneras:

También puedes usar la API de Vertex AI para obtener información sobre una caché de contexto.

Ten en cuenta que las solicitudes de almacenamiento en caché que usan la API de Vertex AI cobran los tokens de entrada con el mismo descuento del 75% en relación con los tokens de entrada estándar y proporcionan ahorros de costos garantizados. También se cobra un cargo por almacenamiento según el tiempo que se almacenan los datos.

Cuándo usar el almacenamiento en caché de contexto

El almacenamiento de contexto en caché es más eficaz en situaciones en las que las solicitudes posteriores hacen referencia repetidamente a un contexto inicial grande.

Puedes usar elementos de contexto almacenados en caché, como un documento grande o un archivo de video, en solicitudes de instrucciones a la API de Gemini. Cada solicitud puede combinar el mismo contexto almacenado en caché con texto único. Por ejemplo, en una conversación de chat sobre un video, cada instrucción puede hacer referencia al mismo contexto de video almacenado en caché junto con el texto nuevo de cada turno en el chat.

Considera usar el almacenamiento en caché de contexto para los siguientes casos de uso:

  • Chatbots con instrucciones del sistema detalladas
  • Análisis repetitivo de archivos de video extensos
  • Consultas recurrentes en grandes conjuntos de documentos
  • Análisis frecuente del repositorio de código o corrección de errores

Debido a que las respuestas de los LLM no son deterministas, el uso de la misma caché de contexto y la misma instrucción no garantiza respuestas de modelos idénticas. Una caché de contexto almacena partes de la instrucción de entrada, no la salida del modelo.

Rentabilidad a través del almacenamiento en caché

El almacenamiento en caché del contexto es una función pagada diseñada para reducir los costos operativos generales. Se te factura el almacenamiento en caché del contexto según los siguientes factores:

  • Cantidad de tokens de caché: Es la cantidad de tokens de entrada almacenados en caché, que se facturan a una tarifa reducida cuando se incluyen en instrucciones posteriores.
  • Duración del almacenamiento: Es la cantidad de tiempo que se almacenan los tokens en caché, y se factura por hora. Los tokens almacenados en caché se borran cuando vence una caché de contexto.
  • Otros factores: Se aplican otros cargos, como los de los tokens de entrada y salida no almacenados en caché.

Puedes encontrar la cantidad de tokens en la parte almacenada en caché de tu entrada en el campo cachedContentTokenCount de los metadatos de la respuesta. Consulta cachedContentTokenCount.

Consulta la información del token de acierto de caché en el campo de metadatos de las respuestas. Para inhabilitar esta opción, consulta IA generativa y administración de datos.

Para obtener detalles sobre los precios, consulta Gemini y el almacenamiento en caché del contexto en la página de precios de Gemini.

Compatibilidad con la capacidad de procesamiento aprovisionada

La compatibilidad con el almacenamiento en caché del contexto para la capacidad de procesamiento aprovisionada se encuentra en versión preliminar para el almacenamiento en caché predeterminado. El almacenamiento en caché del contexto con la API de Vertex AI no es compatible con la capacidad de procesamiento aprovisionada. Para obtener más detalles, consulta la guía de capacidad de procesamiento aprovisionada.

Compatibilidad con modelos ajustados

La caché de contexto es compatible con los modelos de Gemini básicos y ajustados. Para obtener más información, consulta Caché de contexto para modelos de Gemini ajustados.

Modelos compatibles

Los siguientes modelos de Gemini admiten el almacenamiento en caché del contexto:

Para obtener más información, consulta Versiones de modelos estables de Gemini disponibles. La caché de contexto admite todos los tipos de MIME para los modelos compatibles.

Disponibilidad

La caché de contexto está disponible en las regiones donde está disponible la IA generativa en Vertex AI. Para obtener más información, consulta IA generativa en ubicaciones de Vertex AI.

Compatibilidad con los Controles del servicio de VPC

El almacenamiento en caché de contexto admite los Controles del servicio de VPC, lo que ayuda a evitar que la caché se mueva fuera del perímetro de servicio. Para proteger el contenido de la caché cuando usas Cloud Storage para compilarla, incluye tu bucket en el perímetro de servicio.

Para obtener más información, consulta Controles del servicio de VPC con Vertex AI.

¿Qué sigue?