Almacenamiento en caché inmediato

Los modelos de Anthropic Claude ofrecen una caché inmediata para reducir la latencia y los costos cuando se reutiliza el mismo contenido en varias solicitudes. Cuando envías una consulta, puedes almacenar en caché todas las partes o partes específicas de tu entrada para que las consultas posteriores puedan usar los resultados almacenados en caché de la solicitud anterior. Esto evita costos adicionales de procesamiento y red. Las cachés son únicas para tu Google Cloud proyecto y otros proyectos no pueden usarlas.

Para obtener detalles sobre cómo estructurar tus instrucciones, consulta la documentación de caché de instrucciones de Anthropic.

Modelos de Anthropic Claude admitidos

Vertex AI admite el almacenamiento en caché de instrucciones para los siguientes modelos de Claude de Anthropic:

  • Claude 3.5 Sonnet v2 (claude-3-5-sonnet-v2@20241022)
  • Claude 3.5 Sonnet (claude-3-5-sonnet@20240620)
  • Claude 3.5 Haiku (claude-3-5-haiku@20241022)
  • Claude 3 Haiku (claude-3-haiku@20240307)
  • Claude 3 Opus (claude-3-opus@20240229)

Procesamiento de datos

El almacenamiento en caché de instrucciones explícitas de Anthropic es una función de los modelos de Anthropic Claude. La oferta de Vertex AI de estos modelos de Anthropic se comporta como se describe en la documentación de Anthropic.

La caché de instrucciones es una función opcional. Claude calcula los valores hash (huellas digitales) de las solicitudes de claves de almacenamiento en caché. Estos valores hash solo se calculan para las solicitudes que tienen habilitada la caché.

Aunque la caché inmediata es una función que implementan los modelos de Claude, desde una perspectiva de manejo de datos, Google considera que estos valores hash son un tipo de "metadatos del usuario". Se consideran "Datos del Servicio" del cliente en virtud del Google CloudAvis de Privacidad y no como "Datos del Cliente" en virtud del Anexo de Tratamiento de Datos de Cloud (Clientes). En particular, las protecciones adicionales para los "Datos del Cliente" no se aplican a estos hashes. Google no usa estos valores hash para ningún otro fin.

Si deseas inhabilitar por completo esta función de almacenamiento en caché de instrucciones y hacer que no esté disponible en proyectos Google Cloud en particular, puedes solicitarlo. Para ello, comunícate con el equipo de asistencia al cliente y proporciona los números de proyecto relevantes. Después de inhabilitar la caché explícita para un proyecto, se rechazan las solicitudes del proyecto con la caché inmediata habilitada.

Usa el almacenamiento en caché de instrucciones

Puedes usar el SDK de Anthropic Claude o la API de REST de Vertex AI para enviar solicitudes al extremo de Vertex AI.

Para obtener más información, consulta Cómo funciona el almacenamiento en caché inmediato.

Para obtener ejemplos adicionales, consulta los ejemplos de almacenamiento en caché de Prompt en la documentación de Anthropic.

La caché se produce automáticamente cuando las solicitudes posteriores contienen el texto, las imágenes y el parámetro cache_control idénticos a los de la primera solicitud. Todas las solicitudes también deben incluir el parámetro cache_control en los mismos bloques.

La caché tiene una vida útil de cinco minutos. Se actualiza cada vez que se accede al contenido almacenado en caché.

Precios

La caché inmediata puede afectar los costos de facturación. Ten en cuenta lo siguiente:

  • Los tokens de escritura en caché son un 25% más costosos que los tokens de entrada básicos.
  • Los tokens de lectura de la caché son un 90% más económicos que los tokens de entrada básicos.
  • Los tokens de entrada y salida normales tienen precios estándar.

Para obtener más información, consulta la página de precios.