Colocação em cache de comandos

Os modelos Claude da Anthropic oferecem o armazenamento em cache de comandos para reduzir a latência e os custos quando reutiliza o mesmo conteúdo em vários pedidos. Quando envia uma consulta, pode colocar em cache todas ou partes específicas da sua entrada para que as consultas subsequentes possam usar os resultados em cache do pedido anterior. Isto evita custos adicionais de computação e rede. As caches são exclusivas do seu Google Cloud projeto e não podem ser usadas por outros projetos.

Para ver detalhes sobre como estruturar os seus comandos, consulte a documentação da Anthropic sobre a colocação em cache de comandos.

Modelos do Anthropic Claude suportados

O Vertex AI suporta o armazenamento em cache de comandos para os seguintes modelos Anthropic Claude:

Processamento de dados

O armazenamento em cache de comandos explícito da Anthropic é uma funcionalidade dos modelos Claude da Anthropic. A oferta do Vertex AI destes modelos da Anthropic comporta-se conforme descrito na documentação da Anthropic.

O armazenamento em cache de comandos é uma funcionalidade opcional. O Claude calcula os hashes (impressões digitais) dos pedidos para chaves de colocação em cache. Estes hashes só são calculados para pedidos com a colocação em cache ativada.

Embora o armazenamento em cache de comandos seja uma funcionalidade implementada pelos modelos Claude, do ponto de vista do tratamento de dados, a Google considera estes hashes um tipo de "metadados do utilizador". São tratados como "Dados dos Serviços" do cliente ao abrigo do Google Cloud Aviso de Privacidade e não como "Dados do Cliente" ao abrigo da Alteração ao Tratamento de Dados do Cloud (Clientes). Em particular, as proteções adicionais para "Dados de clientes" não se aplicam a estes hashes. A Google não utiliza estes hashes para outros fins.

Se quiser desativar completamente esta funcionalidade de colocação em cache de comandos e torná-la indisponível em projetos específicos, pode solicitá-lo contactando o apoio ao cliente e indicando os números dos projetos relevantes. Google Cloud Depois de desativar a colocação em cache explícita para um projeto, os pedidos do projeto com a colocação em cache de comandos ativada são rejeitados.

Use a colocação em cache de comandos

Pode usar o SDK Anthropic Claude ou a API REST Vertex AI para enviar pedidos para o ponto final da Vertex AI.

Para mais informações, consulte o artigo Como funciona o armazenamento em cache de comandos.

Para ver exemplos adicionais, consulte os exemplos de colocação em cache de comandos na documentação da Anthropic.

O armazenamento em cache ocorre automaticamente quando os pedidos subsequentes contêm o texto, as imagens e o parâmetro cache_control idênticos ao primeiro pedido. Todos os pedidos também têm de incluir o parâmetro cache_control nos mesmos blocos.

A cache tem uma duração de cinco minutos. É atualizado sempre que o conteúdo em cache é acedido.

Preços

O armazenamento em cache de comandos pode afetar os custos de faturação. Tenha em atenção que:

  • Os tokens de gravação da cache são 25% mais caros do que os tokens de entrada base
  • Os tokens de leitura da cache são 90% mais baratos do que os tokens de entrada base
  • Os tokens de entrada e saída normais têm preços com tarifas padrão

Para mais informações, consulte a página de preços.