Os modelos do Anthropic Claude oferecem cache rápido para reduzir a latência e os custos ao reutilizar o mesmo conteúdo em várias solicitações. Ao enviar uma consulta, você pode armazenar em cache todas ou partes específicas da entrada para que as consultas subsequentes possam usar os resultados armazenados em cache da solicitação anterior. Isso evita custos de computação e de rede adicionais. Os caches são exclusivos do projeto Google Cloud e não podem ser usados por outros projetos.
Para saber como estruturar seus comandos, consulte a documentação do conteúdo em cache de comandos do Anthropic.
Modelos Anthropic Claude compatíveis
A Vertex AI oferece suporte ao armazenamento em cache de comandos para os seguintes modelos do Anthropic Claude:
- Claude 3.5 Sonnet v2 (
claude-3-5-sonnet-v2@20241022
) - Claude 3.5 Sonnet (
claude-3-5-sonnet@20240620
) - Claude 3.5 Haiku (
claude-3-5-haiku@20241022
) - Claude 3 Haiku (
claude-3-haiku@20240307
) - Claude 3 Opus (
claude-3-opus@20240229
)
Processamento de dados
O armazenamento em cache de comandos explícitos do Anthropic é um recurso dos modelos Anthropic Claude. A oferta da Vertex AI desses modelos da Anthropic se comporta conforme descrito na documentação da Anthropic.
O armazenamento em cache de comandos é um recurso opcional. Claude calcula os hashes (impressões digitais) de solicitações para chaves de armazenamento em cache. Esses hashes são calculados apenas para solicitações com o armazenamento em cache ativado.
Embora o armazenamento em cache de comandos seja um recurso implementado pelos modelos Claude, do ponto de vista do processamento de dados, o Google considera esses hashes como um tipo de "metadados do usuário". Eles são tratados como "Dados de serviço" do cliente de acordo com o Google Cloud Aviso de privacidade e não como "Dados do cliente" de acordo com o Aditivo sobre tratamento de dados do Cloud (clientes). Em particular, proteções adicionais para "Dados do cliente" não se aplicam a esses hashes. O Google não usa esses hashes para outras finalidades.
Se você quiser desativar completamente esse recurso de armazenamento em cache de comandos e torná-lo indisponível em projetos Google Cloud específicos, entre em contato com o suporte ao cliente e forneça os números de projeto relevantes. Depois que o armazenamento em cache explícito é desativado para um projeto, as solicitações do projeto com o armazenamento em cache ativado são rejeitadas.
Usar o armazenamento em cache de comandos
É possível usar o SDK Anthropic Claude ou a API REST da Vertex AI para enviar solicitações ao endpoint da Vertex AI.
Para mais informações, consulte Como o armazenamento em cache de comandos funciona.
Para conferir mais exemplos, consulte os exemplos de armazenamento em cache de comandos na documentação do Anthropic.
O armazenamento em cache ocorre automaticamente quando as solicitações subsequentes contêm o mesmo
texto, imagens e parâmetro cache_control
que a primeira solicitação. Todas as solicitações
também precisam incluir o parâmetro cache_control
nos mesmos blocos.
O cache tem uma duração de cinco minutos. Ele é atualizado sempre que o conteúdo em cache é acessado.
Preços
O armazenamento em cache de comandos pode afetar os custos de faturamento. Observações:
- Os tokens de gravação de cache são 25% mais caros que os tokens de entrada básicos.
- Os tokens de leitura de cache são 90% mais baratos do que os tokens de entrada básicos
- Os tokens de entrada e saída normais têm preços de taxas padrão
Para mais informações, consulte a página de preços.