Visão geral do armazenamento em cache de contexto

O armazenamento em cache de contexto ajuda a reduzir o custo e a latência das solicitações ao Gemini que contêm conteúdo repetido. A Vertex AI oferece dois tipos de armazenamento em cache:

  • Cache implícito:o cache automático é ativado por padrão e oferece economia de custos quando há ocorrências de cache.
  • Armazenamento em cache explícito:o armazenamento em cache manual é ativado usando a API Vertex AI. Nela, você declara explicitamente o conteúdo que quer armazenar em cache e se os comandos precisam se referir ao conteúdo armazenado em cache.

Para o armazenamento em cache implícito e explícito, o campo cachedContentTokenCount nos metadados da resposta indica o número de tokens na parte em cache da entrada. As solicitações de cache precisam conter no mínimo 2.048 tokens.

O armazenamento em cache implícito e explícito é compatível com os seguintes modelos:

Para o armazenamento em cache implícito e explícito, não há cobrança extra para gravar no cache além dos custos padrão de token de entrada. No caso do armazenamento em cache explícito, há custos de armazenamento com base no tempo de armazenamento dos caches. Não há custos de armazenamento para o cache implícito. Para mais informações, consulte Preços da Vertex AI.

Armazenamento em cache implícito

Todos os projetos do Google Cloud têm o armazenamento em cache implícito ativado por padrão. O cache implícito oferece um desconto de 75% nos tokens armazenados em cache em comparação com os tokens de entrada padrão.

Quando ativadas, as economias de custo ocorrência em cache implícito são transferidas automaticamente para você. Para aumentar as chances de uma ocorrência implícita no cache:

  • Coloque conteúdos grandes e comuns no início do comando.
  • Enviar solicitações com um prefixo semelhante em um curto período.

Armazenamento em cache explícito

O armazenamento em cache explícito oferece mais controle e garante um desconto de 75% quando os caches explícitos são referenciados.

Com a API Vertex AI, é possível:

Também é possível usar a API Vertex AI para recuperar informações sobre um cache de contexto.

Caches explícitos interagem com o armazenamento em cache implícito, o que pode levar a armazenamento em cache adicional além dos conteúdos especificados ao criar um cache. Para evitar a retenção de dados em cache, desative o armazenamento em cache implícito e evite criar caches explícitos. Para mais informações, consulte Ativar e desativar o armazenamento em cache.

Quando usar o armazenamento em cache de contexto

O armazenamento em cache de contexto é particularmente adequado para cenários em que um contexto inicial substancial é referenciado repetidamente por solicitações subsequentes.

Itens de contexto armazenados em cache, como uma grande quantidade de texto, um arquivo de áudio ou um arquivo de vídeo, podem ser usados em solicitações de comando à API Gemini para gerar saída. Solicitações que usam o mesmo cache no comando também podem incluir textos exclusivos para cada comando. Por exemplo, cada solicitação de comando que compõe uma conversa no chat pode incluir o mesmo cache de contexto que faz referência a um vídeo junto com um texto exclusivo que compreende cada turno no chat.

Use armazenamento em cache de contexto para casos de uso como estes:

  • Chatbots com instruções abrangentes do sistema
  • Análise repetitiva de arquivos de vídeo longos
  • Consultas recorrentes em grandes conjuntos de documentos
  • Análise frequente do repositório de código ou correção de bugs

O suporte ao armazenamento em cache de contexto para a capacidade de processamento provisionada está em Prévia para o armazenamento em cache implícito. O armazenamento em cache explícito não é compatível com o throughput provisionado. Consulte o guia de capacidade de transferência provisionada para mais detalhes.

Disponibilidade

O armazenamento em cache de contexto está disponível nas regiões em que a IA generativa na Vertex AI está disponível. Para mais informações, consulte Locais da IA generativa na Vertex AI.

Limites

O conteúdo armazenado em cache de forma explícita precisa obedecer aos limites mostrados na tabela a seguir:

Limites de armazenamento em cache contextual

Contagem mínima de tokens em cache

2,048 para todos os modelos

Tamanho máximo de conteúdo que pode ser armazenado em cache usando um blob ou texto

10 MB

Tempo mínimo antes de um cache expirar após ser criado

1 minuto

O tempo máximo para que um cache expire após ser criado

Não há uma duração máxima de cache

Suporte do VPC Service Controls

O armazenamento em cache de contexto é compatível com o VPC Service Controls, o que significa que o cache não pode ser exfiltrado além do perímetro de serviço. Se você usa o Cloud Storage para criar o cache, inclua o bucket no perímetro de serviço também para proteger o conteúdo do cache.

Para mais informações, consulte VPC Service Controls com a Vertex AI na documentação da Vertex AI.

A seguir