Visão geral do armazenamento em cache de contexto

Use o armazenamento em cache de contexto para reduzir o custo das solicitações que contêm conteúdo repetido com altas contagens de tokens de entrada. Itens de contexto armazenados em cache, como uma grande quantidade de texto, um arquivo de áudio ou um arquivo de vídeo, podem ser usados em um solicitações de comando à API Gemini para gerar saída. As solicitações que usam o mesmo cache no comando também podem incluir textos exclusivos para cada comando. Por exemplo, cada solicitação de comando que compõe uma conversa no chat pode incluir o mesmo cache de contexto que faz referência a um vídeo junto com um texto exclusivo que compreende cada turno no chat. O tamanho mínimo de um cache de contexto é de 32.768 tokens.

Modelos compatíveis

Os seguintes modelos são compatíveis com o armazenamento em cache de contexto:

  • Versões estáveis do Gemini 1.5 Flash
  • Versões estáveis do Gemini 1.5 Pro

Para mais informações, consulte Versões do modelo estáveis do Gemini disponíveis.

O armazenamento em cache de contexto está disponível nas regiões em que a IA generativa na Vertex AI está disponível. Para mais informações, consulte IA generativa em locais da Vertex AI.

Tipos MIME compatíveis

O armazenamento em cache de contexto oferece suporte aos seguintes tipos MIME:

  • application/pdf
  • audio/mp3
  • audio/mpeg
  • audio/wav
  • image/jpeg
  • image/png
  • text/plain
  • video/avi
  • video/flv
  • video/mov
  • video/mp4
  • video/mpeg
  • video/mpegps
  • video/mpg
  • video/wmv

Quando usar o armazenamento em cache de contexto

O armazenamento em cache de contexto é particularmente adequado para cenários em que um contexto inicial substancial é referenciado repetidamente por solicitações mais curtas. Use armazenamento em cache de contexto para casos de uso como estes:

  • Chatbots com instruções abrangentes do sistema
  • Análise repetitiva de arquivos de vídeo longos
  • Consultas recorrentes em grandes conjuntos de documentos
  • Análise frequente do repositório de código ou correção de bugs

Economia com o armazenamento em cache

O armazenamento em cache de contexto é um recurso pago projetado para reduzir os custos operacionais gerais. O faturamento é baseado nos seguintes fatores:

  • Contagem de tokens de cache: o número de tokens de entrada armazenados em cache, faturados com uma taxa reduzida quando incluído nos comandos subsequentes.
  • Duração do armazenamento: o tempo de armazenamento e cobrança dos tokens em cache, por hora. Os tokens em cache são excluídos quando um cache de contexto expira.
  • Outros fatores: outras cobranças se aplicam, como tokens de entrada não armazenados em cache e tokens de saída.
.

Como usar um cache de contexto

Para usar o armazenamento em cache de contexto, primeiro é necessário criar o cache de contexto. Para fazer referência ao conteúdo do cache de contexto em uma solicitação de prompt, use o nome de recurso correspondente. Você pode localizar o nome do recurso de um cache de contexto na resposta do comando usado na criação.

Cada cache de contexto tem um tempo de expiração padrão de 60 minutos depois do momento da criação. Se necessário, é possível especificar um prazo de validade diferente ao criar o cache de contexto ou atualizar o tempo de expiração de um cache de contexto.

Os tópicos a seguir incluem detalhes e exemplos que ajudam você a criar, usar, atualizar, receber informações e excluir um cache de contexto:

Suporte do VPC Service Controls

O armazenamento em cache de contexto oferece suporte ao VPC Service Controls, o que significa que seu cache não pode ser exfiltrado além do perímetro de serviço. Se você usa o Cloud Storage para criar seu cache, inclua o bucket no perímetro de serviço para proteger o conteúdo do cache.

Para mais informações, consulte VPC Service Controls com a Vertex AI na documentação da Vertex AI.

A seguir