Capacidade de processamento provisionada

A capacidade de processamento provisionada é um serviço semanal ou de assinatura mensal de custo fixo que reserva capacidade de processamento para modelos de IA generativa compatíveis na Vertex AI. Para reservar a capacidade de processamento, especifique o modelo e os locais disponíveis em que ele é executado.

Esta página explica quando usar a capacidade de processamento provisionada, como ela funciona e como se inscrever.

Modelos compatíveis

As tabelas a seguir mostram os modelos compatíveis com a capacidade de processamento provisionada, a capacidade de processamento para cada Unidade de escala de IA generativa (GSU, na sigla em inglês) e as taxas de burndown de cada modelo.

Modelos do Google

Esta tabela mostra a capacidade de processamento, o incremento de compra e as taxas de burndown para modelos do Google que oferecem suporte à capacidade de processamento provisionada. Os modelos do Google são medidos em caracteres por segundo, que é definido como a entrada de comando e os caracteres de saída de texto gerados em todas as solicitações por segundo.

Modelo Capacidade de processamento por GSU (caracteres/s) Incremento mínimo de compra de GSU Taxas de burndown
Gemini 1.5 Flash Janela de contexto menor ou igual a 128.000:
54.000

Janela de contexto maior que 128.000:
27.000
1 Janela de contexto menor ou igual a 128.000:
1 caractere de entrada = 1 caractere
1 caractere de saída = 4 caracteres
1 imagem = 1.067 caracteres
1 vídeo por segundo = 1.067 caracteres
1 áudio por segundo = 107 caracteres
Janela de contexto maior que 128.000:
1 caractere de entrada = 2 caracteres
1 caractere de saída = 8 caracteres
1 imagem = 2.134 caracteres
1 vídeo por segundo = 2.134 caracteres
1 áudio por segundo = 214 caracteres
Gemini 1.5 Pro 800 1 Janela de contexto menor ou igual a 128.000:
1 caractere de entrada = 1 caractere
1 caractere de saída = 3 caracteres
1 imagem = 1.052 caracteres
1 vídeo por segundo = 1.052 caracteres
1 áudio por segundo = 100 caracteres
Janela de contexto maior que 128.000:
1 caractere de entrada = 2 caracteres
1 caractere de saída = 6 caracteres
1 imagem = 2.104 caracteres
1 vídeo por segundo = 2.104 caracteres
1 áudio por segundo = 200 caracteres
Gemini 1.0 Pro 8.000 1 1 caractere de entrada = 1 caractere
1 caractere de saída = 3 caracteres
1 imagem = 20.000 caracteres
1 vídeo por segundo = 16.000 caracteres
Imagen 3 0,025
A capacidade de processamento é medida em imagens/s em vez de caracteres/s.
1 Somente as imagens de saída são contabilizadas na cota de capacidade de processamento provisionada.
Imagen 3 Fast 0,05
A capacidade de processamento é medida em imagens/s em vez de caracteres/s.
1 Somente as imagens de saída são contabilizadas na cota de capacidade de processamento provisionada.
Imagem 2 0,05
A capacidade de processamento é medida em imagens/s em vez de caracteres/s.
1 Somente as imagens de saída são contabilizadas na cota de capacidade de processamento provisionada.
Editar Imagen 2 0,05
A capacidade de processamento é medida em imagens/s em vez de caracteres/s.
1 Somente as imagens de saída são contabilizadas na cota de capacidade de processamento provisionada.
MedLM medium 2.000 1 1 caractere de entrada = 1 caractere
1 caractere de saída = 2 caracteres
MedLM grande 200 1 1 caractere de entrada = 1 caractere
1 caractere de saída = 3 caracteres
MedLM large 1.5 200 1 1 caractere de entrada = 1 caractere
1 caractere de saída = 3 caracteres

Para mais informações sobre os locais compatíveis, consulte Locais disponíveis.

Você pode fazer upgrade para novos modelos assim que eles forem disponibilizados. Para informações sobre disponibilidade e datas de descontinuação, consulte Modelos do Google.

Prévia dos recursos

Os recursos de pré-lançamento da capacidade de processamento provisionada exigem aprovação de acesso. Para solicitar acesso, preencha e envie o formulário de controle de acesso de throughput provisionado.

A versão de visualização oferece o seguinte para os modelos do Google:

  • A capacidade de processamento provisionada pode ser aplicada a modelos básicos e versões ajustadas supervisionadas desses modelos básicos.

  • Os endpoints de modelos ajustados supervisionados e o modelo de base correspondente contam para a mesma cota de throughput provisionado.

    Por exemplo, o throughput provisionado comprado para gemini-1.5-pro-002 em um projeto específico prioriza as solicitações feitas de versões ajustadas supervisionadas de gemini-1.5-pro-002 criadas nesse projeto. Use o cabeçalho adequado para controlar o comportamento do tráfego.

  • O throughput provisionado pode ser comprado por um período de uma semana, em vez de uma assinatura mensal, com a opção de fornecer uma data de início dentro de duas semanas no futuro do pedido.

Modelos legados do Google

Consulte Modelos legados com suporte à capacidade de processamento provisionada.

Modelos de parceiros

Esta tabela mostra as taxas de capacidade de processamento, incremento de compra e taxas de burndown dos modelos de parceiros que oferecem suporte à capacidade de processamento provisionada. Os modelos de Claude são medidos em tokens por segundo, que é definido como o total de tokens de entrada e saída em todas as solicitações por segundo.

Modelo Capacidade de processamento por GSU (tokens/s) Compra mínima de GSU Incremento de compra de GSU Taxas de burndown
Soneto Claude 3.5 v2 da Anthropic 350 25 1 1 token de entrada = 1 token
1 token de saída = 5 tokens
Haiku Claude 3.5 da Anthropic 2.000 10 1 1 token de entrada = 1 token
1 token de saída = 5 tokens
Claude 3 Opus da Anthropic 70 35 1 1 token de entrada = 1 token
1 token de saída = 5 tokens
Haiku Claude 3 da Anthropic 4.200 5 1 1 token de entrada = 1 token
1 token de saída = 5 tokens
Soneto Claude 3.5 da Anthropic 350 25 1 1 token de entrada = 1 token
1 token de saída = 5 tokens
Soneto Claude 3 da Anthropic 350 25 1 1 token de entrada = 1 token
1 token de saída = 5 tokens

Para mais informações sobre os locais compatíveis, consulte Locais disponíveis.

Quando usar a capacidade de processamento provisionada

Se alguma das considerações a seguir se aplicar ao seu caso de uso, considere usar a capacidade de processamento provisionada:

  • Suas cargas de trabalho críticas exigem constantemente uma alta capacidade de processamento. A medição da capacidade de processamento depende do modelo.
  • Você está criando aplicativos de produção de IA generativa em tempo real, como chatbots e agentes.
  • Sua capacidade de processamento precisa de mais de 20.000 caracteres por segundo.
  • Você quer oferecer uma experiência consistente e previsível para os usuários dos apps.
  • Você quer custos de IA generativa determinísticos pagando um preço mensal fixo com controle de gastos excedentes.
  • Você quer custos de IA generativa determinísticos pagando um preço mensal ou semanal fixo com controle de gastos excedentes.

A capacidade de processamento provisionada é uma das duas maneiras de consumir seus modelos de IA generativa. A segunda maneira é o pagamento por uso, também conhecido como sob demanda.

Como a capacidade de processamento provisionada é medida

Nesta seção, explicamos os conceitos de unidade de escala da IA generativa (GSU) e taxas de burndown. A capacidade de processamento provisionada é calculada e precificada usando GSUs e taxas de burndown.

Uma unidade de escala de IA generativa (GSU, na sigla em inglês) é uma medida de capacidade de processamento para comandos e respostas. Esse valor especifica a capacidade de provisionamento de um modelo.

Para produzir uma unidade padrão em todos os modelos, todas as entradas e saídas são convertidas em caracteres de entrada por segundo (capacidade de processamento) usando proporções específicas do modelo chamadas taxas de burndown.

Modelos diferentes usam quantidades diferentes de capacidade de processamento. Para informações sobre o valor mínimo de compra e os incrementos de GSU para cada modelo, consulte Modelos e taxas de burndown compatíveis neste documento.

Esta equação demonstra como a capacidade de processamento é calculada:

inputs_per_query = inputs_across_modalities_converted_using_burndown_rates
outputs_per_query = outputs_across_modalities_converted_using_burndown_rates

throughput_per_second = (inputs_per_query + outputs_per_query) * queries_per_second

A capacidade de processamento calculada por segundo determina quantas GSUs você precisa para seu caso de uso.

Exemplo de estimativa das suas necessidades de capacidade de processamento provisionada

Para estimar suas necessidades de capacidade de processamento provisionada, use a ferramenta de estimativa no console do Google Cloud. O exemplo a seguir ilustra o processo de estimativa da quantidade de capacidade de processamento provisionada para o modelo. A região não é considerada nos cálculos de estimativa.

  1. Reúna os requisitos.

    1. Neste exemplo, seu requisito é garantir que você possa enviar 2.000 caracteres com 2 imagens e receber 300 caracteres de saída para 10 consultas por segundo usando gemini-1.5-flash.

      Esta etapa significa que você entende seu caso de uso, porque você identificou o tamanho das entradas e saídas, o número de consultas por segundo (QPS) e seu modelo.

    2. Para estimar sua capacidade de processamento, especifique o modelo. Neste exemplo, o modelo é gemini-1.5-flash.

    3. Especifique o tipo de entrada e identifique a taxa de burndown. Use a tabela de taxas de burndown para identificar esse tipo de taxa com base no tipo de entrada.

      A taxa de burndown de uma imagem para o modelo gemini-1.5-flash é de 1.067 caracteres.

  2. Calcule sua capacidade de processamento.

    1. Multiplique o número de imagens pela taxa de burndown do tipo de entrada para seu modelo específico.

      2 imagens * 1.067 caracteres de entrada por imagem = 2.134 caracteres de entrada

    2. O total de caracteres de saída é 300. Volte para a tabela de taxas de burndown e procure a taxa de burndown para os caracteres de saída (quatro caracteres por caractere de saída) para seu modelo específico (gemini-1.5-flash).

      300 caracteres de saída * 4 caracteres por caractere de saída = 1.200 caracteres de entrada convertidos

    3. Adicione todos os totais.

      2.000 caracteres de entrada + 2.134 caracteres de entrada convertidos para as imagens + 1.200 caracteres de entrada convertidos para a saída = 5.334 caracteres de entrada convertidos por consulta

    4. Multiplique os caracteres por consulta pelas consultas esperadas por segundo para obter a capacidade de processamento total por segundo.

      5.334 caracteres de entrada convertidos por consulta * 10 QPS = 53.340 caracteres de entrada convertidos no total por segundo.

  3. Calcule suas GSUs.

    1. As GSUs são a capacidade de processamento total por segundo dividida pela capacidade de processamento por GSU da tabela de burndown.

      53.340 caracteres de entrada convertidos no total por segundo ÷ 54.000 de capacidade de processamento por GSU = 0,988 GSUs

    2. O incremento mínimo de compra de GSU para gemini-1.5-flash é 1, que atende aos seus requisitos.

O que considerar antes de assinar

Para ajudar você a decidir se quer assinar a capacidade de processamento provisionada, consulte esta lista de detalhes sobre a assinatura:

  • Não é possível cancelar o pedido.

    Sua compra da capacidade de processamento provisionada é um compromisso, ou seja, você não consegue cancelar o pedido. No entanto, é possível aumentar o número de GSUs. Se você comprou um compromisso acidentalmente ou se houver um problema com a configuração, entre em contato com o representante da sua conta do Google Cloud para receber ajuda.

  • É possível renovar sua assinatura automaticamente.

    Ao enviar seu pedido, é possível optar, ao final da vigência, pela renovação automática da assinatura ou deixar que ela expire. É possível cancelar o processo de renovação automática. Para cancelar sua assinatura antes da renovação automática, cancele a renovação automática 30 dias antes do início do próximo período.

    É possível configurar as assinaturas mensais para renovação automática. Os termos semanais não são compatíveis com a renovação automática.

    Se precisar de ajuda com esse processo, entre em contato com seu representante da conta do Google Cloud.

  • Você pode mudar a versão do modelo ou a região, com aviso prévio.

    A capacidade de processamento provisionada é ativada depois que você escolhe o projeto, a região, o modelo e a versão. Você pode mudar a versão do modelo no mesmo editor ou região com um aviso de 10 dias úteis. Para receber ajuda, entre em contato com o representante da conta do Google Cloud. Por exemplo, é possível alternar entre os modelos do Google. Você pode alternar entre os modelos do parceiro A. Você pode alternar entre os modelos do parceiro B. Não é possível alternar entre os modelos do Google, do parceiro A e do parceiro B.

  • Não há tempo de inatividade ao mudar para a capacidade de processamento provisionada do pagamento por uso.

    Não há tempo de inatividade ao alternar entre modelos para um pedido de capacidade de processamento provisionada. No entanto, é necessário tempo de lead para adquirir capacidade de processamento.

  • Por padrão, o excedente é faturado como pagamento por uso.

    Se a capacidade de processamento exceder o valor do pedido de capacidade de processamento provisionada, os excedentes serão processados e faturados como pagamento por uso. É possível controlar os excedentes por solicitação. Para mais informações, consulte Usar a API REST.

  • As solicitações são priorizadas.

    As solicitações de clientes da capacidade de processamento provisionada são priorizadas e atendidas antes das solicitações sob demanda.

  • Você precisa se comprometer com um uso mínimo e pagamento.

    O uso mínimo depende do modelo de IA generativa selecionado. Qualquer uso além da taxa de capacidade de processamento comprada não é garantido e é executado com base em esforços razoáveis.

  • A capacidade de processamento não se acumula.

    A capacidade de processamento não utilizada não se acumula nem é transferida para o mês seguinte.

  • A capacidade de processamento provisionada é medida em caracteres ou tokens por segundo.

    A capacidade de processamento provisionada é medida em caracteres ou tokens por segundo, não em consultas por minuto (QPM). Como resultado, a medição da capacidade de processamento provisionada depende do tamanho da consulta e do QPM do seu caso de uso.

  • A capacidade de processamento provisionada verifica sua cota.

    A cota de throughput provisionado é verificada sempre que você faz uma solicitação dentro da janela de cota. Para os modelos gemini-1.5-flash-002 e gemini-1.5-pro-002, a janela de cota é de 30 segundos. Isso significa que você pode ter um tráfego priorizado temporário que exceda o valor da cota por segundo em alguns casos, mas não deve exceder a cota por 30 segundos. A janela de cota para outros modelos é de um minuto.

  • Os endpoints de modelos ajustados supervisionados e o modelo base correspondente são contabilizados na mesma cota de throughput provisionado. Este é um recurso em fase de pré-lançamento. Preencha e envie o formulário de controle de acesso de throughput provisionado.

    Por exemplo, a Throughput provisionada comprada para gemini-1.5-pro-002 em um projeto específico prioriza as solicitações feitas de versões ajustadas supervisionadas de gemini-1.5-pro-002 criadas nesse projeto. Use o cabeçalho adequado para controlar o comportamento do tráfego.

Capacidade de processamento provisionada de compra

Esta seção mostra as permissões necessárias para fazer ou visualizar um pedido de capacidade de processamento provisionada e as instruções para fazer e visualizar os pedidos.

Permissões

Para assinar a capacidade de processamento provisionada, você precisa ter uma das seguintes permissões atribuídas ao seu projeto, que permite listar e fazer novos pedidos.

  • aiplatform.googleapis.com/provisionedThroughputAdmin: específico para capacidade de processamento provisionada.
  • aiplatform.googleapis.com/admin: concede direitos administrativos a cada recurso na Vertex AI.

Com esse papel, você só pode listar seus pedidos:

  • aiplatform.googleapis.com/viewer

Fazer um pedido de capacidade de processamento provisionada

Antes de fazer o pedido para usar os modelos Imagen, envie o formulário de solicitação de permissões para receber as permissões.

Antes de fazer um pedido para usar o MedLM-large-1.5, entre em contato com seu representante de conta do Google Cloud para solicitar acesso. Se você espera que o QPM exceda 30.000, para maximizar o pedido de capacidade de processamento provisionada, solicite um aumento na cota padrão do sistema da Vertex AI usando as seguintes informações:

  • Serviço: a API Vertex AI.
  • Nome: Online prediction requests per minute per region
  • Tipo de serviço: uma cota.
  • Dimensões: a região em que você pediu a capacidade provisionada.
  • Valor: é o limite de tráfego de previsão on-line escolhido.

Siga estas etapas para comprar a capacidade de processamento provisionada:

Console

  1. No console do Google Cloud, acesse a página "Capacidade de processamento provisionada".

    Acessar a capacidade de processamento provisionada

  2. Para iniciar um novo pedido, clique em Criar.
  3. Insira um Nome para o pedido.
  4. Selecione o Modelo.
  5. Selecione a Região.
  6. Insira o Número de unidades de escalonamento de IA generativa (GSUs, na sigla em inglês) que você precisa comprar. Se você precisar estimar o número de GSUs, clique na Ferramenta de estimativa.
    1. Selecione o Modelo.
    2. Insira o número de Consultas por segundo.
    3. Insira o número de Caracteres de entrada por consulta.
    4. Insira o número de Imagens de entrada por consulta.
    5. Insira o número de Segundos de vídeo por consulta.
    6. Insira o número de Segundos de áudio por consulta.
    7. Insira o número de Caracteres de saída por consulta.
    8. Se você quiser usar os valores que inseriu na ferramenta de estimativa, clique em Uso calculado.
  7. Selecione o Prazo.

    Se você escolher uma semana, terá a opção de informar uma data e um horário de início dentro de duas semanas para fazer um pedido. Se você não informar a data e a hora de início, vamos processar o pedido assim que possível para garantir que a capacidade esteja disponível. As datas e os horários de início solicitados são processados da melhor maneira possível, e não há garantia de que os pedidos serão atendidos nessas datas até que o status seja definido como Aprovado.

    Se a data de início solicitada for muito próxima da data atual, o pedido poderá ser aprovado e ativado após a data de início solicitada, o que significa que a data de término vai permanecer sete dias a partir da data de ativação.

  8. Selecione a opção Renovação.
  9. Clique em Continuar.
  10. Na seção Resumo, revise as estimativas de preço e de capacidade de processamento do seu pedido. Leia os termos listados e disponíveis no formulário.
  11. Para finalizar o pedido, clique em Confirmar.

Verificar status do pedido

Após o envio do pedido de capacidade de processamento provisionada, o status do pedido pode aparecer da seguinte forma:

  • Revisão pendente: você fez o pedido. Como a aprovação depende da capacidade disponível para provisionar seu pedido, seu pedido está aguardando análise e aprovação. Para mais informações sobre o status do pedido pendente, entre em contato com o representante da conta do Google Cloud.
  • Aprovado: o Google aprovou seu pedido.
  • Ativo: o Google ativou seu pedido, e o faturamento começou.
  • Expirado: seu pedido expirou.

Ver pedidos de capacidade de processamento provisionada

Siga estas etapas para conferir seus pedidos de capacidade de processamento provisionada:

Console

  1. No console do Google Cloud, acesse a página "Capacidade de processamento provisionada".

    Acessar a capacidade de processamento provisionada

  2. Selecione a Região. Sua lista de pedidos vai aparecer.

Usar a capacidade de processamento provisionada

Esta seção explica como controlar o excesso ou ignorar a capacidade de processamento provisionada e como monitorar seu uso.

Controlar excedentes ou ignorar a capacidade de processamento provisionada

Use a API REST para controlar excedentes quando você exceder a capacidade de processamento comprada ou para ignorar a capacidade de processamento provisionada por solicitação.

Leia cada opção para determinar o que você precisa fazer para atender ao seu caso de uso.

Comportamento padrão

Se você exceder a capacidade de processamento comprada, os excedentes vão ser cobrados sob demanda e faturados de acordo com a taxa de pagamento por uso. Depois que o pedido de capacidade de processamento provisionada estiver ativo, o comportamento padrão vai ocorrer automaticamente. Não é preciso alterar o código para começar a consumir seu pedido.

Este exemplo de curl demonstra o comportamento padrão.

! curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  $URL \
  -d '{"contents": [{"role": "user", "parts": [{"text": "Hello."}]}]}'

Usar apenas a capacidade de processamento provisionada

Se você estiver gerenciando custos evitando cobranças sob demanda, use apenas a capacidade de processamento provisionada. Solicitações que excedem o valor do pedido de capacidade de processamento provisionada retornam com um erro 429.

Este exemplo de curl demonstra como usar a API REST para usar apenas a assinatura de capacidade de processamento provisionada, com excessos retornando com um erro 429.

Defina o cabeçalho X-Vertex-AI-LLM-Request-Type como dedicated.

! curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  -H "X-Vertex-AI-LLM-Request-Type: dedicated" \
  $URL \
  -d '{"contents": [{"role": "user", "parts": [{"text": "Hello."}]}]}'

Usar apenas o pagamento por uso

Isso também é chamado de uso sob demanda. As solicitações ignoram a capacidade de processamento provisionada e são enviadas diretamente para o pagamento por uso. Isso pode ser útil para experimentos ou aplicativos que estão em desenvolvimento.

Este exemplo de curl demonstra como usar a API REST para ignorar capacidade de processamento provisionada e uso somente de pagamento por uso.

Defina o cabeçalho X-Vertex-AI-LLM-Request-Type como shared.

! curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  -H "X-Vertex-AI-LLM-Request-Type: shared" \
  $URL \
  -d '{"contents": [{"role": "user", "parts": [{"text": "Hello."}]}]}'

Monitorar a capacidade de processamento provisionada

É possível monitorar o uso da capacidade de processamento provisionada com as métricas de monitoramento e por solicitação.

Cabeçalhos de resposta

Se uma solicitação tiver sido processada usando a capacidade de processamento provisionada, o seguinte cabeçalho HTTP está presente na resposta. Essa linha de código se aplica somente à chamada de API generateContent.

  {"X-Vertex-AI-LLM-Request-Type": "dedicated"}

Métricas

A capacidade de processamento provisionada pode ser monitorada usando um conjunto de métricas que são medidas no tipo de recurso aiplatform.googleapis.com/PublisherModel. Cada métrica pode ser filtrada com as seguintes dimensões:

  • type: input, output
  • request_type: dedicated, shared

Para filtrar uma métrica e visualizar o uso da capacidade de processamento provisionada, use o tipo de solicitação dedicated. O prefixo do caminho de uma métrica é aiplatform.googleapis.com/publisher/online_serving. Por exemplo, o caminho completo da métrica /consumed_throughput é aiplatform.googleapis.com/publisher/online_serving/consumed_throughput.

As seguintes métricas do Cloud Monitoring estão disponíveis no recurso aiplatform.googleapis.com/PublisherModel:

Métrica Nome de exibição Descrição Filtrar por uso da capacidade de processamento provisionada
/characters Caracteres Distribuição de contagem de caracteres de entrada e saída.
/character_count Contagem de caracteres Contagem de caracteres de entrada e saída acumulados.
/consumed_throughput Capacidade de processamento de caracteres Capacidade de processamento consumida (considera a taxa de burndown) em caracteres.
/model_invocation_count Contagem de invocações de modelo Número de invocações de modelo (solicitações de previsão).
/model_invocation_latencies Latências de invocação de modelo Latências de invocação de modelo (latências de previsão).
/first_token_latencies Latências do primeiro token Duração da solicitação recebida até o primeiro token retornado.
/tokens Tokens Distribuição da contagem de tokens de entrada e saída.
/token_count Contagem de tokens Contagem acumulada de tokens de entrada e saída.

Resolver problemas de capacidade de processamento provisionada

Para corrigir o erro 429 gerado pela capacidade de processamento provisionada, faça o seguinte:

  • Use o exemplo padrão, que não define um cabeçalho nas solicitações de previsão. Os excedentes são processados sob demanda e faturados como pagamento por uso.
  • Aumente o número de GSUs na sua assinatura de capacidade de processamento provisionada.

A seguir