A capacidade de processamento provisionada é um serviço semanal ou de assinatura mensal de custo fixo que reserva capacidade de processamento para modelos de IA generativa compatíveis na Vertex AI. Para reservar a capacidade de processamento, especifique o modelo e os locais disponíveis em que ele é executado.
Esta página explica quando usar a capacidade de processamento provisionada, como ela funciona e como se inscrever.
Modelos compatíveis
As tabelas a seguir mostram os modelos compatíveis com a capacidade de processamento provisionada, a capacidade de processamento para cada Unidade de escala de IA generativa (GSU, na sigla em inglês) e as taxas de burndown de cada modelo.
Modelos do Google
Esta tabela mostra a capacidade de processamento, o incremento de compra e as taxas de burndown para modelos do Google que oferecem suporte à capacidade de processamento provisionada. Os modelos do Google são medidos em caracteres por segundo, que é definido como a entrada de comando e os caracteres de saída de texto gerados em todas as solicitações por segundo.
Modelo | Capacidade de processamento por GSU (caracteres/s) | Incremento mínimo de compra de GSU | Taxas de burndown | |
---|---|---|---|---|
Gemini 1.5 Flash | Janela de contexto menor ou igual a 128.000: 54.000 Janela de contexto maior que 128.000: 27.000 |
1 | Janela de contexto menor ou igual a 128.000: 1 caractere de entrada = 1 caractere 1 caractere de saída = 4 caracteres 1 imagem = 1.067 caracteres 1 vídeo por segundo = 1.067 caracteres 1 áudio por segundo = 107 caracteres |
Janela de contexto maior que 128.000: 1 caractere de entrada = 2 caracteres 1 caractere de saída = 8 caracteres 1 imagem = 2.134 caracteres 1 vídeo por segundo = 2.134 caracteres 1 áudio por segundo = 214 caracteres |
Gemini 1.5 Pro | 800 | 1 | Janela de contexto menor ou igual a 128.000: 1 caractere de entrada = 1 caractere 1 caractere de saída = 3 caracteres 1 imagem = 1.052 caracteres 1 vídeo por segundo = 1.052 caracteres 1 áudio por segundo = 100 caracteres |
Janela de contexto maior que 128.000: 1 caractere de entrada = 2 caracteres 1 caractere de saída = 6 caracteres 1 imagem = 2.104 caracteres 1 vídeo por segundo = 2.104 caracteres 1 áudio por segundo = 200 caracteres |
Gemini 1.0 Pro | 8.000 | 1 | 1 caractere de entrada = 1 caractere 1 caractere de saída = 3 caracteres 1 imagem = 20.000 caracteres 1 vídeo por segundo = 16.000 caracteres |
|
Imagen 3 | 0,025 A capacidade de processamento é medida em imagens/s em vez de caracteres/s. |
1 | Somente as imagens de saída são contabilizadas na cota de capacidade de processamento provisionada. | |
Imagen 3 Fast | 0,05 A capacidade de processamento é medida em imagens/s em vez de caracteres/s. |
1 | Somente as imagens de saída são contabilizadas na cota de capacidade de processamento provisionada. | |
Imagem 2 | 0,05 A capacidade de processamento é medida em imagens/s em vez de caracteres/s. |
1 | Somente as imagens de saída são contabilizadas na cota de capacidade de processamento provisionada. | |
Editar Imagen 2 | 0,05 A capacidade de processamento é medida em imagens/s em vez de caracteres/s. |
1 | Somente as imagens de saída são contabilizadas na cota de capacidade de processamento provisionada. | |
MedLM medium | 2.000 | 1 | 1 caractere de entrada = 1 caractere 1 caractere de saída = 2 caracteres |
|
MedLM grande | 200 | 1 | 1 caractere de entrada = 1 caractere 1 caractere de saída = 3 caracteres |
|
MedLM large 1.5 | 200 | 1 | 1 caractere de entrada = 1 caractere 1 caractere de saída = 3 caracteres |
Para mais informações sobre os locais compatíveis, consulte Locais disponíveis.
Você pode fazer upgrade para novos modelos assim que eles forem disponibilizados. Para informações sobre disponibilidade e datas de descontinuação, consulte Modelos do Google.
Prévia dos recursos
Os recursos de pré-lançamento da capacidade de processamento provisionada exigem aprovação de acesso. Para solicitar acesso, preencha e envie o formulário de controle de acesso de throughput provisionado.
A versão de visualização oferece o seguinte para os modelos do Google:
A capacidade de processamento provisionada pode ser aplicada a modelos básicos e versões ajustadas supervisionadas desses modelos básicos.
Os endpoints de modelos ajustados supervisionados e o modelo de base correspondente contam para a mesma cota de throughput provisionado.
Por exemplo, o throughput provisionado comprado para
gemini-1.5-pro-002
em um projeto específico prioriza as solicitações feitas de versões ajustadas supervisionadas degemini-1.5-pro-002
criadas nesse projeto. Use o cabeçalho adequado para controlar o comportamento do tráfego.O throughput provisionado pode ser comprado por um período de uma semana, em vez de uma assinatura mensal, com a opção de fornecer uma data de início dentro de duas semanas no futuro do pedido.
Modelos legados do Google
Consulte Modelos legados com suporte à capacidade de processamento provisionada.
Modelos de parceiros
Esta tabela mostra as taxas de capacidade de processamento, incremento de compra e taxas de burndown dos modelos de parceiros que oferecem suporte à capacidade de processamento provisionada. Os modelos de Claude são medidos em tokens por segundo, que é definido como o total de tokens de entrada e saída em todas as solicitações por segundo.
Modelo | Capacidade de processamento por GSU (tokens/s) | Compra mínima de GSU | Incremento de compra de GSU | Taxas de burndown |
---|---|---|---|---|
Soneto Claude 3.5 v2 da Anthropic | 350 | 25 | 1 | 1 token de entrada = 1 token 1 token de saída = 5 tokens |
Haiku Claude 3.5 da Anthropic | 2.000 | 10 | 1 | 1 token de entrada = 1 token 1 token de saída = 5 tokens |
Claude 3 Opus da Anthropic | 70 | 35 | 1 | 1 token de entrada = 1 token 1 token de saída = 5 tokens |
Haiku Claude 3 da Anthropic | 4.200 | 5 | 1 | 1 token de entrada = 1 token 1 token de saída = 5 tokens |
Soneto Claude 3.5 da Anthropic | 350 | 25 | 1 | 1 token de entrada = 1 token 1 token de saída = 5 tokens |
Soneto Claude 3 da Anthropic | 350 | 25 | 1 | 1 token de entrada = 1 token 1 token de saída = 5 tokens |
Para mais informações sobre os locais compatíveis, consulte Locais disponíveis.
Quando usar a capacidade de processamento provisionada
Se alguma das considerações a seguir se aplicar ao seu caso de uso, considere usar a capacidade de processamento provisionada:
- Suas cargas de trabalho críticas exigem constantemente uma alta capacidade de processamento. A medição da capacidade de processamento depende do modelo.
- Você está criando aplicativos de produção de IA generativa em tempo real, como chatbots e agentes.
- Sua capacidade de processamento precisa de mais de 20.000 caracteres por segundo.
- Você quer oferecer uma experiência consistente e previsível para os usuários dos apps.
- Você quer custos de IA generativa determinísticos pagando um preço mensal fixo com controle de gastos excedentes.
- Você quer custos de IA generativa determinísticos pagando um preço mensal ou semanal fixo com controle de gastos excedentes.
A capacidade de processamento provisionada é uma das duas maneiras de consumir seus modelos de IA generativa. A segunda maneira é o pagamento por uso, também conhecido como sob demanda.
Como a capacidade de processamento provisionada é medida
Nesta seção, explicamos os conceitos de unidade de escala da IA generativa (GSU) e taxas de burndown. A capacidade de processamento provisionada é calculada e precificada usando GSUs e taxas de burndown.
Uma unidade de escala de IA generativa (GSU, na sigla em inglês) é uma medida de capacidade de processamento para comandos e respostas. Esse valor especifica a capacidade de provisionamento de um modelo.
Para produzir uma unidade padrão em todos os modelos, todas as entradas e saídas são convertidas em caracteres de entrada por segundo (capacidade de processamento) usando proporções específicas do modelo chamadas taxas de burndown.
Modelos diferentes usam quantidades diferentes de capacidade de processamento. Para informações sobre o valor mínimo de compra e os incrementos de GSU para cada modelo, consulte Modelos e taxas de burndown compatíveis neste documento.
Esta equação demonstra como a capacidade de processamento é calculada:
inputs_per_query = inputs_across_modalities_converted_using_burndown_rates
outputs_per_query = outputs_across_modalities_converted_using_burndown_rates
throughput_per_second = (inputs_per_query + outputs_per_query) * queries_per_second
A capacidade de processamento calculada por segundo determina quantas GSUs você precisa para seu caso de uso.
Exemplo de estimativa das suas necessidades de capacidade de processamento provisionada
Para estimar suas necessidades de capacidade de processamento provisionada, use a ferramenta de estimativa no console do Google Cloud. O exemplo a seguir ilustra o processo de estimativa da quantidade de capacidade de processamento provisionada para o modelo. A região não é considerada nos cálculos de estimativa.
Reúna os requisitos.
Neste exemplo, seu requisito é garantir que você possa enviar 2.000 caracteres com 2 imagens e receber 300 caracteres de saída para 10 consultas por segundo usando
gemini-1.5-flash
.Esta etapa significa que você entende seu caso de uso, porque você identificou o tamanho das entradas e saídas, o número de consultas por segundo (QPS) e seu modelo.
Para estimar sua capacidade de processamento, especifique o modelo. Neste exemplo, o modelo é
gemini-1.5-flash
.Especifique o tipo de entrada e identifique a taxa de burndown. Use a tabela de taxas de burndown para identificar esse tipo de taxa com base no tipo de entrada.
A taxa de burndown de uma imagem para o modelo
gemini-1.5-flash
é de 1.067 caracteres.
Calcule sua capacidade de processamento.
Multiplique o número de imagens pela taxa de burndown do tipo de entrada para seu modelo específico.
2 imagens * 1.067 caracteres de entrada por imagem = 2.134 caracteres de entrada
O total de caracteres de saída é 300. Volte para a tabela de taxas de burndown e procure a taxa de burndown para os caracteres de saída (quatro caracteres por caractere de saída) para seu modelo específico (
gemini-1.5-flash
).300 caracteres de saída * 4 caracteres por caractere de saída = 1.200 caracteres de entrada convertidos
Adicione todos os totais.
2.000 caracteres de entrada + 2.134 caracteres de entrada convertidos para as imagens + 1.200 caracteres de entrada convertidos para a saída = 5.334 caracteres de entrada convertidos por consulta
Multiplique os caracteres por consulta pelas consultas esperadas por segundo para obter a capacidade de processamento total por segundo.
5.334 caracteres de entrada convertidos por consulta * 10 QPS = 53.340 caracteres de entrada convertidos no total por segundo.
Calcule suas GSUs.
As GSUs são a capacidade de processamento total por segundo dividida pela capacidade de processamento por GSU da tabela de burndown.
53.340 caracteres de entrada convertidos no total por segundo ÷ 54.000 de capacidade de processamento por GSU = 0,988 GSUs
O incremento mínimo de compra de GSU para
gemini-1.5-flash
é 1, que atende aos seus requisitos.
O que considerar antes de assinar
Para ajudar você a decidir se quer assinar a capacidade de processamento provisionada, consulte esta lista de detalhes sobre a assinatura:
Não é possível cancelar o pedido.
Sua compra da capacidade de processamento provisionada é um compromisso, ou seja, você não consegue cancelar o pedido. No entanto, é possível aumentar o número de GSUs. Se você comprou um compromisso acidentalmente ou se houver um problema com a configuração, entre em contato com o representante da sua conta do Google Cloud para receber ajuda.
É possível renovar sua assinatura automaticamente.
Ao enviar seu pedido, é possível optar, ao final da vigência, pela renovação automática da assinatura ou deixar que ela expire. É possível cancelar o processo de renovação automática. Para cancelar sua assinatura antes da renovação automática, cancele a renovação automática 30 dias antes do início do próximo período.
É possível configurar as assinaturas mensais para renovação automática. Os termos semanais não são compatíveis com a renovação automática.
Se precisar de ajuda com esse processo, entre em contato com seu representante da conta do Google Cloud.
Você pode mudar a versão do modelo ou a região, com aviso prévio.
A capacidade de processamento provisionada é ativada depois que você escolhe o projeto, a região, o modelo e a versão. Você pode mudar a versão do modelo no mesmo editor ou região com um aviso de 10 dias úteis. Para receber ajuda, entre em contato com o representante da conta do Google Cloud. Por exemplo, é possível alternar entre os modelos do Google. Você pode alternar entre os modelos do parceiro A. Você pode alternar entre os modelos do parceiro B. Não é possível alternar entre os modelos do Google, do parceiro A e do parceiro B.
Não há tempo de inatividade ao mudar para a capacidade de processamento provisionada do pagamento por uso.
Não há tempo de inatividade ao alternar entre modelos para um pedido de capacidade de processamento provisionada. No entanto, é necessário tempo de lead para adquirir capacidade de processamento.
Por padrão, o excedente é faturado como pagamento por uso.
Se a capacidade de processamento exceder o valor do pedido de capacidade de processamento provisionada, os excedentes serão processados e faturados como pagamento por uso. É possível controlar os excedentes por solicitação. Para mais informações, consulte Usar a API REST.
As solicitações são priorizadas.
As solicitações de clientes da capacidade de processamento provisionada são priorizadas e atendidas antes das solicitações sob demanda.
Você precisa se comprometer com um uso mínimo e pagamento.
O uso mínimo depende do modelo de IA generativa selecionado. Qualquer uso além da taxa de capacidade de processamento comprada não é garantido e é executado com base em esforços razoáveis.
A capacidade de processamento não se acumula.
A capacidade de processamento não utilizada não se acumula nem é transferida para o mês seguinte.
A capacidade de processamento provisionada é medida em caracteres ou tokens por segundo.
A capacidade de processamento provisionada é medida em caracteres ou tokens por segundo, não em consultas por minuto (QPM). Como resultado, a medição da capacidade de processamento provisionada depende do tamanho da consulta e do QPM do seu caso de uso.
A capacidade de processamento provisionada verifica sua cota.
A cota de throughput provisionado é verificada sempre que você faz uma solicitação dentro da janela de cota. Para os modelos
gemini-1.5-flash-002
egemini-1.5-pro-002
, a janela de cota é de 30 segundos. Isso significa que você pode ter um tráfego priorizado temporário que exceda o valor da cota por segundo em alguns casos, mas não deve exceder a cota por 30 segundos. A janela de cota para outros modelos é de um minuto.Os endpoints de modelos ajustados supervisionados e o modelo base correspondente são contabilizados na mesma cota de throughput provisionado. Este é um recurso em fase de pré-lançamento. Preencha e envie o formulário de controle de acesso de throughput provisionado.
Por exemplo, a Throughput provisionada comprada para
gemini-1.5-pro-002
em um projeto específico prioriza as solicitações feitas de versões ajustadas supervisionadas degemini-1.5-pro-002
criadas nesse projeto. Use o cabeçalho adequado para controlar o comportamento do tráfego.
Capacidade de processamento provisionada de compra
Esta seção mostra as permissões necessárias para fazer ou visualizar um pedido de capacidade de processamento provisionada e as instruções para fazer e visualizar os pedidos.
Permissões
Para assinar a capacidade de processamento provisionada, você precisa ter uma das seguintes permissões atribuídas ao seu projeto, que permite listar e fazer novos pedidos.
aiplatform.googleapis.com/provisionedThroughputAdmin
: específico para capacidade de processamento provisionada.aiplatform.googleapis.com/admin
: concede direitos administrativos a cada recurso na Vertex AI.
Com esse papel, você só pode listar seus pedidos:
aiplatform.googleapis.com/viewer
Fazer um pedido de capacidade de processamento provisionada
Antes de fazer o pedido para usar os modelos Imagen, envie o formulário de solicitação de permissões para receber as permissões.
Antes de fazer um pedido para usar o MedLM-large-1.5, entre em contato com seu representante de conta do Google Cloud para solicitar acesso. Se você espera que o QPM exceda 30.000, para maximizar o pedido de capacidade de processamento provisionada, solicite um aumento na cota padrão do sistema da Vertex AI usando as seguintes informações:
- Serviço: a API Vertex AI.
- Nome:
Online prediction requests per minute per region
- Tipo de serviço: uma cota.
- Dimensões: a região em que você pediu a capacidade provisionada.
- Valor: é o limite de tráfego de previsão on-line escolhido.
Siga estas etapas para comprar a capacidade de processamento provisionada:
Console
- No console do Google Cloud, acesse a página "Capacidade de processamento provisionada".
- Para iniciar um novo pedido, clique em Criar.
- Insira um Nome para o pedido.
- Selecione o Modelo.
- Selecione a Região.
- Insira o Número de unidades de escalonamento de IA generativa (GSUs, na sigla em inglês) que você precisa
comprar. Se você precisar estimar o número de GSUs, clique na
Ferramenta de estimativa.
- Selecione o Modelo.
- Insira o número de Consultas por segundo.
- Insira o número de Caracteres de entrada por consulta.
- Insira o número de Imagens de entrada por consulta.
- Insira o número de Segundos de vídeo por consulta.
- Insira o número de Segundos de áudio por consulta.
- Insira o número de Caracteres de saída por consulta.
- Se você quiser usar os valores que inseriu na ferramenta de estimativa, clique em Uso calculado.
- Selecione o Prazo.
Se você escolher uma semana, terá a opção de informar uma data e um horário de início dentro de duas semanas para fazer um pedido. Se você não informar a data e a hora de início, vamos processar o pedido assim que possível para garantir que a capacidade esteja disponível. As datas e os horários de início solicitados são processados da melhor maneira possível, e não há garantia de que os pedidos serão atendidos nessas datas até que o status seja definido como Aprovado.
Se a data de início solicitada for muito próxima da data atual, o pedido poderá ser aprovado e ativado após a data de início solicitada, o que significa que a data de término vai permanecer sete dias a partir da data de ativação.
- Selecione a opção Renovação.
- Clique em Continuar.
- Na seção Resumo, revise as estimativas de preço e de capacidade de processamento do seu pedido. Leia os termos listados e disponíveis no formulário.
- Para finalizar o pedido, clique em Confirmar.
Verificar status do pedido
Após o envio do pedido de capacidade de processamento provisionada, o status do pedido pode aparecer da seguinte forma:
- Revisão pendente: você fez o pedido. Como a aprovação depende da capacidade disponível para provisionar seu pedido, seu pedido está aguardando análise e aprovação. Para mais informações sobre o status do pedido pendente, entre em contato com o representante da conta do Google Cloud.
- Aprovado: o Google aprovou seu pedido.
- Ativo: o Google ativou seu pedido, e o faturamento começou.
- Expirado: seu pedido expirou.
Ver pedidos de capacidade de processamento provisionada
Siga estas etapas para conferir seus pedidos de capacidade de processamento provisionada:
Console
- No console do Google Cloud, acesse a página "Capacidade de processamento provisionada".
- Selecione a Região. Sua lista de pedidos vai aparecer.
Usar a capacidade de processamento provisionada
Esta seção explica como controlar o excesso ou ignorar a capacidade de processamento provisionada e como monitorar seu uso.
Controlar excedentes ou ignorar a capacidade de processamento provisionada
Use a API REST para controlar excedentes quando você exceder a capacidade de processamento comprada ou para ignorar a capacidade de processamento provisionada por solicitação.
Leia cada opção para determinar o que você precisa fazer para atender ao seu caso de uso.
Comportamento padrão
Se você exceder a capacidade de processamento comprada, os excedentes vão ser cobrados sob demanda e faturados de acordo com a taxa de pagamento por uso. Depois que o pedido de capacidade de processamento provisionada estiver ativo, o comportamento padrão vai ocorrer automaticamente. Não é preciso alterar o código para começar a consumir seu pedido.
Este exemplo de curl demonstra o comportamento padrão.
! curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
$URL \
-d '{"contents": [{"role": "user", "parts": [{"text": "Hello."}]}]}'
Usar apenas a capacidade de processamento provisionada
Se você estiver gerenciando custos evitando cobranças sob demanda, use apenas a capacidade de processamento provisionada. Solicitações que excedem o valor do pedido de capacidade de processamento provisionada retornam com um erro 429.
Este exemplo de curl demonstra como usar a API REST para usar apenas a assinatura de capacidade de processamento provisionada, com excessos retornando com um erro 429.
Defina o cabeçalho X-Vertex-AI-LLM-Request-Type
como dedicated
.
! curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
-H "X-Vertex-AI-LLM-Request-Type: dedicated" \
$URL \
-d '{"contents": [{"role": "user", "parts": [{"text": "Hello."}]}]}'
Usar apenas o pagamento por uso
Isso também é chamado de uso sob demanda. As solicitações ignoram a capacidade de processamento provisionada e são enviadas diretamente para o pagamento por uso. Isso pode ser útil para experimentos ou aplicativos que estão em desenvolvimento.
Este exemplo de curl demonstra como usar a API REST para ignorar capacidade de processamento provisionada e uso somente de pagamento por uso.
Defina o cabeçalho X-Vertex-AI-LLM-Request-Type
como shared
.
! curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
-H "X-Vertex-AI-LLM-Request-Type: shared" \
$URL \
-d '{"contents": [{"role": "user", "parts": [{"text": "Hello."}]}]}'
Monitorar a capacidade de processamento provisionada
É possível monitorar o uso da capacidade de processamento provisionada com as métricas de monitoramento e por solicitação.
Cabeçalhos de resposta
Se uma solicitação tiver sido processada usando a capacidade de processamento provisionada, o seguinte cabeçalho HTTP
está presente na resposta. Essa linha de código se aplica somente
à chamada de API generateContent
.
{"X-Vertex-AI-LLM-Request-Type": "dedicated"}
Métricas
A capacidade de processamento provisionada pode ser monitorada usando um conjunto de métricas que são medidas
no tipo de recurso aiplatform.googleapis.com/PublisherModel
. Cada métrica pode ser filtrada com as seguintes dimensões:
type
:input
,output
request_type
:dedicated
,shared
Para filtrar uma métrica e visualizar o uso da capacidade de processamento provisionada, use o tipo de solicitação
dedicated
. O prefixo do caminho de uma métrica é
aiplatform.googleapis.com/publisher/online_serving
.
Por exemplo, o caminho completo da métrica /consumed_throughput
é
aiplatform.googleapis.com/publisher/online_serving/consumed_throughput
.
As seguintes métricas do Cloud Monitoring estão disponíveis no recurso aiplatform.googleapis.com/PublisherModel
:
Métrica | Nome de exibição | Descrição | Filtrar por uso da capacidade de processamento provisionada |
---|---|---|---|
/characters |
Caracteres | Distribuição de contagem de caracteres de entrada e saída. | |
/character_count |
Contagem de caracteres | Contagem de caracteres de entrada e saída acumulados. | |
/consumed_throughput |
Capacidade de processamento de caracteres | Capacidade de processamento consumida (considera a taxa de burndown) em caracteres. | |
/model_invocation_count |
Contagem de invocações de modelo | Número de invocações de modelo (solicitações de previsão). | |
/model_invocation_latencies |
Latências de invocação de modelo | Latências de invocação de modelo (latências de previsão). | |
/first_token_latencies |
Latências do primeiro token | Duração da solicitação recebida até o primeiro token retornado. | |
/tokens |
Tokens | Distribuição da contagem de tokens de entrada e saída. | |
/token_count |
Contagem de tokens | Contagem acumulada de tokens de entrada e saída. |
Resolver problemas de capacidade de processamento provisionada
Para corrigir o erro 429 gerado pela capacidade de processamento provisionada, faça o seguinte:
- Use o exemplo padrão, que não define um cabeçalho nas solicitações de previsão. Os excedentes são processados sob demanda e faturados como pagamento por uso.
- Aumente o número de GSUs na sua assinatura de capacidade de processamento provisionada.
A seguir
- Entre em contato com o representante da sua conta do Google Cloud para fazer um pedido de capacidade de processamento provisionada ou aumentar o número de GSUs em um pedido atual.
- Para mais informações sobre como resolver o erro 429 ao usar a cota compartilhada dinâmica ou a capacidade de processamento provisionada, consulte
Código do erro
429
. - Para saber mais sobre a cota compartilhada dinâmica (DSQ, na sigla em inglês), consulte Cota compartilhada dinâmica.