Esta página mostra detalhes a serem considerados antes de assinar a capacidade de processamento provisionada, as permissões necessárias para fazer ou visualizar um pedido de capacidade de processamento provisionada e as instruções para fazer e visualizar os pedidos.
O que considerar antes de assinar
Para ajudar você a decidir se quer assinar a capacidade de processamento provisionada, consulte esta lista de detalhes sobre a assinatura:
Não é possível cancelar o pedido.
Sua compra da capacidade de processamento provisionada é um compromisso, ou seja, você não consegue cancelar o pedido. No entanto, é possível aumentar o número de GSUs. Se você comprou um compromisso acidentalmente ou se houver um problema com a configuração, entre em contato com o representante da sua conta Google Cloud para receber ajuda.
É possível renovar sua assinatura automaticamente.
Ao enviar seu pedido, é possível optar, ao final da vigência, pela renovação automática da assinatura ou deixar que ela expire. É possível cancelar o processo de renovação automática. Para cancelar sua assinatura antes da renovação automática, cancele a renovação automática 30 dias antes do início do próximo período.
É possível configurar as assinaturas mensais para renovação automática. Os termos semanais não são compatíveis com a renovação automática.
Se precisar de ajuda com esse processo, entre em contato com o representante da Google Cloud conta.
Você pode mudar a versão do modelo ou a região, com aviso prévio.
Depois que você escolher o projeto, a região, o modelo e a versão, a capacidade de processamento provisionada será ativada após a aprovação do pedido. Você pode mudar a versão do modelo no mesmo editor ou região com um aviso de 10 dias úteis usando o console do Google Cloud para modelos do Google. Para mais informações, consulte Mudar a ordem da capacidade de processamento provisionada. Você também pode entrar em contato com o Google Cloud representante da conta para receber ajuda.
Só é possível mudar entre modelos do mesmo fornecedor. Por exemplo, é possível alternar entre os modelos do Google ou do parceiro A. No entanto, não é possível alternar entre os modelos do Google e do parceiro A.
Não há tempo de inatividade ao mudar para a capacidade de processamento provisionada do pagamento por uso.
Não há tempo de inatividade ao alternar entre modelos para um pedido de capacidade de processamento provisionada. No entanto, é necessário tempo de lead para adquirir capacidade de processamento.
Por padrão, o excedente é faturado como pagamento por uso.
Se a capacidade de processamento exceder o valor do pedido de capacidade de processamento provisionada, os excedentes serão processados e faturados como pagamento por uso. É possível controlar os excedentes por solicitação. Para mais informações, consulte Usar a API REST.
As solicitações são priorizadas.
As solicitações de clientes da capacidade de processamento provisionada são priorizadas e atendidas antes das solicitações sob demanda.
Você precisa se comprometer com um uso mínimo e pagamento.
O uso mínimo depende do modelo de IA generativa selecionado. Qualquer uso além da taxa de capacidade de processamento comprada não é garantido e é executado com base em esforços razoáveis.
A capacidade de processamento não se acumula.
A capacidade de processamento não utilizada não se acumula nem é transferida para o mês seguinte.
A capacidade de processamento provisionada é medida em caracteres ou tokens por segundo.
A capacidade de processamento provisionada é medida em caracteres ou tokens por segundo, não em consultas por minuto (QPM). Como resultado, a medição da capacidade de processamento provisionada depende do tamanho da consulta e do QPM do seu caso de uso.
A capacidade de processamento provisionada verifica sua cota.
Sua cota de throughput provisionado é verificada sempre que você faz uma solicitação dentro da janela de cota. Para os modelos
gemini-1.5-flash-002
egemini-1.5-pro-002
, a janela de cota é de 30 segundos. Isso significa que você pode ter um tráfego priorizado que exceda o valor da cota por segundo em alguns casos, mas não deve exceder a cota por 30 segundos. A janela de cota para outros modelos é de um minuto.Os endpoints de modelos ajustados supervisionados e o modelo base correspondente são contabilizados na mesma cota de throughput provisionado. Este é um recurso em fase de pré-lançamento. Preencha e envie o formulário de controle de acesso de throughput provisionado.
Por exemplo, a Throughput provisionada comprada para
gemini-1.5-pro-002
em um projeto específico prioriza as solicitações feitas de versões ajustadas supervisionadas degemini-1.5-pro-002
criadas nesse projeto. Use o cabeçalho adequado para controlar o comportamento do tráfego.
Permissões
Para assinar a capacidade de processamento provisionada, você precisa ter uma das seguintes permissões atribuídas ao seu projeto, que permite listar e fazer novos pedidos.
aiplatform.googleapis.com/provisionedThroughputAdmin
: específico para capacidade de processamento provisionada.aiplatform.googleapis.com/admin
: concede direitos administrativos a cada recurso na Vertex AI.
Com esse papel, você só pode listar seus pedidos:
aiplatform.googleapis.com/viewer
Fazer um pedido de capacidade de processamento provisionada
Antes de fazer o pedido para usar os modelos Imagen, envie o formulário de solicitação de permissões para receber as permissões.
Antes de fazer um pedido para usar o MedLM-large-1.5, entre em contato com o representante da Google Cloud conta para solicitar acesso. Se você espera que o QPM exceda 30.000, para maximizar o pedido de capacidade de processamento provisionada, solicite um aumento na sua cota padrão do sistema da Vertex AI usando as seguintes informações:
- Serviço: a API Vertex AI.
- Nome:
Online prediction requests per minute per region
- Tipo de serviço: uma cota.
- Dimensões: a região em que você pediu a capacidade provisionada.
- Valor: é o limite de tráfego de previsão on-line escolhido.
Siga estas etapas para comprar a capacidade de processamento provisionada:
Console
- No console do Google Cloud, acesse a página "Capacidade de processamento provisionada".
- Para iniciar um novo pedido, clique em Criar.
- Insira um Nome para o pedido.
- Selecione o Modelo.
- Selecione a Região.
- Insira o Número de unidades de escalonamento de IA generativa (GSUs, na sigla em inglês) que você precisa
comprar. Se você precisar estimar o número de GSUs, clique na
Ferramenta de estimativa.
- Selecione o Modelo.
- Insira o número de Consultas por segundo.
- Insira o número de Caracteres de entrada por consulta.
- Insira o número de Imagens de entrada por consulta.
- Insira o número de Segundos de vídeo por consulta.
- Insira o número de Segundos de áudio por consulta.
- Insira o número de Caracteres de saída por consulta.
- Se você quiser usar os valores que inseriu na ferramenta de estimativa, clique em Uso calculado.
- Selecione o Prazo.
Se você escolher uma semana, terá a opção de informar uma data e horário de início dentro de duas semanas para fazer um pedido. Se você não informar a data e a hora de início, vamos processar o pedido assim que possível para garantir que a capacidade esteja disponível. As datas e horários de início solicitados são processados da melhor maneira possível, e não há garantia de que os pedidos serão atendidos nessas datas até que o status deles seja definido como Aprovado.
Se a data de início solicitada for muito próxima da data atual, o pedido poderá ser aprovado e ativado após a data de início solicitada, o que significa que a data de término vai permanecer sete dias a partir da data de ativação.
- Selecione a opção Renovação.
- Clique em Continuar.
- Na seção Resumo, revise as estimativas de preço e de capacidade de processamento do seu pedido. Leia os termos listados e disponíveis no formulário.
- Para finalizar o pedido, clique em Confirmar.
Mudar o pedido de capacidade de processamento provisionada
Esta tabela descreve como modificar os pedidos de Throughput provisionado pelo console do Google Cloud com base no status do pedido e nas condições atuais. Para solicitar acesso a esses recursos em fase de pré-lançamento, preencha e envie o formulário de controle de acesso ao throughput provisionado.
Status do pedido | Ação | Observação | Etapas no console do Google Cloud |
---|---|---|---|
Análise pendente | Você pode cancelar o pedido. |
Se você quiser fazer outras mudanças, cancele o pedido pendente e faça um novo. Se você tiver vários modelos, cada um deles poderá ter apenas uma revisão ou um pedido pendente por vez. |
Para cancelar o pedido pendente no console do Google Cloud, faça o seguinte:
|
Ativo |
É possível aumentar as GSUs em pedidos atuais. É possível ativar ou desativar as renovações automáticas. Você pode mudar a versão do modelo. |
Se essas duas condições forem atendidas, não será possível mudar o pedido:
|
Para mudar o pedido ativo no console do Google Cloud, use um dos seguintes métodos:
|
Verificar status do pedido
Após o envio do pedido de capacidade de processamento provisionada, o status do pedido pode aparecer da seguinte forma:
- Revisão pendente: você fez o pedido. Como a aprovação depende da capacidade disponível para provisionar seu pedido, seu pedido está aguardando análise e aprovação. Para mais informações sobre o status do pedido pendente, entre em contato com o representante da Google Cloud conta.
- Aprovado: o Google aprovou seu pedido.
- Ativo: o Google ativou seu pedido, e o faturamento começou.
- Expirado: seu pedido expirou.
Ver pedidos de capacidade de processamento provisionada
Siga estas etapas para conferir seus pedidos de capacidade de processamento provisionada:
Console
- No console do Google Cloud, acesse a página "Capacidade de processamento provisionada".
- Selecione a Região. Sua lista de pedidos vai aparecer.