Esta página mostra detalhes a serem considerados antes de assinar a capacidade de processamento provisionada, as permissões necessárias para fazer ou visualizar um pedido de capacidade de processamento provisionada e as instruções para fazer e visualizar os pedidos.
O que considerar antes de comprar
Para ajudar você a decidir se quer comprar a capacidade de processamento provisionada, considere o seguinte:
Não é possível cancelar o pedido no meio do período.
Sua compra da capacidade de processamento provisionada é um compromisso, ou seja, não é possível cancelar o pedido no meio do período. No entanto, é possível aumentar o número de GSUs comprados. Se você comprou um compromisso acidentalmente ou se houver um problema com a configuração, entre em contato com o representante da sua Google Cloud conta para receber ajuda.
É possível renovar sua assinatura automaticamente.
Ao enviar seu pedido, é possível optar, ao final da vigência, pela renovação automática da assinatura ou deixar que ela expire. É possível cancelar o processo de renovação automática. Para cancelar sua assinatura antes da renovação automática, cancele a renovação automática 30 dias antes do início do próximo período.
É possível configurar assinaturas mensais para renovação automática a cada mês. Os termos semanais não são compatíveis com a renovação automática.
Para mais informações, consulte Mudar a ordem de capacidade de processamento provisionada. Você também pode entrar em contato com o representante da Google Cloud conta para receber ajuda.
Você pode mudar a versão do modelo ou a região, com aviso prévio.
Depois que você escolher o projeto, a região, o modelo e a versão e o pedido for aprovado e ativado, a capacidade de processamento provisionada será ativada. É possível mudar o modelo ou a versão do modelo do Google para um novo modelo ou uma nova versão do modelo usando o console do Google Cloud.
Para mais informações, consulte Mudar a ordem de capacidade de processamento provisionada. Você também pode entrar em contato com o Google Cloud representante da conta para receber ajuda.
As mudanças são processadas da melhor maneira possível e geralmente são atendidas em até 10 dias úteis após a solicitação inicial. Para mudar a região ou o projeto, é necessário ativar um novo pedido antes de cancelar o anterior.
Só é possível mudar entre modelos do mesmo fornecedor. Por exemplo, é possível alternar entre os modelos do Google ou do parceiro A. No entanto, não é possível alternar entre os modelos do Google e do parceiro A.
Por padrão, o excedente é faturado como pagamento por uso.
Se a capacidade de processamento exceder o valor do pedido de capacidade de processamento provisionada, os excedentes serão processados e faturados como pagamento por uso padrão. É possível controlar os excedentes por solicitação. Para mais informações, consulte Usar a capacidade de processamento provisionada.
Para informações sobre preços, consulte Throughput provisionado.
Permissões
O papel a seguir precisa ser concedido para usar a capacidade de processamento provisionada:
roles/aiplatform.provisionedThroughputAdmin
: é possível acessar recursos de capacidade de processamento provisionada da Vertex AI.
As seguintes permissões são concedidas a você por esse papel:
aiplatform.provisionedThroughputs.create
: é possível enviar um pedido de capacidade de processamento provisionada em um projeto.aiplatform.provisionedThroughputs.list
: é possível conferir todos os pedidos de capacidade de processamento provisionada em um projeto.
Fazer um pedido de capacidade de processamento provisionada
Antes de fazer o pedido para usar os modelos Imagen, envie o formulário de solicitação de permissões para receber as permissões.
Antes de fazer um pedido para usar o MedLM-large-1.5, entre em contato com o Google Cloud representante da conta para solicitar acesso. Se você espera que o QPM exceda 30.000, para maximizar o pedido de capacidade de processamento provisionada, solicite um aumento na cota padrão do sistema da Vertex AI usando as seguintes informações:
- Serviço: a API Vertex AI.
- Nome:
Online prediction requests per minute per region
- Tipo de serviço: uma cota.
- Dimensões: a região em que você pediu a capacidade provisionada.
- Valor: é o limite de tráfego de previsão on-line escolhido.
Siga estas etapas para comprar a capacidade de processamento provisionada:
Console
- No console do Google Cloud, acesse a página "Capacidade de processamento provisionada".
- Para iniciar um novo pedido, clique em Criar.
- Insira um Nome para o pedido.
- Selecione o Modelo.
- Selecione a Região.
- Insira o Número de unidades de escalonamento de IA generativa (GSUs, na sigla em inglês) que você precisa
comprar. Se você precisar estimar o número de GSUs, clique na
Ferramenta de estimativa.
- Selecione o Modelo.
- Insira o número de Consultas por segundo.
- Insira o número de Caracteres de entrada por consulta.
- Insira o número de Imagens de entrada por consulta.
- Insira o número de Segundos de vídeo por consulta.
- Insira o número de Segundos de áudio por consulta.
- Insira o número de Caracteres de saída por consulta.
- Se você quiser usar os valores que inseriu na ferramenta de estimativa, clique em Uso calculado.
- Selecione o Prazo.
Se você escolher uma semana, terá a opção de informar uma data e horário de início dentro de duas semanas para fazer um pedido. Se você não informar a data e a hora de início, vamos processar o pedido assim que possível para garantir que a capacidade esteja disponível. As datas e horários de início solicitados são processados da melhor maneira possível, e não há garantia de que os pedidos serão atendidos nessas datas até que o status deles seja definido como Aprovado.
Se a data de início solicitada for muito próxima da data atual, o pedido poderá ser aprovado e ativado após a data de início solicitada, o que significa que a data de término vai permanecer sete dias a partir da data de ativação.
- Selecione a opção Renovação.
- Clique em Continuar.
- Na seção Resumo, revise as estimativas de preço e de capacidade de processamento do seu pedido. Leia os termos listados e disponíveis no formulário.
- Para finalizar o pedido, clique em Confirmar.
Mudar o pedido de capacidade de processamento provisionada
Esta tabela descreve como modificar os pedidos de Throughput provisionado pelo console do Google Cloud com base no status do pedido e nas condições atuais. Para solicitar acesso a esses recursos em fase de pré-lançamento, preencha e envie o formulário de controle de acesso ao throughput provisionado.
Status do pedido | Ação | Observação | Etapas no console do Google Cloud |
---|---|---|---|
Análise pendente | Você pode cancelar o pedido. |
Se você quiser fazer outras mudanças, cancele o pedido pendente e faça um novo. Se você tiver vários modelos, cada um deles poderá ter apenas uma revisão ou um pedido pendente por vez. |
Para cancelar o pedido pendente no console do Google Cloud, faça o seguinte:
|
Ativo |
É possível aumentar as GSUs em pedidos atuais. É possível ativar ou desativar as renovações automáticas. Você pode mudar o modelo ou a versão do modelo. |
Se essas duas condições forem atendidas, não será possível mudar o pedido:
|
Para mudar o pedido ativo no console do Google Cloud, use um dos seguintes métodos:
|
Verificar status do pedido
Após o envio do pedido de capacidade de processamento provisionada, o status do pedido pode aparecer da seguinte forma:
- Revisão pendente: você fez o pedido. Como a aprovação depende da capacidade disponível para provisionar seu pedido, seu pedido está aguardando análise e aprovação. Para mais informações sobre o status do pedido pendente, entre em contato com o representante da Google Cloud conta.
- Aprovado: o Google aprovou seu pedido.
- Ativo: o Google ativou seu pedido, e o faturamento começou.
- Expirado: seu pedido expirou.
Ver pedidos de capacidade de processamento provisionada
Siga estas etapas para conferir seus pedidos de capacidade de processamento provisionada:
Console
- No console do Google Cloud, acesse a página "Capacidade de processamento provisionada".
- Selecione a Região. Sua lista de pedidos vai aparecer.