Comprar capacidade de processamento provisionada

Esta página mostra detalhes a serem considerados antes de assinar a capacidade de processamento provisionada, as permissões necessárias para fazer ou visualizar um pedido de capacidade de processamento provisionada e as instruções para fazer e visualizar os pedidos.

O que considerar antes de assinar

Para ajudar você a decidir se quer assinar a capacidade de processamento provisionada, consulte esta lista de detalhes sobre a assinatura:

  • Não é possível cancelar o pedido.

    Sua compra da capacidade de processamento provisionada é um compromisso, ou seja, você não consegue cancelar o pedido. No entanto, é possível aumentar o número de GSUs. Se você comprou um compromisso acidentalmente ou se houver um problema com a configuração, entre em contato com o representante da sua conta Google Cloud para receber ajuda.

  • É possível renovar sua assinatura automaticamente.

    Ao enviar seu pedido, é possível optar, ao final da vigência, pela renovação automática da assinatura ou deixar que ela expire. É possível cancelar o processo de renovação automática. Para cancelar sua assinatura antes da renovação automática, cancele a renovação automática 30 dias antes do início do próximo período.

    É possível configurar as assinaturas mensais para renovação automática. Os termos semanais não são compatíveis com a renovação automática.

    Se precisar de ajuda com esse processo, entre em contato com o representante da Google Cloud conta.

  • Você pode mudar a versão do modelo ou a região, com aviso prévio.

    Depois que você escolher o projeto, a região, o modelo e a versão, a capacidade de processamento provisionada será ativada após a aprovação do pedido. Você pode mudar a versão do modelo no mesmo editor ou região com um aviso de 10 dias úteis usando o console do Google Cloud para modelos do Google. Para mais informações, consulte Mudar a ordem da capacidade de processamento provisionada. Você também pode entrar em contato com o Google Cloud representante da conta para receber ajuda.

    Só é possível mudar entre modelos do mesmo fornecedor. Por exemplo, é possível alternar entre os modelos do Google ou do parceiro A. No entanto, não é possível alternar entre os modelos do Google e do parceiro A.

  • Não há tempo de inatividade ao mudar para a capacidade de processamento provisionada do pagamento por uso.

    Não há tempo de inatividade ao alternar entre modelos para um pedido de capacidade de processamento provisionada. No entanto, é necessário tempo de lead para adquirir capacidade de processamento.

  • Por padrão, o excedente é faturado como pagamento por uso.

    Se a capacidade de processamento exceder o valor do pedido de capacidade de processamento provisionada, os excedentes serão processados e faturados como pagamento por uso. É possível controlar os excedentes por solicitação. Para mais informações, consulte Usar a API REST.

  • As solicitações são priorizadas.

    As solicitações de clientes da capacidade de processamento provisionada são priorizadas e atendidas antes das solicitações sob demanda.

  • Você precisa se comprometer com um uso mínimo e pagamento.

    O uso mínimo depende do modelo de IA generativa selecionado. Qualquer uso além da taxa de capacidade de processamento comprada não é garantido e é executado com base em esforços razoáveis.

  • A capacidade de processamento não se acumula.

    A capacidade de processamento não utilizada não se acumula nem é transferida para o mês seguinte.

  • A capacidade de processamento provisionada é medida em caracteres ou tokens por segundo.

    A capacidade de processamento provisionada é medida em caracteres ou tokens por segundo, não em consultas por minuto (QPM). Como resultado, a medição da capacidade de processamento provisionada depende do tamanho da consulta e do QPM do seu caso de uso.

  • A capacidade de processamento provisionada verifica sua cota.

    Sua cota de throughput provisionado é verificada sempre que você faz uma solicitação dentro da janela de cota. Para os modelos gemini-1.5-flash-002 e gemini-1.5-pro-002, a janela de cota é de 30 segundos. Isso significa que você pode ter um tráfego priorizado que exceda o valor da cota por segundo em alguns casos, mas não deve exceder a cota por 30 segundos. A janela de cota para outros modelos é de um minuto.

  • Os endpoints de modelos ajustados supervisionados e o modelo base correspondente são contabilizados na mesma cota de throughput provisionado. Este é um recurso em fase de pré-lançamento. Preencha e envie o formulário de controle de acesso de throughput provisionado.

    Por exemplo, a Throughput provisionada comprada para gemini-1.5-pro-002 em um projeto específico prioriza as solicitações feitas de versões ajustadas supervisionadas de gemini-1.5-pro-002 criadas nesse projeto. Use o cabeçalho adequado para controlar o comportamento do tráfego.

Permissões

Para assinar a capacidade de processamento provisionada, você precisa ter uma das seguintes permissões atribuídas ao seu projeto, que permite listar e fazer novos pedidos.

  • aiplatform.googleapis.com/provisionedThroughputAdmin: específico para capacidade de processamento provisionada.
  • aiplatform.googleapis.com/admin: concede direitos administrativos a cada recurso na Vertex AI.

Com esse papel, você só pode listar seus pedidos:

  • aiplatform.googleapis.com/viewer

Fazer um pedido de capacidade de processamento provisionada

Antes de fazer o pedido para usar os modelos Imagen, envie o formulário de solicitação de permissões para receber as permissões.

Antes de fazer um pedido para usar o MedLM-large-1.5, entre em contato com o representante da Google Cloud conta para solicitar acesso. Se você espera que o QPM exceda 30.000, para maximizar o pedido de capacidade de processamento provisionada, solicite um aumento na sua cota padrão do sistema da Vertex AI usando as seguintes informações:

  • Serviço: a API Vertex AI.
  • Nome: Online prediction requests per minute per region
  • Tipo de serviço: uma cota.
  • Dimensões: a região em que você pediu a capacidade provisionada.
  • Valor: é o limite de tráfego de previsão on-line escolhido.

Siga estas etapas para comprar a capacidade de processamento provisionada:

Console

  1. No console do Google Cloud, acesse a página "Capacidade de processamento provisionada".

    Acessar a capacidade de processamento provisionada

  2. Para iniciar um novo pedido, clique em Criar.
  3. Insira um Nome para o pedido.
  4. Selecione o Modelo.
  5. Selecione a Região.
  6. Insira o Número de unidades de escalonamento de IA generativa (GSUs, na sigla em inglês) que você precisa comprar. Se você precisar estimar o número de GSUs, clique na Ferramenta de estimativa.
    1. Selecione o Modelo.
    2. Insira o número de Consultas por segundo.
    3. Insira o número de Caracteres de entrada por consulta.
    4. Insira o número de Imagens de entrada por consulta.
    5. Insira o número de Segundos de vídeo por consulta.
    6. Insira o número de Segundos de áudio por consulta.
    7. Insira o número de Caracteres de saída por consulta.
    8. Se você quiser usar os valores que inseriu na ferramenta de estimativa, clique em Uso calculado.
  7. Selecione o Prazo.

    Se você escolher uma semana, terá a opção de informar uma data e horário de início dentro de duas semanas para fazer um pedido. Se você não informar a data e a hora de início, vamos processar o pedido assim que possível para garantir que a capacidade esteja disponível. As datas e horários de início solicitados são processados da melhor maneira possível, e não há garantia de que os pedidos serão atendidos nessas datas até que o status deles seja definido como Aprovado.

    Se a data de início solicitada for muito próxima da data atual, o pedido poderá ser aprovado e ativado após a data de início solicitada, o que significa que a data de término vai permanecer sete dias a partir da data de ativação.

  8. Selecione a opção Renovação.
  9. Clique em Continuar.
  10. Na seção Resumo, revise as estimativas de preço e de capacidade de processamento do seu pedido. Leia os termos listados e disponíveis no formulário.
  11. Para finalizar o pedido, clique em Confirmar.

Mudar o pedido de capacidade de processamento provisionada

Esta tabela descreve como modificar os pedidos de Throughput provisionado pelo console do Google Cloud com base no status do pedido e nas condições atuais. Para solicitar acesso a esses recursos em fase de pré-lançamento, preencha e envie o formulário de controle de acesso ao throughput provisionado.

Status do pedido Ação Observação Etapas no console do Google Cloud
Análise pendente Você pode cancelar o pedido.

Se você quiser fazer outras mudanças, cancele o pedido pendente e faça um novo.

Se você tiver vários modelos, cada um deles poderá ter apenas uma revisão ou um pedido pendente por vez.

Para cancelar o pedido pendente no console do Google Cloud, faça o seguinte:
  1. Acesse a página Capacidade de processamento provisionada.
  2. Selecione a região em que o pedido pendente está localizado.
  3. Para acessar a página Detalhes do pedido, clique no ID do pedido do pedido que você quer cancelar.
  4. Clique em Cancelar.
  5. Na caixa de diálogo Você tem certeza de que quer cancelar o pedido?, clique em Cancelar pedido.
Ativo

É possível aumentar as GSUs em pedidos atuais.

É possível ativar ou desativar as renovações automáticas.

Você pode mudar a versão do modelo.

Se essas duas condições forem atendidas, não será possível mudar o pedido:
  • A data de expiração do pedido está a menos de 5 dias.
  • O pedido não está configurado para renovação automática.
Para mudar o pedido ativo no console do Google Cloud, use um dos seguintes métodos:
  • Na página Throughput provisionado, clique no símbolo na coluna Ações e em Editar.
  • Na página Detalhes do pedido, clique no botão Editar.

Verificar status do pedido

Após o envio do pedido de capacidade de processamento provisionada, o status do pedido pode aparecer da seguinte forma:

  • Revisão pendente: você fez o pedido. Como a aprovação depende da capacidade disponível para provisionar seu pedido, seu pedido está aguardando análise e aprovação. Para mais informações sobre o status do pedido pendente, entre em contato com o representante da Google Cloud conta.
  • Aprovado: o Google aprovou seu pedido.
  • Ativo: o Google ativou seu pedido, e o faturamento começou.
  • Expirado: seu pedido expirou.

Ver pedidos de capacidade de processamento provisionada

Siga estas etapas para conferir seus pedidos de capacidade de processamento provisionada:

Console

  1. No console do Google Cloud, acesse a página "Capacidade de processamento provisionada".

    Acessar a capacidade de processamento provisionada

  2. Selecione a Região. Sua lista de pedidos vai aparecer.

A seguir