IA generativa nos limites de cota da Vertex AI

Uma cota restringe quanto de um determinado recurso compartilhado do Google Cloud o projeto do Google Cloud pode usar, incluindo hardware, software e componentes de rede. Dessa forma, as cotas fazem parte de um sistema que:

  • monitora o uso ou o consumo de produtos e serviços do Google Cloud;
  • restringe o consumo desses recursos por motivos, que garantem imparcialidade e reduzem picos de uso;
  • mantém as configurações que aplicam automaticamente restrições prescritas;
  • fornece um meio de solicitar ou faz alterações na cota.

Na maioria dos casos, quando uma cota é excedida, o sistema bloqueia imediatamente o acesso ao recurso relevante do Google. Além disso, a tarefa que você está tentando executar falha. Na maioria dos casos, as cotas se aplicam a todos os projetos do Google Cloud. Além disso, elas são compartilhadas entre todos os aplicativos e endereços IP que usam esse projeto.

Cotas por região e modelo

A cota de consultas por minuto (QPM, na sigla em inglês) se aplica a um modelo base e a todas as versões, identificadores e versões ajustadas dele. Por exemplo, uma solicitação para text-bison e uma solicitação para text-bison@001 são contadas como duas solicitações para a cota QPM do modelo base, text-bison. Da mesma forma, uma solicitação para text-bison@001 e text-bison@002 é contada como duas solicitações na cota QPM do modelo base, text-bison. O mesmo se aplica aos modelos ajustados. Portanto, uma solicitação para chat-bison@002 e um modelo ajustado baseado em chat-bison@002 chamado my-tuned-chat-model são contados como duas solicitações para o modelo base, chat-bison.

As cotas se aplicam à IA generativa nas solicitações da Vertex AI para um determinado projeto do Google Cloud e região compatível.

Para visualizar as cotas no console do Google Cloud, faça o seguinte:

  1. No console do Google Cloud, acesse a página Cotas do IAM e administrador.

    Confira as cotas no console

  2. No campo Filtro, especifique a dimensão ou métrica.

    • Dimensão: o identificador do modelo. Por exemplo, base_model:gemini-1.0-pro ou base_model:text-bison.

    • Métrica: o identificador da cota.

      • Para modelos do Gemini: aiplatform.googleapis.com/generate_content_requests_per_minute_per_project_per_base_model
      • Para modelos PaLM 2: aiplatform.googleapis.com/online_prediction_requests_per_base_model

Escolha uma região para ver os limites de cota de cada modelo disponível:

Cotas de lote

As cotas e os limites a seguir são os mesmos nas regiões para IA generativa em jobs de previsão em lote da Vertex AI:

Cota Valor
text_bison_concurrent_batch_prediction_jobs 4
code_bison_concurrent_batch_prediction_jobs 4
textembedding_gecko_concurrent_batch_prediction_jobs 4

Cotas de modelos treinados e personalizados

As cotas a seguir se aplicam à IA generativa em modelos ajustados pela Vertex AI para determinado projeto e região:

Cota Valor
Núcleos do pod da TPU V3 de treinamento de imagens restritos por região
* Região compatível: europe-west4
64
Treinamento de imagens restrito Nvidia A100 GPUs de 80 GB por região
* Região compatível - us-central1
* Região compatível - us-east4

8
2

* Os cenários de ajuste têm reservas do acelerador em regiões específicas. As cotas de ajuste são aceitas e precisam ser solicitadas em regiões específicas.

Cotas de avaliação on-line

O serviço on-line de avaliação usa o modelo text-bison como um avaliador automático com comandos e mecanismos de IP do Google para garantir uma avaliação consistente e objetiva de métricas baseadas em modelo.

Uma única solicitação de avaliação para uma métrica baseada em modelo pode resultar em várias solicitações subjacentes ao serviço de previsão on-line. A cota de cada modelo é calculada por projeto, o que significa que todas as solicitações direcionadas ao text-bison para inferência de modelo e avaliação baseada em modelo contribuem para a cota. Diferentes cotas de modelo são definidas de maneira distinta. A cota do serviço de avaliação e a cota do modelo do avaliador automático subjacente são mostradas na tabela.

Solicitação de cotas Cota padrão
Solicitações do serviço de avaliação on-line por minuto 1.000 solicitações por projeto em cada região
Solicitações de previsão on-line por minuto para base_model, base_model: text-bison 1.600 solicitações por projeto em cada região

Se você receber um erro relacionado a cotas ao usar o serviço on-line de avaliação, talvez seja necessário registrar uma solicitação de aumento de cota. Para mais informações, consulte Ver e gerenciar cotas.

Limite Valor
Tempo limite da solicitação do serviço de avaliação on-line 60 segundos

Novos usuários do serviço de avaliação on-line em um novo projeto podem ter um atraso na configuração inicial, geralmente de até dois minutos. Esse processo ocorre só uma vez. Se a primeira solicitação falhar, aguarde alguns minutos e tente novamente. As próximas solicitações de avaliação normalmente são concluídas em 60 segundos.

Os tokens máximos de entrada e saída são limitados para as métricas baseadas em modelo de acordo com o modelo usado como avaliador automático. Consulte Informações do modelo | IA generativa na Vertex AI | Google Cloud com os limites para modelos relevantes.

Cotas da geração aumentada de recuperação

As cotas de geração aumentada de recuperação (RAG, na sigla em inglês) incluem:

Serviço Cota
APIs de gerenciamento de dados com RAG 60 solicitações por minuto (RPM)
API RetrievalContexts 1.500 RPM
Ingestão de dados 1.000 arquivos

A cota da API de embedding de texto Gecko@003 é usada para a indexação de documentos. Considere aumentar a cota para ter o melhor desempenho de indexação.

Cotas de avaliação de pipeline

Se você receber um erro relacionado a cotas ao usar o serviço de pipelines de avaliação, talvez seja necessário registrar uma solicitação de aumento de cota. Consulte Ver e gerenciar cotas para mais informações.

O serviço de pipelines de avaliação usa o Vertex AI Pipelines para executar PipelineJobs. Consulte as cotas relevantes para o Vertex AI Pipelines. Veja a seguir recomendações gerais de cota:

Serviço Cota Recomendação
API Vertex AI Jobs simultâneos de previsão em lote de LLM por região Por pontos: 1 * num_concurrent_pipelines

Pairwise: 2 * num_concurrent_pipelines
API Vertex AI Solicitações de avaliação por minuto em cada região 1.000 * num_concurrent_pipelines

Além disso, ao calcular métricas de avaliação baseada em modelo, o avaliador automático pode encontrar problemas de cota. A cota relevante depende do avaliador automático usado:

Tarefas Cota Modelo base Recomendação
summarization
question_answering
Solicitações de previsão on-line por modelo base, por minuto, por região e por base_model text-bison 60 * num_concurrent_pipelines

Vertex AI Pipelines

Cada job de ajuste usa o Vertex AI Pipelines. Para mais informações, consulte Cotas e limites do Vertex AI Pipelines.

Aumento de cotas

Para aumentar alguma das suas cotas de IA generativa na Vertex AI, use o console do Google Cloud para solicitar um aumento de cota. Para saber mais sobre cotas, consulte Trabalhar com cotas.

A seguir