Esta página foi traduzida pela API Cloud Translation.

Limites de cota para modelos legados

Nesta página, você encontra informações sobre cotas e limites de modelos legados. Os modelos em uma família de modelos legados não são mais atualizados com novas versões estáveis. Para mais detalhes, consulte Informações sobre o modelo legado.

Google Cloud usa cotas para garantir a imparcialidade e reduzir picos no uso e na disponibilidade de recursos. Uma cota restringe quanto de um Google Cloud recurso o Google Cloud projeto pode usar. As cotas se aplicam a vários tipos de recursos, incluindo hardware, software e componentes de rede. Por exemplo, as cotas podem restringir o número de chamadas de API para um serviço, o número de balanceadores de carga usados simultaneamente pelo projeto ou o número de projetos que podem ser criados. As cotas protegem a comunidade de usuários doGoogle Cloud , impedindo a sobrecarga de serviços. As cotas também ajudam você a gerenciar seus próprios recursos Google Cloud .

O sistema de cotas do Cloud faz o seguinte:

Monitora o consumo de Google Cloud produtos e serviços
Restringe o consumo desses recursos.
Fornece um meio de solicitar mudanças no valor da cota

Na maioria dos casos, quando você tenta consumir mais de um recurso do que a cota permite, o sistema bloqueia o acesso ao recurso e a tarefa que você está tentando executar falha.

As cotas geralmente se aplicam ao projeto do nível Google Cloud. O uso de um recurso em um projeto não afeta a cota disponível em outro. Em um projeto do Google Cloud, as cotas são compartilhadas entre todos os aplicativos e endereços IP.

Cotas por região e modelo

A cota de solicitações por minuto (RPM, na sigla em inglês) se aplica a um modelo base e a todas as versões, identificadores e versões ajustadas dele. Por exemplo, uma solicitação para text-bison e uma solicitação para text-bison@002 são contadas como duas solicitações para a cota RPM do modelo base, text-bison. O mesmo se aplica aos modelos ajustados. Portanto, uma solicitação para chat-bison@002 e um modelo ajustado baseado em chat-bison@002 chamado my-tuned-chat-model são contados como duas solicitações para o modelo base, chat-bison.

As cotas se aplicam à IA generativa nas solicitações da Vertex AI para um determinado projeto do Google Cloud e região compatível.

Para visualizar as cotas no console do Google Cloud, faça o seguinte:

No console do Google Cloud, acesse a página Cotas do IAM e administrador.

Confira as cotas no console
No campo Filtro, especifique a dimensão ou métrica.
- Dimensão: o identificador do modelo. Por exemplo, base_model:gemini-1.0-pro ou base_model:text-bison.
- Métrica: o identificador de cota para modelos do PaLM 2 é aiplatform.googleapis.com/online_prediction_requests_per_base_model

Escolha uma região para ver os limites de cota de cada modelo disponível:

Cotas de lote

As cotas e os limites a seguir são os mesmos nas regiões para IA generativa em jobs de previsão em lote da Vertex AI:

Cota	Valor
`text_bison_concurrent_batch_prediction_jobs`	4
`code_bison_concurrent_batch_prediction_jobs`	4

Cotas de modelos treinados e personalizados

As cotas a seguir se aplicam à IA generativa em modelos ajustados pela Vertex AI para determinado projeto e região:

Cota	Valor
Núcleos do pod da TPU V3 de treinamento de imagens restritos por região * Região compatível: europe-west4	64
Treinamento de imagens restrito Nvidia A100 GPUs de 80 GB por região * Região compatível - us-central1 * Região compatível - us-east4	8 2

* Os cenários de ajuste têm reservas do acelerador em regiões específicas. As cotas de ajuste são aceitas e precisam ser solicitadas em regiões específicas.

Cotas de avaliação on-line

O serviço on-line de avaliação usa o modelo text-bison como um avaliador automático com comandos e mecanismos de IP do Google para garantir uma avaliação consistente e objetiva de métricas baseadas em modelo.

Uma única solicitação de avaliação para uma métrica baseada em modelo pode resultar em várias solicitações subjacentes ao serviço de previsão on-line. A cota de cada modelo é calculada por projeto, o que significa que todas as solicitações direcionadas ao text-bison para inferência de modelo e avaliação baseada em modelo contribuem para a cota. Diferentes cotas de modelo são definidas de maneira distinta. A cota do serviço de avaliação e a cota do modelo do avaliador automático subjacente são mostradas na tabela.

Solicitação de cotas	Cota padrão
Solicitações do serviço de avaliação on-line por minuto	1.000 solicitações por projeto em cada região
Solicitações de previsão on-line por minuto para base_model, base_model: `text-bison`	1.600 solicitações por projeto em cada região

Se você receber um erro relacionado a cotas ao usar o serviço on-line de avaliação, talvez seja necessário registrar uma solicitação de aumento de cota. Para mais informações, consulte Ver e gerenciar cotas.

Limite	Valor
Tempo limite da solicitação do serviço de avaliação on-line	60 segundos

Novos usuários do serviço de avaliação on-line em um novo projeto podem ter um atraso na configuração inicial, geralmente de até dois minutos. Esse processo ocorre só uma vez. Se a primeira solicitação falhar, aguarde alguns minutos e tente novamente. As próximas solicitações de avaliação normalmente são concluídas em 60 segundos.

Os tokens máximos de entrada e saída são limitados para as métricas baseadas em modelo de acordo com o modelo usado como avaliador automático. Consulte Informações do modelo | IA generativa na Vertex AI | Google Cloud para ver os limites de modelos relevantes.

Cotas de avaliação de pipeline

Se você receber um erro relacionado a cotas ao usar o serviço de pipelines de avaliação, talvez seja necessário registrar uma solicitação de aumento de cota. Consulte Ver e gerenciar cotas para mais informações.

O serviço de pipelines de avaliação usa o Vertex AI Pipelines para executar PipelineJobs. Consulte as cotas relevantes para o Vertex AI Pipelines. Veja a seguir recomendações gerais de cota:

Serviço	Cota	Recomendação
API Vertex AI	Jobs simultâneos de previsão em lote de LLM por região	Por pontos: 1 * num_concurrent_pipelines Pairwise: 2 * num_concurrent_pipelines
API Vertex AI	Solicitações de avaliação por minuto em cada região	1.000 * num_concurrent_pipelines

Além disso, ao calcular métricas de avaliação baseada em modelo, o avaliador automático pode encontrar problemas de cota. A cota relevante depende do avaliador automático usado:

Tarefas	Cota	Modelo base	Recomendação
`summarization` `question_answering`	Solicitações de previsão on-line por modelo base, por minuto, por região e por base_model	`text-bison`	60 * num_concurrent_pipelines

Vertex AI Pipelines

Cada job de ajuste usa o Vertex AI Pipelines. Para mais informações, consulte Cotas e limites do Vertex AI Pipelines.

Aumento de cotas

Para aumentar alguma das suas cotas de IA generativa na Vertex AI, use o console do Google Cloud para solicitar um aumento de cota. Para saber mais sobre cotas, consulte Trabalhar com cotas.

A seguir

Saiba mais sobre cotas e limites da Vertex AI.