Uma cota restringe quanto de um determinado recurso compartilhado do Google Cloud o projeto do Google Cloud pode usar, incluindo hardware, software e componentes de rede. Dessa forma, as cotas fazem parte de um sistema que:
- monitora o uso ou o consumo de produtos e serviços do Google Cloud;
- restringe o consumo desses recursos por motivos, que garantem imparcialidade e reduzem picos de uso;
- mantém as configurações que aplicam automaticamente restrições prescritas;
- fornece um meio de solicitar ou faz alterações na cota.
Na maioria dos casos, quando uma cota é excedida, o sistema bloqueia imediatamente o acesso ao recurso relevante do Google. Além disso, a tarefa que você está tentando executar falha. Na maioria dos casos, as cotas se aplicam a todos os projetos do Google Cloud. Além disso, elas são compartilhadas entre todos os aplicativos e endereços IP que usam esse projeto.
Cotas por região e modelo
A cota de consultas por minuto (QPM, na sigla em inglês) se aplica a um modelo base e a todas as versões,
identificadores e versões ajustadas dele. Por exemplo, uma solicitação para
text-bison
e uma solicitação para text-bison@001
são contadas como duas solicitações
para a cota QPM do modelo base, text-bison
. Da mesma forma, uma solicitação para
text-bison@001
e text-bison@002
é contada como duas solicitações na cota
QPM do modelo base, text-bison
. O mesmo se aplica aos modelos ajustados. Portanto, uma
solicitação para chat-bison@002
e um modelo ajustado baseado em chat-bison@002
chamado
my-tuned-chat-model
são contados como duas solicitações para o modelo base,
chat-bison
.
As cotas se aplicam à IA generativa nas solicitações da Vertex AI para um determinado projeto do Google Cloud e região compatível.
Para visualizar as cotas no console do Google Cloud, faça o seguinte:
- No console do Google Cloud, acesse a página Cotas do IAM e administrador.
No campo Filtro, especifique a dimensão ou métrica.
Dimensão: o identificador do modelo. Por exemplo,
base_model:gemini-1.0-pro
oubase_model:text-bison
.Métrica: o identificador da cota.
- Para modelos do Gemini:
aiplatform.googleapis.com/generate_content_requests_per_minute_per_project_per_base_model
- Para modelos PaLM 2:
aiplatform.googleapis.com/online_prediction_requests_per_base_model
- Para modelos do Gemini:
Escolha uma região para ver os limites de cota de cada modelo disponível:
Cotas de lote
As cotas e os limites a seguir são os mesmos nas regiões para IA generativa em jobs de previsão em lote da Vertex AI:
Cota | Valor |
---|---|
text_bison_concurrent_batch_prediction_jobs |
4 |
code_bison_concurrent_batch_prediction_jobs |
4 |
textembedding_gecko_concurrent_batch_prediction_jobs |
4 |
Cotas de modelos treinados e personalizados
As cotas a seguir se aplicam à IA generativa em modelos ajustados pela Vertex AI para determinado projeto e região:
Cota | Valor |
---|---|
Núcleos do pod da TPU V3 de treinamento de imagens restritos por região * Região compatível: europe-west4 |
64 |
Treinamento de imagens restrito Nvidia A100 GPUs de 80 GB por região * Região compatível - us-central1 * Região compatível - us-east4 |
8 2 |
* Os cenários de ajuste têm reservas do acelerador em regiões específicas. As cotas de ajuste são aceitas e precisam ser solicitadas em regiões específicas.
Cotas de avaliação on-line
O serviço on-line de avaliação usa o modelo text-bison
como um avaliador automático com comandos e mecanismos de IP do Google para garantir uma avaliação consistente e objetiva de métricas baseadas em modelo.
Uma única solicitação de avaliação para uma métrica baseada em modelo pode resultar em várias solicitações subjacentes ao serviço de previsão on-line. A cota de cada modelo é calculada por projeto, o que significa que todas as solicitações direcionadas ao text-bison
para inferência de modelo e avaliação baseada em modelo contribuem para a cota. Diferentes cotas de modelo são definidas de maneira distinta. A cota do serviço de avaliação e a cota do modelo do avaliador automático subjacente são mostradas na tabela.
Solicitação de cotas | Cota padrão |
---|---|
Solicitações do serviço de avaliação on-line por minuto | 1.000 solicitações por projeto em cada região |
Solicitações de previsão on-line por minuto para base_model, base_model: text-bison |
1.600 solicitações por projeto em cada região |
Se você receber um erro relacionado a cotas ao usar o serviço on-line de avaliação, talvez seja necessário registrar uma solicitação de aumento de cota. Para mais informações, consulte Ver e gerenciar cotas.
Limite | Valor |
---|---|
Tempo limite da solicitação do serviço de avaliação on-line | 60 segundos |
Novos usuários do serviço de avaliação on-line em um novo projeto podem ter um atraso na configuração inicial, geralmente de até dois minutos. Esse processo ocorre só uma vez. Se a primeira solicitação falhar, aguarde alguns minutos e tente novamente. As próximas solicitações de avaliação normalmente são concluídas em 60 segundos.
Os tokens máximos de entrada e saída são limitados para as métricas baseadas em modelo de acordo com o modelo usado como avaliador automático. Consulte Informações do modelo | IA generativa na Vertex AI | Google Cloud com os limites para modelos relevantes.
Cotas da geração aumentada de recuperação
As cotas de geração aumentada de recuperação (RAG, na sigla em inglês) incluem:
Serviço | Cota |
---|---|
APIs de gerenciamento de dados com RAG | 60 solicitações por minuto (RPM) |
API RetrievalContexts |
1.500 RPM |
Ingestão de dados | 1.000 arquivos |
A cota da API de embedding de texto Gecko@003
é usada para a indexação de documentos. Considere aumentar a cota para ter o melhor desempenho de indexação.
Cotas de avaliação de pipeline
Se você receber um erro relacionado a cotas ao usar o serviço de pipelines de avaliação, talvez seja necessário registrar uma solicitação de aumento de cota. Consulte Ver e gerenciar cotas para mais informações.
O serviço de pipelines de avaliação usa o Vertex AI Pipelines para executar PipelineJobs
. Consulte as cotas relevantes para o Vertex AI Pipelines. Veja a seguir recomendações gerais de cota:
Serviço | Cota | Recomendação |
---|---|---|
API Vertex AI | Jobs simultâneos de previsão em lote de LLM por região | Por pontos: 1 * num_concurrent_pipelines Pairwise: 2 * num_concurrent_pipelines |
API Vertex AI | Solicitações de avaliação por minuto em cada região | 1.000 * num_concurrent_pipelines |
Além disso, ao calcular métricas de avaliação baseada em modelo, o avaliador automático pode encontrar problemas de cota. A cota relevante depende do avaliador automático usado:
Tarefas | Cota | Modelo base | Recomendação |
---|---|---|---|
summarization question_answering |
Solicitações de previsão on-line por modelo base, por minuto, por região e por base_model | text-bison |
60 * num_concurrent_pipelines |
Vertex AI Pipelines
Cada job de ajuste usa o Vertex AI Pipelines. Para mais informações, consulte Cotas e limites do Vertex AI Pipelines.
Aumento de cotas
Para aumentar alguma das suas cotas de IA generativa na Vertex AI, use o console do Google Cloud para solicitar um aumento de cota. Para saber mais sobre cotas, consulte Trabalhar com cotas.
A seguir
- Saiba mais sobre cotas e limites da Vertex AI.