Limites de taxa da IA generativa na Vertex AI

O Google Cloud usa cotas para garantir a imparcialidade e reduzir picos no uso e na disponibilidade de recursos. Uma cota restringe quanto de um recurso do Google Cloud o projeto do Google Cloud pode usar. As cotas se aplicam a vários tipos de recursos, incluindo hardware, software e componentes de rede. Por exemplo, as cotas podem restringir o número de chamadas de API para um serviço, o número de balanceadores de carga usados simultaneamente pelo projeto ou o número de projetos que podem ser criados. As cotas protegem a comunidade de usuários do Google Cloud, impedindo a sobrecarga de serviços. As cotas também ajudam você a gerenciar seus próprios recursos do Google Cloud.

O sistema de cotas do Cloud faz o seguinte:

  • Monitora o consumo de produtos e serviços do Google Cloud.
  • Restringe o consumo desses recursos.
  • Fornece um meio de solicitar mudanças no valor da cota

Na maioria dos casos, quando você tenta consumir mais de um recurso do que a cota permite, o sistema bloqueia o acesso ao recurso e a tarefa que você está tentando executar falha.

As cotas geralmente se aplicam ao projeto do nível Google Cloud. O uso de um recurso em um projeto não afeta a cota disponível em outro. Em um projeto do Google Cloud, as cotas são compartilhadas entre todos os aplicativos e endereços IP.

Limites de taxas

Esta tabela lista os limites de taxa que se aplicam aos seguintes modelos em todas as regiões para a métrica, generate_content_input_tokens_per_minute_per_base_model:
Modelo base Tokens por minuto
base_model: gemini-1.5-flash 4M (4.000.000)
base_model: gemini-1.5-pro 4M (4.000.000)

Para informações de cota da versão 002 do Gemini 1.5 Flash (gemini-1.5-flash-002) e do Gemini 1.5 Pro (gemini-1.5-pro-002), consulte Modelos do Google.

Cotas por região e modelo

A cota de solicitações por minuto (RPM, na sigla em inglês) se aplica a um modelo base e a todas as versões, identificadores e versões ajustadas dele. Os exemplos a seguir mostram como a cota de RPM é aplicada:
  • Uma solicitação para o modelo base, gemini-1.0-pro, e uma solicitação para a versão estável, gemini-1.0-pro-001, são contadas como duas solicitações para a cota RPM do modelo base, gemini-1.0-pro.
  • Uma solicitação para duas versões de um modelo base, "gemini-1.0-pro-001" e "gemini-1.0-pro-002", é contada como duas solicitações para a cota RPM do modelo base, "gemini-1.0-pro".
  • Uma solicitação para duas versões de um modelo base, "gemini-1.0-pro-001" e uma versão ajustada chamada "my-tuned-chat-model", são contadas como duas solicitações para o modelo base, "gemini-1.0-pro".
As cotas se aplicam à IA generativa nas solicitações da Vertex AI para um determinado projeto do Google Cloud e região com suporte.

Conferir as cotas no console do Google Cloud

Para conferir as cotas no console do Google Cloud, faça o seguinte:
  1. No console do Google Cloud, acesse a página Cotas do IAM e administrador.
  2. Clique em Conferir as cotas no console.
  3. No campo Filtro, especifique a dimensão ou métrica.
Dimensão (identificador de modelo) Métrica (identificador de cota para modelos do Gemini)
base_model: gemini-1.5-flash
base_model: gemini-1.5-pro
É possível solicitar ajustes nos seguintes casos:
  • aiplatform.googleapis.com/generate_content_requests_per_minute_per_project_per_base_model
  • aiplatform.googleapis.com/generate_content_input_tokens_per_minute_per_base_model
Todos os outros modelos Você só pode ajustar uma cota:
  • aiplatform.googleapis.com/generate_content_requests_per_minute_per_project_per_base_model

Conferir as cotas por região e modelo

Escolha uma região para ver os limites de cota de cada modelo disponível:

Aumentar as cotas

Para aumentar alguma das suas cotas de IA generativa na Vertex AI, use o console do Google Cloud para solicitar um aumento de cota. Para saber mais sobre cotas, consulte Trabalhar com cotas.

Cotas do mecanismo RAG

Para que cada serviço realize a geração aumentada de recuperação (RAG) usando o RAG Engine, as cotas a seguir se aplicam, sendo a cota medida como solicitações por minuto (RPM).
Serviço Cota Métrica
APIs de gerenciamento de dados do mecanismo RAG 60 RPM VertexRagDataService requests per minute per region
API RetrievalContexts 1.500 RPM VertexRagService retrieve requests per minute per region
base_model: textembedding-gecko 1.500 RPM Online prediction requests per base model per minute per region per base_model

Outro filtro que você pode especificar é base_model: textembedding-gecko
Os seguintes limites são aplicáveis:
Serviço Limite Métrica
Solicitações ImportRagFiles simultâneas 3 RPM VertexRagService concurrent import requests per region
Número máximo de arquivos por solicitação ImportRagFiles 10.000 VertexRagService import rag files requests per region

Para mais limites de taxa e cotas, consulte Limites de taxa da IA generativa na Vertex AI.

Solicitações em lote

As cotas e os limites para solicitações em lote são os mesmos em todas as regiões.

Solicitações em lote simultâneas

A tabela a seguir lista as cotas para o número de solicitações em lote simultâneas:
Cota Valor
aiplatform.googleapis.com/textembedding_gecko_concurrent_batch_prediction_jobs 4
aiplatform.googleapis.com/gemini_pro_concurrent_batch_prediction_jobs 4
aiplatform.googleapis.com/gemini_flash_concurrent_batch_prediction_jobs 4
Se o número de tarefas enviadas exceder a cota alocada, elas serão colocadas em uma fila e processadas quando a capacidade da cota estiver disponível.

Limites de solicitações em lote

A tabela a seguir lista o limite de tamanho de cada solicitação de geração de texto em lote.
Modelo Limite
gemini-1.5-pro 50 mil registros
gemini-1.5-flash 150 mil registros
gemini-1.0-pro 150 mil registros
gemini-1.0-pro-vision 50 mil registros

Cotas de modelos treinados e personalizados

As cotas a seguir se aplicam à IA generativa em modelos ajustados pela Vertex AI para determinado projeto e região:
Cota Valor
Núcleos do pod da TPU V3 de treinamento de imagens restritos por região
* Região compatível: europe-west4
64
Treinamento de imagens restrito: GPUs Nvidia A100 de 80 GB por região
* Região compatível: us-central1
* Região compatível: us-east4

8
2
* Os cenários de ajuste têm reservas do acelerador em regiões específicas. As cotas de ajuste são aceitas e precisam ser solicitadas em regiões específicas.

Limites de incorporação de texto

Cada solicitação de modelo de inserção de texto pode ter até 250 textos de entrada (gerando 1 inserção por texto de entrada) e 20.000 tokens por solicitação. Apenas os primeiros 2.048 tokens em cada texto de entrada são usados para calcular as representações.

cotas do serviço de avaliação de IA generativa

O serviço de avaliação de IA generativa usa gemini-1.5-pro como modelo de avaliação e mecanismos para garantir uma avaliação consistente e objetiva de métricas baseadas em modelo. Uma única solicitação de avaliação para uma métrica baseada em modelo pode resultar em várias solicitações subjacentes ao serviço de avaliação de IA generativa. A cota de cada modelo é calculada por projeto, o que significa que todas as solicitações direcionadas a gemini-1.5-pro para inferência de modelo e avaliação baseada em modelo contribuem para a cota. Diferentes cotas de modelo são definidas de maneira distinta. A cota do serviço de avaliação de IA generativa e a cota do modelo do avaliador automático subjacente são mostradas na tabela.
Solicitação de cota Cota padrão
Solicitações do serviço de avaliação de IA generativa por minuto 1.000 solicitações por projeto em cada região
Solicitações de previsão on-line por minuto para base_model: gemini-1.5-pro Consulte Cotas por região e modelo.
Se você receber um erro relacionado a cotas ao usar o serviço de avaliação de IA generativa, talvez seja necessário registrar uma solicitação de aumento de cota. Para mais informações, consulte Ver e gerenciar cotas.
Limite Valor
Tempo limite da solicitação do serviço de avaliação de IA generativa 60 segundos
Novos usuários do serviço de avaliação de IA generativa em um novo projeto podem ter um atraso na configuração inicial, geralmente de até dois minutos. Esse processo ocorre só uma vez. Se a primeira solicitação falhar, aguarde alguns minutos e tente novamente. As próximas solicitações de avaliação normalmente são concluídas em 60 segundos. Os tokens máximos de entrada e saída são limitados para as métricas baseadas em modelo de acordo com o modelo usado como avaliador automático. Consulte Informações do modelo | IA generativa na Vertex AI | Google Cloud para limites com os limites para modelos relevantes.

Cotas de avaliação de pipeline

Se você receber um erro relacionado a cotas ao usar o serviço de pipelines de avaliação, talvez seja necessário registrar uma solicitação de aumento de cota. Consulte Ver e gerenciar cotas para mais informações. O serviço de pipelines de avaliação usa o Vertex AI Pipelines para executar PipelineJobs. Consulte as cotas relevantes para o Vertex AI Pipelines. Veja a seguir recomendações gerais de cota:
Serviço Cota Recomendação
API Vertex AI Jobs simultâneos de previsão em lote de LLM por região Por pontos: 1 * num_concurrent_pipelines

Pairwise: 2 * num_concurrent_pipelines
API Vertex AI Solicitações de avaliação por minuto em cada região 1.000 * num_concurrent_pipelines
Além disso, ao calcular métricas de avaliação baseadas em modelos, o autorrotuador pode encontrar problemas de cota. A cota relevante depende do avaliador automático usado:
Tarefas Cota Modelo base Recomendação
summarization
question_answering
Solicitações de previsão on-line por modelo base, por minuto, por região e por base_model text-bison 60 * num_concurrent_pipelines

Vertex AI Pipelines

Cada job de ajuste usa o Vertex AI Pipelines. Para mais informações, consulte Cotas e limites do Vertex AI Pipelines.

Vertex AI Reasoning Engine

As cotas e os limites a seguir se aplicam ao Vertex AI Reasoning Engine para um determinado projeto em cada região.
Cota Valor
Criar/excluir/atualizar o mecanismo de raciocínio por minuto 10
Mecanismo de raciocínio de consulta por minuto 60
Número máximo de recursos do Reasoning Engine 100

Resolver problemas com o código de erro 429

Para resolver o erro 429, consulte Código de erro 429.

A seguir