Esta página foi traduzida pela API Cloud Translation.

Limites de taxa da IA generativa na Vertex AI

O Google Cloud usa cotas para garantir a imparcialidade e reduzir picos no uso e na disponibilidade de recursos. Uma cota restringe quanto de um recurso do Google Cloud o projeto do Google Cloud pode usar. As cotas se aplicam a vários tipos de recursos, incluindo hardware, software e componentes de rede. Por exemplo, as cotas podem restringir o número de chamadas de API para um serviço, o número de balanceadores de carga usados simultaneamente pelo projeto ou o número de projetos que podem ser criados. As cotas protegem a comunidade de usuários do Google Cloud, impedindo a sobrecarga de serviços. As cotas também ajudam você a gerenciar seus próprios recursos do Google Cloud.

O sistema de cotas do Cloud faz o seguinte:

Monitora o consumo de produtos e serviços do Google Cloud.
Restringe o consumo desses recursos.
Fornece um meio de solicitar mudanças no valor da cota

Na maioria dos casos, quando você tenta consumir mais de um recurso do que a cota permite, o sistema bloqueia o acesso ao recurso e a tarefa que você está tentando executar falha.

As cotas geralmente se aplicam ao projeto do nível Google Cloud. O uso de um recurso em um projeto não afeta a cota disponível em outro. Em um projeto do Google Cloud, as cotas são compartilhadas entre todos os aplicativos e endereços IP.

Limites de taxas

Esta tabela lista os limites de taxa que se aplicam aos seguintes modelos em todas as regiões para a métrica, generate_content_input_tokens_per_minute_per_base_model:

Modelo base	Tokens por minuto
`base_model: gemini-1.5-flash`	4M (4.000.000)
`base_model: gemini-1.5-pro`	4M (4.000.000)

Para informações de cota da versão 002 do Gemini 1.5 Flash (gemini-1.5-flash-002) e do Gemini 1.5 Pro (gemini-1.5-pro-002), consulte Modelos do Google.

Cotas por região e modelo

A cota de solicitações por minuto (RPM, na sigla em inglês) se aplica a um modelo base e a todas as versões, identificadores e versões ajustadas dele. Os exemplos a seguir mostram como a cota de RPM é aplicada:

Uma solicitação para o modelo base, gemini-1.0-pro, e uma solicitação para a versão estável, gemini-1.0-pro-001, são contadas como duas solicitações para a cota RPM do modelo base, gemini-1.0-pro.
Uma solicitação para duas versões de um modelo base, "gemini-1.0-pro-001" e "gemini-1.0-pro-002", é contada como duas solicitações para a cota RPM do modelo base, "gemini-1.0-pro".
Uma solicitação para duas versões de um modelo base, "gemini-1.0-pro-001" e uma versão ajustada chamada "my-tuned-chat-model", são contadas como duas solicitações para o modelo base, "gemini-1.0-pro".

As cotas se aplicam à IA generativa nas solicitações da Vertex AI para um determinado projeto do Google Cloud e região com suporte.

Conferir as cotas no console do Google Cloud

Para conferir as cotas no console do Google Cloud, faça o seguinte:

No console do Google Cloud, acesse a página Cotas do IAM e administrador.
Clique em Conferir as cotas no console.
No campo Filtro, especifique a dimensão ou métrica.

Dimensão (identificador de modelo)	Métrica (identificador de cota para modelos do Gemini)
`base_model: gemini-1.5-flash` `base_model: gemini-1.5-pro`	É possível solicitar ajustes nos seguintes casos: `aiplatform.googleapis.com/generate_content_requests_per_minute_per_project_per_base_model` `aiplatform.googleapis.com/generate_content_input_tokens_per_minute_per_base_model`
Todos os outros modelos	Você só pode ajustar uma cota: `aiplatform.googleapis.com/generate_content_requests_per_minute_per_project_per_base_model`

Conferir as cotas por região e modelo

Escolha uma região para ver os limites de cota de cada modelo disponível:

Aumentar as cotas

Para aumentar alguma das suas cotas de IA generativa na Vertex AI, use o console do Google Cloud para solicitar um aumento de cota. Para saber mais sobre cotas, consulte Trabalhar com cotas.

Cotas do mecanismo RAG

Para que cada serviço realize a geração aumentada de recuperação (RAG) usando o RAG Engine, as cotas a seguir se aplicam, sendo a cota medida como solicitações por minuto (RPM).

Serviço	Cota	Métrica
APIs de gerenciamento de dados do mecanismo RAG	60 RPM	`VertexRagDataService requests per minute per region`
API `RetrievalContexts`	1.500 RPM	`VertexRagService retrieve requests per minute per region`
`base_model: textembedding-gecko`	1.500 RPM	`Online prediction requests per base model per minute per region per base_model` Outro filtro que você pode especificar é `base_model: textembedding-gecko`

Os seguintes limites são aplicáveis:

Serviço	Limite	Métrica
Solicitações `ImportRagFiles` simultâneas	3 RPM	`VertexRagService concurrent import requests per region`
Número máximo de arquivos por solicitação `ImportRagFiles`	10.000	`VertexRagService import rag files requests per region`

Para mais limites de taxa e cotas, consulte Limites de taxa da IA generativa na Vertex AI.

Solicitações em lote

As cotas e os limites para solicitações em lote são os mesmos em todas as regiões.

Solicitações em lote simultâneas

A tabela a seguir lista as cotas para o número de solicitações em lote simultâneas:

Cota	Valor
`aiplatform.googleapis.com/textembedding_gecko_concurrent_batch_prediction_jobs`	4
`aiplatform.googleapis.com/gemini_pro_concurrent_batch_prediction_jobs`	4
`aiplatform.googleapis.com/gemini_flash_concurrent_batch_prediction_jobs`	4

Se o número de tarefas enviadas exceder a cota alocada, elas serão colocadas em uma fila e processadas quando a capacidade da cota estiver disponível.

Limites de solicitações em lote

A tabela a seguir lista o limite de tamanho de cada solicitação de geração de texto em lote.

Modelo	Limite
`gemini-1.5-pro`	50 mil registros
`gemini-1.5-flash`	150 mil registros
`gemini-1.0-pro`	150 mil registros
`gemini-1.0-pro-vision`	50 mil registros

Cotas de modelos treinados e personalizados

As cotas a seguir se aplicam à IA generativa em modelos ajustados pela Vertex AI para determinado projeto e região:

Cota	Valor
Núcleos do pod da TPU V3 de treinamento de imagens restritos por região * Região compatível: europe-west4	64
Treinamento de imagens restrito: GPUs Nvidia A100 de 80 GB por região * Região compatível: us-central1 * Região compatível: us-east4	8 2

* Os cenários de ajuste têm reservas do acelerador em regiões específicas. As cotas de ajuste são aceitas e precisam ser solicitadas em regiões específicas.

Limites de incorporação de texto

Cada solicitação de modelo de inserção de texto pode ter até 250 textos de entrada (gerando 1 inserção por texto de entrada) e 20.000 tokens por solicitação. Apenas os primeiros 2.048 tokens em cada texto de entrada são usados para calcular as representações.

cotas do serviço de avaliação de IA generativa

O serviço de avaliação de IA generativa usa gemini-1.5-pro como modelo de avaliação e mecanismos para garantir uma avaliação consistente e objetiva de métricas baseadas em modelo. Uma única solicitação de avaliação para uma métrica baseada em modelo pode resultar em várias solicitações subjacentes ao serviço de avaliação de IA generativa. A cota de cada modelo é calculada por projeto, o que significa que todas as solicitações direcionadas a gemini-1.5-pro para inferência de modelo e avaliação baseada em modelo contribuem para a cota. Diferentes cotas de modelo são definidas de maneira distinta. A cota do serviço de avaliação de IA generativa e a cota do modelo do avaliador automático subjacente são mostradas na tabela.

Solicitação de cota	Cota padrão
Solicitações do serviço de avaliação de IA generativa por minuto	1.000 solicitações por projeto em cada região
Solicitações de previsão on-line por minuto para `base_model: gemini-1.5-pro`	Consulte Cotas por região e modelo.

Se você receber um erro relacionado a cotas ao usar o serviço de avaliação de IA generativa, talvez seja necessário registrar uma solicitação de aumento de cota. Para mais informações, consulte Ver e gerenciar cotas.

Limite	Valor
Tempo limite da solicitação do serviço de avaliação de IA generativa	60 segundos

Novos usuários do serviço de avaliação de IA generativa em um novo projeto podem ter um atraso na configuração inicial, geralmente de até dois minutos. Esse processo ocorre só uma vez. Se a primeira solicitação falhar, aguarde alguns minutos e tente novamente. As próximas solicitações de avaliação normalmente são concluídas em 60 segundos. Os tokens máximos de entrada e saída são limitados para as métricas baseadas em modelo de acordo com o modelo usado como avaliador automático. Consulte Informações do modelo | IA generativa na Vertex AI | Google Cloud para limites com os limites para modelos relevantes.

Cotas de avaliação de pipeline

Se você receber um erro relacionado a cotas ao usar o serviço de pipelines de avaliação, talvez seja necessário registrar uma solicitação de aumento de cota. Consulte Ver e gerenciar cotas para mais informações. O serviço de pipelines de avaliação usa o Vertex AI Pipelines para executar PipelineJobs. Consulte as cotas relevantes para o Vertex AI Pipelines. Veja a seguir recomendações gerais de cota:

Serviço	Cota	Recomendação
API Vertex AI	Jobs simultâneos de previsão em lote de LLM por região	Por pontos: 1 * num_concurrent_pipelines Pairwise: 2 * num_concurrent_pipelines
API Vertex AI	Solicitações de avaliação por minuto em cada região	1.000 * num_concurrent_pipelines

Além disso, ao calcular métricas de avaliação baseadas em modelos, o autorrotuador pode encontrar problemas de cota. A cota relevante depende do avaliador automático usado:

Tarefas	Cota	Modelo base	Recomendação
`summarization` `question_answering`	Solicitações de previsão on-line por modelo base, por minuto, por região e por base_model	`text-bison`	60 * num_concurrent_pipelines

Vertex AI Pipelines

Cada job de ajuste usa o Vertex AI Pipelines. Para mais informações, consulte Cotas e limites do Vertex AI Pipelines.

Vertex AI Reasoning Engine

As cotas e os limites a seguir se aplicam ao Vertex AI Reasoning Engine para um determinado projeto em cada região.

Cota	Valor
Criar/excluir/atualizar o mecanismo de raciocínio por minuto	10
Mecanismo de raciocínio de consulta por minuto	60
Número máximo de recursos do Reasoning Engine	100

Resolver problemas com o código de erro 429

Para resolver o erro 429, consulte Código de erro 429.

A seguir

Para saber mais sobre a cota compartilhada dinâmica, consulte Cota compartilhada dinâmica.
Para saber mais sobre cotas e limites da Vertex AI, consulte Cotas e limites da Vertex AI.
Para saber mais sobre cotas e limites do Google Cloud, consulte Noções básicas sobre valores de cota e limites do sistema.