O Google Cloud usa cotas para garantir a imparcialidade e reduzir picos no uso e na disponibilidade de recursos. Uma cota restringe quanto de um recurso do Google Cloud o projeto do Google Cloud pode usar. As cotas se aplicam a vários tipos de recursos, incluindo hardware, software e componentes de rede. Por exemplo, as cotas podem restringir o número de chamadas de API para um serviço, o número de balanceadores de carga usados simultaneamente pelo projeto ou o número de projetos que podem ser criados. As cotas protegem a comunidade de usuários do Google Cloud, impedindo a sobrecarga de serviços. As cotas também ajudam você a gerenciar seus próprios recursos do Google Cloud.
O sistema de cotas do Cloud faz o seguinte:
- Monitora o consumo de produtos e serviços do Google Cloud.
- Restringe o consumo desses recursos.
- Fornece um meio de solicitar mudanças no valor da cota
Na maioria dos casos, quando você tenta consumir mais de um recurso do que a cota permite, o sistema bloqueia o acesso ao recurso e a tarefa que você está tentando executar falha.
As cotas geralmente se aplicam ao projeto do nível Google Cloud. O uso de um recurso em um projeto não afeta a cota disponível em outro. Em um projeto do Google Cloud, as cotas são compartilhadas entre todos os aplicativos e endereços IP.
Limites de taxas
Esta tabela lista os limites de taxa que se aplicam aos seguintes modelos em todas as regiões para a métrica,generate_content_input_tokens_per_minute_per_base_model
:
Modelo base | Tokens por minuto |
---|---|
base_model: gemini-1.5-flash |
4M (4.000.000) |
base_model: gemini-1.5-pro |
4M (4.000.000) |
Para informações de cota da versão 002 do Gemini 1.5 Flash
(gemini-1.5-flash-002
) e do Gemini 1.5 Pro
(gemini-1.5-pro-002
), consulte Modelos do Google.
Cotas por região e modelo
A cota de solicitações por minuto (RPM, na sigla em inglês) se aplica a um modelo base e a todas as versões, identificadores e versões ajustadas dele. Os exemplos a seguir mostram como a cota de RPM é aplicada:- Uma solicitação para o modelo base,
gemini-1.0-pro
, e uma solicitação para a versão estável,gemini-1.0-pro-001
, são contadas como duas solicitações para a cota RPM do modelo base,gemini-1.0-pro
. - Uma solicitação para duas versões de um modelo base, "gemini-1.0-pro-001" e "gemini-1.0-pro-002", é contada como duas solicitações para a cota RPM do modelo base, "gemini-1.0-pro".
- Uma solicitação para duas versões de um modelo base, "gemini-1.0-pro-001" e uma versão ajustada chamada "my-tuned-chat-model", são contadas como duas solicitações para o modelo base, "gemini-1.0-pro".
Conferir as cotas no console do Google Cloud
Para conferir as cotas no console do Google Cloud, faça o seguinte:- No console do Google Cloud, acesse a página Cotas do IAM e administrador.
- Clique em Conferir as cotas no console.
- No campo Filtro, especifique a dimensão ou métrica.
Dimensão (identificador de modelo) | Métrica (identificador de cota para modelos do Gemini) |
---|---|
base_model: gemini-1.5-flash base_model: gemini-1.5-pro |
É possível solicitar ajustes nos seguintes casos:
|
Todos os outros modelos | Você só pode ajustar uma cota:
|
Conferir as cotas por região e modelo
Escolha uma região para ver os limites de cota de cada modelo disponível:
Aumentar as cotas
Para aumentar alguma das suas cotas de IA generativa na Vertex AI, use o console do Google Cloud para solicitar um aumento de cota. Para saber mais sobre cotas, consulte Trabalhar com cotas.
Cotas do mecanismo RAG
Para que cada serviço realize a geração aumentada de recuperação (RAG) usando o RAG Engine, as cotas a seguir se aplicam, sendo a cota medida como solicitações por minuto (RPM).Serviço | Cota | Métrica |
---|---|---|
APIs de gerenciamento de dados do mecanismo RAG | 60 RPM | VertexRagDataService requests per minute per region |
API RetrievalContexts |
1.500 RPM | VertexRagService retrieve requests per minute per region |
base_model: textembedding-gecko |
1.500 RPM | Online prediction requests per base model per minute per region per base_model Outro filtro que você pode especificar é base_model: textembedding-gecko |
Serviço | Limite | Métrica |
---|---|---|
Solicitações ImportRagFiles simultâneas |
3 RPM | VertexRagService concurrent import requests per region |
Número máximo de arquivos por solicitação ImportRagFiles |
10.000 | VertexRagService import rag files requests per region |
Para mais limites de taxa e cotas, consulte Limites de taxa da IA generativa na Vertex AI.
Solicitações em lote
As cotas e os limites para solicitações em lote são os mesmos em todas as regiões.Solicitações em lote simultâneas
A tabela a seguir lista as cotas para o número de solicitações em lote simultâneas:Cota | Valor |
---|---|
aiplatform.googleapis.com/textembedding_gecko_concurrent_batch_prediction_jobs |
4 |
aiplatform.googleapis.com/gemini_pro_concurrent_batch_prediction_jobs |
4 |
aiplatform.googleapis.com/gemini_flash_concurrent_batch_prediction_jobs |
4 |
Limites de solicitações em lote
A tabela a seguir lista o limite de tamanho de cada solicitação de geração de texto em lote.Modelo | Limite |
---|---|
gemini-1.5-pro |
50 mil registros |
gemini-1.5-flash |
150 mil registros |
gemini-1.0-pro |
150 mil registros |
gemini-1.0-pro-vision |
50 mil registros |
Cotas de modelos treinados e personalizados
As cotas a seguir se aplicam à IA generativa em modelos ajustados pela Vertex AI para determinado projeto e região:Cota | Valor |
---|---|
Núcleos do pod da TPU V3 de treinamento de imagens restritos por região * Região compatível: europe-west4 |
64 |
Treinamento de imagens restrito: GPUs Nvidia A100 de 80 GB por região * Região compatível: us-central1 * Região compatível: us-east4 |
8 2 |
Limites de incorporação de texto
Cada solicitação de modelo de inserção de texto pode ter até 250 textos de entrada (gerando 1 inserção por texto de entrada) e 20.000 tokens por solicitação. Apenas os primeiros 2.048 tokens em cada texto de entrada são usados para calcular as representações.
cotas do serviço de avaliação de IA generativa
O serviço de avaliação de IA generativa usagemini-1.5-pro
como modelo de avaliação
e mecanismos para garantir uma avaliação consistente e objetiva de métricas baseadas em modelo.
Uma única solicitação de avaliação para uma métrica baseada em modelo pode resultar em várias solicitações subjacentes ao
serviço de avaliação de IA generativa. A cota de cada modelo é calculada por projeto, o que significa que todas as solicitações direcionadas a gemini-1.5-pro
para inferência de modelo e avaliação baseada em modelo contribuem para a cota. Diferentes cotas de modelo são definidas de maneira distinta. A cota do serviço de avaliação de IA generativa e a cota do modelo do avaliador automático subjacente são mostradas na tabela.
Solicitação de cota | Cota padrão |
---|---|
Solicitações do serviço de avaliação de IA generativa por minuto | 1.000 solicitações por projeto em cada região |
Solicitações de previsão on-line por minuto para base_model: gemini-1.5-pro |
Consulte Cotas por região e modelo. |
Limite | Valor |
---|---|
Tempo limite da solicitação do serviço de avaliação de IA generativa | 60 segundos |
Cotas de avaliação de pipeline
Se você receber um erro relacionado a cotas ao usar o serviço de pipelines de avaliação, talvez seja necessário registrar uma solicitação de aumento de cota. Consulte Ver e gerenciar cotas para mais informações. O serviço de pipelines de avaliação usa o Vertex AI Pipelines para executarPipelineJobs
. Consulte as cotas relevantes para o Vertex AI Pipelines. Veja a seguir recomendações gerais de cota:
Serviço | Cota | Recomendação |
---|---|---|
API Vertex AI | Jobs simultâneos de previsão em lote de LLM por região | Por pontos: 1 * num_concurrent_pipelines Pairwise: 2 * num_concurrent_pipelines |
API Vertex AI | Solicitações de avaliação por minuto em cada região | 1.000 * num_concurrent_pipelines |
Tarefas | Cota | Modelo base | Recomendação |
---|---|---|---|
summarization question_answering |
Solicitações de previsão on-line por modelo base, por minuto, por região e por base_model | text-bison |
60 * num_concurrent_pipelines |
Vertex AI Pipelines
Cada job de ajuste usa o Vertex AI Pipelines. Para mais informações, consulte Cotas e limites do Vertex AI Pipelines.
Vertex AI Reasoning Engine
As cotas e os limites a seguir se aplicam ao Vertex AI Reasoning Engine para um determinado projeto em cada região.Cota | Valor |
---|---|
Criar/excluir/atualizar o mecanismo de raciocínio por minuto | 10 |
Mecanismo de raciocínio de consulta por minuto | 60 |
Número máximo de recursos do Reasoning Engine | 100 |
Resolver problemas com o código de erro 429
Para resolver o erro 429, consulte Código de erro 429.
A seguir
- Para saber mais sobre a cota compartilhada dinâmica, consulte Cota compartilhada dinâmica.
- Para saber mais sobre cotas e limites da Vertex AI, consulte Cotas e limites da Vertex AI.
- Para saber mais sobre cotas e limites do Google Cloud, consulte Noções básicas sobre valores de cota e limites do sistema.