Esta página apresenta duas formas de consumir serviços de IA generativa, fornece uma lista de quotas por região e modelo, e mostra-lhe como ver e editar as suas quotas na Google Cloud consola.
Vista geral
Existem duas formas de consumir serviços de IA generativa. Pode escolher pagamento conforme o uso (PayGo) ou pagar antecipadamente através do débito provisionado.
Se estiver a usar o PayGo, a sua utilização das funcionalidades de IA generativa está sujeita a um dos seguintes sistemas de quotas, consoante o modelo que estiver a usar:
- Os modelos anteriores ao Gemini 2.0 usam um sistema de quotas padrão para cada modelo de IA generativa para ajudar a garantir a imparcialidade e reduzir os picos na utilização e disponibilidade de recursos. As quotas aplicam-se a pedidos de IA generativa no Vertex AI para um determinado Google Cloud projeto e região suportada.
- Os modelos mais recentes usam a quota partilhada dinâmica (DSQ), que distribui dinamicamente a capacidade de pagamento pré-pago disponível entre todos os clientes para um modelo e uma região específicos, eliminando a necessidade de definir quotas e enviar pedidos de aumento de quota. Não existem quotas com DSQ.
Para ajudar a garantir a elevada disponibilidade da sua aplicação e obter níveis de serviço previsíveis para as suas cargas de trabalho de produção, consulte o Débito aprovisionado.
Sistema de quotas por modelo
Os seguintes modelos suportam a quota partilhada dinâmica (DSQ):
- Pré-visualização de imagens do Gemini 2.5 Flash (pré-visualização)
- Gemini 2.5 Flash-Lite
- Gemini 2.0 Flash com API Live (pré-visualização)
- Gemini 2.0 Flash com geração de imagens (pré-visualização)
- Gemini 2.5 Pro
- Gemini 2.5 Flash
- Gemini 2.0 Flash
- Gemini 2.0 Flash-Lite
Os seguintes modelos do Gemini antigos suportam DSQ:
- Gemini 1.5 Pro
- Gemini 1.5 Flash
Os modelos do Gemini e anteriores ao Gemini usam o sistema de quotas padrão. Para mais informações, consulte as cotas e os limites da Vertex AI.
Quotas de modelos otimizados
A inferência do modelo otimizado partilha a mesma quota que o modelo base. Não existe uma quota separada para a inferência do modelo otimizado.
Limites de incorporação de texto
Cada pedido pode ter até 250 textos de entrada (gerando 1 incorporação por texto de entrada) e 20 000 tokens por pedido. Apenas os primeiros 2048 tokens em cada texto de entrada são usados para calcular as incorporações. Paragemini-embedding-001
, a
quota é apresentada abaixo do nome
gemini-embedding
.
Tokens de entrada de conteúdo incorporado por minuto por modelo base
Ao contrário dos modelos de incorporação anteriores, que eram limitados principalmente pelas quotas de RPM, a quota do modelo de incorporação do Gemini limita o número de tokens que podem ser enviados por minuto por projeto.
Quota | Valor |
---|---|
Tokens de entrada de conteúdo incorporado por minuto | 5 000 000 |
Limites do Vertex AI Agent Engine
Os seguintes limites aplicam-se ao Vertex AI Agent Engine para um determinado projeto em cada região:Descrição | Limite |
---|---|
Criar, eliminar ou atualizar o Vertex AI Agent Engine por minuto | 10 |
Criar, eliminar ou atualizar sessões do Vertex AI Agent Engine por minuto | 100 |
Query ou StreamQuery Vertex AI Agent Engine por minuto |
90 |
Anexe um evento às sessões do Vertex AI Agent Engine por minuto | 300 |
Número máximo de recursos do Vertex AI Agent Engine | 100 |
Criar, eliminar ou atualizar recursos de memória do Vertex AI Agent Engine por minuto | 100 |
Obtenha, liste ou recupere do banco de memória do Vertex AI Agent Engine por minuto | 300 |
Ambiente de sandbox (execução de código) executar pedidos por minuto | 1000 |
Entidades do ambiente de sandbox (execução de código) por região | 1000 |
Um agente A2A publica pedidos como sendMessage e cancelTask por minuto |
60 |
O agente A2A recebe pedidos como getTask e getCard por minuto |
600 |
Ligações bidirecionais em direto simultâneas com a API BidiStreamQuery por minuto |
10 |
Previsão em lote
As quotas e os limites para tarefas de inferência em lote são os mesmos em todas as regiões.Limites de tarefas de inferência em lote simultâneas para modelos Gemini
Não existem limites de quota predefinidos na inferência em lote para os modelos Gemini. Em alternativa, o serviço de lotes oferece acesso a um grande conjunto partilhado de recursos, atribuídos dinamicamente com base na disponibilidade e na procura em tempo real do modelo por parte de todos os clientes desse modelo. Quando mais clientes estão ativos e saturam a capacidade do modelo, os seus pedidos em lote podem ser colocados em fila para capacidade.Quotas de tarefas de inferência em lote concorrentes para modelos não Gemini
A tabela seguinte lista as quotas para o número de tarefas de inferência em lote simultâneas, que não se aplicam aos modelos Gemini:Quota | Valor |
---|---|
aiplatform.googleapis.com/textembedding_gecko_concurrent_batch_prediction_jobs |
4 |
Veja e edite as quotas na Google Cloud consola
Para ver e editar as quotas na Google Cloud consola, faça o seguinte:- Aceda à página Quotas e limites do sistema.
- Para ajustar a quota, copie e cole a propriedade
aiplatform.googleapis.com/textembedding_gecko_concurrent_batch_prediction_jobs
no Filtro. Prima Enter. - Clique nos três pontos no final da linha e selecione Editar quota.
- Introduza um novo valor de quota no painel e clique em Enviar pedido.
Aceda a Quotas e limites do sistema
Vertex AI RAG Engine
Para cada serviço realizar a geração aumentada de obtenção (RAG) através do motor RAG, aplicam-se as seguintes quotas, com a quota medida como pedidos por minuto (RPM).Serviço | Quota | Métrica |
---|---|---|
APIs de gestão de dados do motor RAG | 60 RPM | VertexRagDataService requests per minute per region |
RetrievalContexts API |
600 RPM | VertexRagService retrieve requests per minute per region |
base_model: textembedding-gecko |
1500 RPM | Online prediction requests per base model per minute per region per base_model Um filtro adicional que pode especificar é base_model: textembedding-gecko |
Serviço | Limite | Métrica |
---|---|---|
Pedidos ImportRagFiles simultâneos |
3 RPM | VertexRagService concurrent import requests per region |
Número máximo de ficheiros por pedido ImportRagFiles |
10 000 | VertexRagService import rag files requests per region |
Para ver mais limites de taxa e quotas, consulte os limites de taxa da IA generativa na Vertex AI.
Serviço de avaliação de IA gen
O serviço de avaliação de IA gen usa ogemini-2.0-flash
como um modelo de juiz predefinido
para métricas baseadas em modelos.
Um único pedido de avaliação para uma métrica baseada em modelos pode resultar em vários pedidos subjacentes ao serviço de avaliação de IA gen. A quota de cada modelo é calculada por projeto, o que significa que
todos os pedidos direcionados para gemini-2.0-flash
para inferência de modelos e
avaliação baseada em modelos contribuem para a quota.
As quotas para o serviço de avaliação de IA gen e o modelo de juiz subjacente são apresentadas na tabela seguinte:
Pedir quota | Quota predefinida |
---|---|
Pedidos por minuto do serviço de avaliação de IA gen | 1000 pedidos por projeto por região |
Pedidos de previsão online por minuto parabase_model: gemini-2.0-flash |
Consulte as cotas por região e modelo. |
Se receber um erro relacionado com quotas enquanto usa o serviço de avaliação de IA gen., pode ter de apresentar um pedido de aumento da quota. Consulte o artigo Veja e faça a gestão das cotas para mais informações.
Limite | Valor |
---|---|
Tempo limite do pedido de serviço de avaliação da IA gen | 60 segundos |
Quando usa o serviço de avaliação de IA gen pela primeira vez num novo projeto, pode verificar um atraso na configuração inicial de até dois minutos. Se o primeiro pedido falhar, aguarde alguns minutos e tente novamente. Normalmente, os pedidos de avaliação subsequentes são concluídos no prazo de 60 segundos.
O número máximo de tokens de entrada e saída para métricas baseadas em modelos depende do modelo usado como modelo de avaliação. Consulte os modelos Google para ver uma lista de modelos.
Quotas do Vertex AI Pipelines
Cada tarefa de ajuste usa o Vertex AI Pipelines. Para mais informações, consulte as cotas e os limites do Vertex AI Pipelines.
O que se segue?
- Para saber mais acerca da quota partilhada dinâmica, consulte o artigo Quota partilhada dinâmica.
- Para saber mais sobre as quotas e os limites da Vertex AI, consulte o artigo Quotas e limites da Vertex AI.
- Para saber mais acerca das Google Cloud quotas e dos limites do sistema, consulte a documentação do Cloud Quotas.