Limiti di frequenza dell'IA generativa su Vertex AI

Google Cloud utilizza le quote per garantire l'equità e ridurre i picchi di utilizzo e disponibilità delle risorse. Una quota limita la quantità di una risorsaGoogle Cloud che il tuo progetto Google Cloud può utilizzare. Le quote si applicano a una serie di tipi di risorse, inclusi hardware, software e componenti di rete. Ad esempio, le quote possono limitare il numero di chiamate API a un servizio, il numero di bilanciatori del carico utilizzati contemporaneamente dal tuo progetto o il numero di progetti che puoi creare. Le quote proteggono la community degli utenti diGoogle Cloud impedendo il sovraccarico dei servizi. Le quote ti aiutano anche a gestire le tue risorse Google Cloud .

Il sistema delle quote di Cloud esegue le seguenti operazioni:

  • Monitora il consumo di prodotti e servizi Google Cloud
  • Limita il consumo di queste risorse
  • Fornisce un modo per richiedere modifiche al valore della quota

Nella maggior parte dei casi, quando provi a utilizzare una risorsa per un volume maggiore di quello consentito dalla quota, il sistema blocca l'accesso alla risorsa e l'attività che stai tentando di eseguire non va a buon fine.

In genere, le quote si applicano a livello di progetto Google Cloud . L'utilizzo di una risorsa in un progetto non influisce sulla quota disponibile in un altro progetto. All'interno di un progetto Google Cloud , le quote sono condivise tra tutte le applicazioni e gli indirizzi IP.

Limiti di frequenza

Questa tabella elenca i limiti di frequenza che si applicano ai seguenti modelli in tutte le regioni per la metricagenerate_content_input_tokens_per_minute_per_base_model:
Modello di base Token al minuto
base_model: gemini-1.5-flash 4 milioni (4.000.000)
base_model: gemini-1.5-pro 4 milioni (4.000.000)

Per informazioni sulle quote per la versione 002 di Gemini 1.5 Flash (gemini-1.5-flash-002) e Gemini 1.5 Pro (gemini-1.5-pro-002), consulta Modelli Google.

Quote per regione e modello

La quota di richieste al minuto (RPM) si applica a un modello di base e a tutte le versioni, gli identificatori e le versioni ottimizzate di quel modello. Gli esempi riportati di seguito mostrano come viene applicata la quota RPM:
  • Una richiesta al modello di base gemini-1.0-pro e una richiesta alla relativa versione stabile gemini-1.0-pro-001 vengono conteggiate come due richieste ai fini della quota RPM del modello di base gemini-1.0-pro.
  • Una richiesta a due versioni di un modello di base, "gemini-1.0-pro-001" e "gemini-1.0-pro-002", viene conteggiata come due richieste ai fini della quota RPM del modello di base, "gemini-1.0-pro".
  • Una richiesta a due versioni di un modello di base, "gemini-1.0-pro-001" e una versione ottimizzata denominata "my-tuned-chat-model", viene conteggiata come due richieste al modello di base "gemini-1.0-pro".
Le quote si applicano alle richieste di AI generativa su Vertex AI per un determinato progettoGoogle Cloud e per la regione supportata.

Visualizza le quote nella console Google Cloud

Per visualizzare le quote nella console Google Cloud , segui questi passaggi:
  1. Nella console Google Cloud , vai alla pagina Quote di IAM e amministrazione.
  2. Fai clic su Visualizza quote nella console.
  3. Nel campo Filtro, specifica la dimensione o la metrica.
Dimensione (identificatore del modello) Metrica (identificatore della quota per i modelli Gemini)
base_model: gemini-1.5-flash
base_model: gemini-1.5-pro
Puoi richiedere aggiustamenti nei seguenti casi:
  • aiplatform.googleapis.com/generate_content_requests_per_minute_per_project_per_base_model
  • aiplatform.googleapis.com/generate_content_input_tokens_per_minute_per_base_model
Tutti gli altri modelli Puoi modificare una sola quota:
  • aiplatform.googleapis.com/generate_content_requests_per_minute_per_project_per_base_model

Visualizza le quote per regione e modello

Scegli una regione per visualizzare i limiti di quota per ogni modello disponibile:

Aumentare le quote

Se vuoi aumentare una delle quote per l'AI generativa su Vertex AI, puoi utilizzare la console Google Cloud per richiedere un aumento di quota. Per scoprire di più sulle quote, consulta Utilizzo delle quote.

Quote di RAG Engine

Per ogni servizio che esegue la generazione basata sul recupero (RAG) utilizzando RAG Engine, si applicano le seguenti quote, misurate in richieste al minuto (RPM).
Servizio Quota Metrica
API di gestione dei dati di RAG Engine 60 giri/min VertexRagDataService requests per minute per region
RetrievalContexts API 1500 rpm VertexRagService retrieve requests per minute per region
base_model: textembedding-gecko 1500 rpm Online prediction requests per base model per minute per region per base_model

Un altro filtro da specificare è base_model: textembedding-gecko
I limiti sono i seguenti:
Servizio Limite Metrica
Richieste ImportRagFiles in parallelo 3 RPM VertexRagService concurrent import requests per region
Numero massimo di file per richiesta ImportRagFiles 10.000 VertexRagService import rag files requests per region

Per altri limiti di frequenza e quote, consulta Limiti di frequenza dell'IA generativa su Vertex AI.

Richieste batch

Le quote e i limiti per le richieste batch sono gli stessi in tutte le regioni.

Richieste batch in parallelo

La seguente tabella elenca le quote per il numero di richieste batch simultanee:
Quota Valore
aiplatform.googleapis.com/textembedding_gecko_concurrent_batch_prediction_jobs 4
aiplatform.googleapis.com/gemini_pro_concurrent_batch_prediction_jobs 4
aiplatform.googleapis.com/gemini_flash_concurrent_batch_prediction_jobs 4
Se il numero di attività inviate supera la quota allocata, le attività vengono inserite in una coda e elaborate quando la capacità della quota diventa disponibile.

Limiti per le richieste batch

La tabella seguente elenca il limite di dimensioni di ogni richiesta di generazione di testo batch.
Modello Limite
gemini-1.5-pro 50.000 record
gemini-1.5-flash 150.000 record
gemini-1.0-pro 150.000 record
gemini-1.0-pro-vision 50.000 record

Quote dei modelli con addestramento personalizzato

Le seguenti quote si applicano ai modelli ottimizzati di IA generativa su Vertex AI per un determinato progetto e una determinata regione:
Quota Valore
Core del pod TPU v3 per l'addestramento di immagini con limitazioni per regione
* Regione supportata: europe-west4
64
GPU NVIDIA A100 80 GB per regione per l'addestramento di immagini con limitazioni
* Regione supportata: us-central1
* Regione supportata: us-east4

8
2
* Gli scenari di ottimizzazione hanno prenotazioni di acceleratori in regioni specifiche. Le quote per l'ottimizzazione sono supportate e devono essere richieste in regioni specifiche.

Limiti di incorporamento di testo

Ogni richiesta di modello di embedding di testo può contenere fino a 250 testi di input (generando 1 embedding per testo di input) e 20.000 token per richiesta. Per calcolare gli embedding vengono utilizzati solo i primi 2048 token di ogni testo di input.

Quote del servizio di valutazione dell'IA generativa

Il servizio di valutazione dell'IA generativa utilizza gemini-1.5-pro come modello di giudizio e meccanismi per garantire una valutazione coerente e oggettiva delle metriche basate su modelli. Una singola richiesta di valutazione per una metrica basata su modelli potrebbe comportare più richieste sottostanti al servizio di valutazione dell'IA generativa. La quota di ogni modello viene calcolata in base al progetto, il che significa che tutte le richieste indirizzate a gemini-1.5-pro per l'inferenza del modello e la valutazione basata su modelli contribuiscono alla quota. Le quote dei diversi modelli vengono impostate in modo diverso. Nella tabella sono riportate la quota per il servizio di valutazione dell'IA generativa e la quota per il modello di valutazione automatica sottostante.
Richiedi quota Quota predefinita
Richieste al servizio di valutazione dell'IA generativa al minuto 1000 richieste per progetto per regione
Richieste di previsione online al minuto per base_model: gemini-1.5-pro Consulta Quote per regione e modello.
Se ricevi un errore relativo alle quote durante l'utilizzo del servizio di valutazione dell'IA generativa, potresti dover presentare una richiesta di aumento della quota. Per ulteriori informazioni, consulta Visualizzare e gestire le quote.
Limite Valore
Timeout della richiesta di servizio di valutazione dell'AI generativa 60 secondi
Gli utenti che utilizzano per la prima volta il servizio di valutazione dell'IA generativa in un nuovo progetto potrebbero riscontrare un ritardo iniziale di configurazione generalmente fino a due minuti. Si tratta di un processo che viene eseguito una sola volta. Se la prima richiesta non va a buon fine, attendi qualche minuto e riprova. Le richieste di valutazione successive vengono in genere completate entro 60 secondi. I token di input e di output massimi sono limitati per le metriche basate su modello in base al modello utilizzato come autore. Consulta Informazioni sui modelli | AI generativa su Vertex AI | Google Cloud per i limiti per i modelli pertinenti.

Quote di valutazione della pipeline

Se ricevi un errore relativo alle quote durante l'utilizzo del servizio di pipeline di valutazione, potresti dover presentare una richiesta di aumento della quota. Per ulteriori informazioni, consulta Visualizzare e gestire le quote. Il servizio delle pipeline di valutazione utilizza Vertex AI Pipelines per eseguire PipelineJobs. Consulta le quote pertinenti per Vertex AI Pipelines. Di seguito sono riportati alcuni consigli generali sulle quote:
Servizio Quota Consiglio
API Vertex AI Job di previsione batch LLM simultanei per regione Su base punto: 1 * num_pipeline_concurrenti

In coppia: 2 * num_pipeline_concurrenti
API Vertex AI Richieste di valutazione al minuto per regione 1000 * num_concurrent_pipelines
Inoltre, durante il calcolo delle metriche di valutazione basate su modelli, l'autoreattore potrebbe riscontrare problemi di quota. La quota pertinente dipende dall'autoreattore utilizzato:
Tasks Quota Modello di base Consiglio
summarization
question_answering
Richieste di previsione online per modello base al minuto per regione per base_model text-bison 60 * num_concurrent_pipelines

Vertex AI Pipelines

Ogni job di ottimizzazione utilizza Vertex AI Pipelines. Per ulteriori informazioni, consulta Quote e limiti di Vertex AI Pipelines.

Vertex AI Reasoning Engine

Le seguenti quote e limiti si applicano al motore di ragionamento Vertex AI per un determinato progetto in ogni regione.
Quota Valore
Creazione/eliminazione/aggiornamento del motore di ragionamento al minuto 10
Motore di ragionamento Query/StreamQuery al minuto 60
Numero massimo di risorse del motore di ragionamento 100

Risolvere i problemi relativi al codice di errore 429

Per risolvere il problema relativo all'errore 429, consulta la sezione Codice di errore 429.

Passaggi successivi