Google Cloud utilizza le quote per garantire l'equità e ridurre i picchi di utilizzo e disponibilità delle risorse. Una quota limita la quantità di una risorsaGoogle Cloud che il tuo progetto Google Cloud può utilizzare. Le quote si applicano a una serie di tipi di risorse, inclusi hardware, software e componenti di rete. Ad esempio, le quote possono limitare il numero di chiamate API a un servizio, il numero di bilanciatori del carico utilizzati contemporaneamente dal tuo progetto o il numero di progetti che puoi creare. Le quote proteggono la community degli utenti diGoogle Cloud impedendo il sovraccarico dei servizi. Le quote ti aiutano anche a gestire le tue risorse Google Cloud .
Il sistema delle quote di Cloud esegue le seguenti operazioni:
- Monitora il consumo di prodotti e servizi Google Cloud
- Limita il consumo di queste risorse
- Fornisce un modo per richiedere modifiche al valore della quota
Nella maggior parte dei casi, quando provi a utilizzare una risorsa per un volume maggiore di quello consentito dalla quota, il sistema blocca l'accesso alla risorsa e l'attività che stai tentando di eseguire non va a buon fine.
In genere, le quote si applicano a livello di progetto Google Cloud . L'utilizzo di una risorsa in un progetto non influisce sulla quota disponibile in un altro progetto. All'interno di un progetto Google Cloud , le quote sono condivise tra tutte le applicazioni e gli indirizzi IP.
Limiti di frequenza
Questa tabella elenca i limiti di frequenza che si applicano ai seguenti modelli in tutte le regioni per la metricagenerate_content_input_tokens_per_minute_per_base_model
:
Modello di base | Token al minuto |
---|---|
base_model: gemini-1.5-flash |
4 milioni (4.000.000) |
base_model: gemini-1.5-pro |
4 milioni (4.000.000) |
Per informazioni sulle quote per la versione 002 di Gemini 1.5 Flash
(gemini-1.5-flash-002
) e Gemini 1.5 Pro
(gemini-1.5-pro-002
), consulta Modelli Google.
Quote per regione e modello
La quota di richieste al minuto (RPM) si applica a un modello di base e a tutte le versioni, gli identificatori e le versioni ottimizzate di quel modello. Gli esempi riportati di seguito mostrano come viene applicata la quota RPM:- Una richiesta al modello di base
gemini-1.0-pro
e una richiesta alla relativa versione stabilegemini-1.0-pro-001
vengono conteggiate come due richieste ai fini della quota RPM del modello di basegemini-1.0-pro
. - Una richiesta a due versioni di un modello di base, "gemini-1.0-pro-001" e "gemini-1.0-pro-002", viene conteggiata come due richieste ai fini della quota RPM del modello di base, "gemini-1.0-pro".
- Una richiesta a due versioni di un modello di base, "gemini-1.0-pro-001" e una versione ottimizzata denominata "my-tuned-chat-model", viene conteggiata come due richieste al modello di base "gemini-1.0-pro".
Visualizza le quote nella console Google Cloud
Per visualizzare le quote nella console Google Cloud , segui questi passaggi:- Nella console Google Cloud , vai alla pagina Quote di IAM e amministrazione.
- Fai clic su Visualizza quote nella console.
- Nel campo Filtro, specifica la dimensione o la metrica.
Dimensione (identificatore del modello) | Metrica (identificatore della quota per i modelli Gemini) |
---|---|
base_model: gemini-1.5-flash base_model: gemini-1.5-pro |
Puoi richiedere aggiustamenti nei seguenti casi:
|
Tutti gli altri modelli | Puoi modificare una sola quota:
|
Visualizza le quote per regione e modello
Scegli una regione per visualizzare i limiti di quota per ogni modello disponibile:
Aumentare le quote
Se vuoi aumentare una delle quote per l'AI generativa su Vertex AI, puoi utilizzare la console Google Cloud per richiedere un aumento di quota. Per scoprire di più sulle quote, consulta Utilizzo delle quote.
Quote di RAG Engine
Per ogni servizio che esegue la generazione basata sul recupero (RAG) utilizzando RAG Engine, si applicano le seguenti quote, misurate in richieste al minuto (RPM).Servizio | Quota | Metrica |
---|---|---|
API di gestione dei dati di RAG Engine | 60 giri/min | VertexRagDataService requests per minute per region |
RetrievalContexts API |
1500 rpm | VertexRagService retrieve requests per minute per region |
base_model: textembedding-gecko |
1500 rpm | Online prediction requests per base model per minute per region per base_model Un altro filtro da specificare è base_model: textembedding-gecko |
Servizio | Limite | Metrica |
---|---|---|
Richieste ImportRagFiles in parallelo |
3 RPM | VertexRagService concurrent import requests per region |
Numero massimo di file per richiesta ImportRagFiles |
10.000 | VertexRagService import rag files requests per region |
Per altri limiti di frequenza e quote, consulta Limiti di frequenza dell'IA generativa su Vertex AI.
Richieste batch
Le quote e i limiti per le richieste batch sono gli stessi in tutte le regioni.Richieste batch in parallelo
La seguente tabella elenca le quote per il numero di richieste batch simultanee:Quota | Valore |
---|---|
aiplatform.googleapis.com/textembedding_gecko_concurrent_batch_prediction_jobs |
4 |
aiplatform.googleapis.com/gemini_pro_concurrent_batch_prediction_jobs |
4 |
aiplatform.googleapis.com/gemini_flash_concurrent_batch_prediction_jobs |
4 |
Limiti per le richieste batch
La tabella seguente elenca il limite di dimensioni di ogni richiesta di generazione di testo batch.Modello | Limite |
---|---|
gemini-1.5-pro |
50.000 record |
gemini-1.5-flash |
150.000 record |
gemini-1.0-pro |
150.000 record |
gemini-1.0-pro-vision |
50.000 record |
Quote dei modelli con addestramento personalizzato
Le seguenti quote si applicano ai modelli ottimizzati di IA generativa su Vertex AI per un determinato progetto e una determinata regione:Quota | Valore |
---|---|
Core del pod TPU v3 per l'addestramento di immagini con limitazioni per regione * Regione supportata: europe-west4 |
64 |
GPU NVIDIA A100 80 GB per regione per l'addestramento di immagini con limitazioni * Regione supportata: us-central1 * Regione supportata: us-east4 |
8 2 |
Limiti di incorporamento di testo
Ogni richiesta di modello di embedding di testo può contenere fino a 250 testi di input (generando 1 embedding per testo di input) e 20.000 token per richiesta. Per calcolare gli embedding vengono utilizzati solo i primi 2048 token di ogni testo di input.
Quote del servizio di valutazione dell'IA generativa
Il servizio di valutazione dell'IA generativa utilizzagemini-1.5-pro
come modello di giudizio e meccanismi per garantire una valutazione coerente e oggettiva delle metriche basate su modelli.
Una singola richiesta di valutazione per una metrica basata su modelli potrebbe comportare più richieste sottostanti al servizio di valutazione dell'IA generativa. La quota di ogni modello viene calcolata in base al progetto, il che significa che tutte le richieste indirizzate a gemini-1.5-pro
per l'inferenza del modello e la valutazione basata su modelli contribuiscono alla quota. Le quote dei diversi modelli vengono impostate in modo diverso. Nella tabella sono riportate la quota per il servizio di valutazione dell'IA generativa e la quota per il modello di valutazione automatica sottostante.
Richiedi quota | Quota predefinita |
---|---|
Richieste al servizio di valutazione dell'IA generativa al minuto | 1000 richieste per progetto per regione |
Richieste di previsione online al minuto per base_model: gemini-1.5-pro |
Consulta Quote per regione e modello. |
Limite | Valore |
---|---|
Timeout della richiesta di servizio di valutazione dell'AI generativa | 60 secondi |
Quote di valutazione della pipeline
Se ricevi un errore relativo alle quote durante l'utilizzo del servizio di pipeline di valutazione, potresti dover presentare una richiesta di aumento della quota. Per ulteriori informazioni, consulta Visualizzare e gestire le quote. Il servizio delle pipeline di valutazione utilizza Vertex AI Pipelines per eseguirePipelineJobs
. Consulta le quote pertinenti per Vertex AI Pipelines. Di seguito sono riportati alcuni consigli generali sulle quote:
Servizio | Quota | Consiglio |
---|---|---|
API Vertex AI | Job di previsione batch LLM simultanei per regione | Su base punto: 1 * num_pipeline_concurrenti In coppia: 2 * num_pipeline_concurrenti |
API Vertex AI | Richieste di valutazione al minuto per regione | 1000 * num_concurrent_pipelines |
Tasks | Quota | Modello di base | Consiglio |
---|---|---|---|
summarization question_answering |
Richieste di previsione online per modello base al minuto per regione per base_model | text-bison |
60 * num_concurrent_pipelines |
Vertex AI Pipelines
Ogni job di ottimizzazione utilizza Vertex AI Pipelines. Per ulteriori informazioni, consulta Quote e limiti di Vertex AI Pipelines.
Vertex AI Reasoning Engine
Le seguenti quote e limiti si applicano al motore di ragionamento Vertex AI per un determinato progetto in ogni regione.Quota | Valore |
---|---|
Creazione/eliminazione/aggiornamento del motore di ragionamento al minuto | 10 |
Motore di ragionamento Query/StreamQuery al minuto | 60 |
Numero massimo di risorse del motore di ragionamento | 100 |
Risolvere i problemi relativi al codice di errore 429
Per risolvere il problema relativo all'errore 429, consulta la sezione Codice di errore 429.
Passaggi successivi
- Per scoprire di più sulla quota condivisa dinamica, consulta Quota condivisa dinamica.
- Per informazioni su quote e limiti per Vertex AI, consulta Quote e limiti di Vertex AI.
- Per scoprire di più sulle quote e sui limiti di Google Cloud , consulta Informazioni sui valori delle quote e sui limiti di sistema.