Una quota limita la quantità di una risorsa Google Cloud condivisa che può essere utilizzata dal progetto Google Cloud, inclusi hardware, software e componenti di rete. Pertanto, le quote fanno parte di un sistema che:
- Monitora il tuo utilizzo o consumo di prodotti e servizi Google Cloud.
- Limita il consumo di queste risorse, per motivi che includono la garanzia dell'equità e la riduzione dei picchi di utilizzo.
- Mantiene configurazioni che applicano automaticamente le limitazioni prescritte.
- Offre un mezzo per richiedere o modificare la quota.
Nella maggior parte dei casi, quando viene superata una quota, il sistema blocca immediatamente l'accesso alla risorsa Google pertinente e l'attività che stai tentando di eseguire ha esito negativo. Nella maggior parte dei casi, le quote si applicano a ogni progetto Google Cloud e sono condivise tra tutte le applicazioni e gli indirizzi IP che utilizzano il progetto Google Cloud.
Quote per regione e modello
La quota di query al minuto (QPM) si applica a un modello di base e a tutte le versioni,
gli identificatori e le versioni ottimizzate di quel modello. Ad esempio, una richiesta a
text-bison
e una richiesta a text-bison@001
vengono conteggiate come due richieste
per la quota QPM del modello di base, text-bison
. Analogamente, una richiesta a text-bison@001
e text-bison@002
viene conteggiata come due richieste per la quota QPM del modello di base, text-bison
. Lo stesso vale per i modelli ottimizzati, per cui una richiesta a chat-bison@002
e un modello ottimizzato basato su chat-bison@002
denominato my-tuned-chat-model
vengono conteggiate come due richieste per il modello di base, chat-bison
.
Le quote si applicano alle richieste di IA generativa sulle richieste di Vertex AI per un determinato progetto Google Cloud e regione supportata.
Per visualizzare le quote nella console Google Cloud, segui questi passaggi:
- Nella console Google Cloud, vai alla pagina Quote di IAM e amministrazione.
Nel campo Filtro, specifica la dimensione o la metrica.
Dimensione:l'identificatore del modello. Ad esempio,
base_model:gemini-1.0-pro
obase_model:text-bison
.Metrica:l'identificatore della quota.
- Per i modelli Gemini:
aiplatform.googleapis.com/generate_content_requests_per_minute_per_project_per_base_model
- Per i modelli PaLM 2:
aiplatform.googleapis.com/online_prediction_requests_per_base_model
- Per i modelli Gemini:
Scegli una regione per visualizzare i limiti di quota per ogni modello disponibile:
Quote batch
Le quote e i limiti seguenti sono gli stessi in tutte le regioni per i job di previsione batch di Generative AI su Vertex AI:
Quota | Valore |
---|---|
text_bison_concurrent_batch_prediction_jobs |
4 |
code_bison_concurrent_batch_prediction_jobs |
4 |
textembedding_gecko_concurrent_batch_prediction_jobs |
4 |
Quote dei modelli con addestramento personalizzato
Le seguenti quote si applicano a Generative AI sui modelli ottimizzati di Vertex AI per un determinato progetto e una determinata regione:
Quota | Valore |
---|---|
Core dei pod TPU V3 per l'addestramento di immagini limitati per regione * Regione supportata - europe-west4 |
64 |
Addestramento immagini limitato Nvidia A100 con 80 GB di GPU per regione * Regione supportata - us-central1 * Regione supportata - us-east4 |
8 2 |
* Gli scenari di ottimizzazione hanno prenotazioni dell'acceleratore in regioni specifiche. Le quote per l'ottimizzazione sono supportate e devono essere richieste in regioni specifiche.
Quote di valutazione online
Il servizio online di valutazione utilizza il modello text-bison
come responsabile della valutazione automatica con messaggi e meccanismi IP di Google per garantire una valutazione coerente e obiettiva delle metriche basate su modelli.
Una singola richiesta di valutazione per una metrica basata su modello potrebbe comportare più richieste sottostanti al servizio di previsione online. La quota di ogni modello viene calcolata in base al progetto, il che significa che le richieste indirizzate a text-bison
per l'inferenza del modello e la valutazione basata su modello contribuiscono alla quota. Le quote di modelli diversi vengono impostate in modo diverso. Nella tabella sono mostrate la quota per il servizio di valutazione e quella per il modello di provider automatico sottostante.
Quota per le richieste | Quota predefinita |
---|---|
Richieste di servizi di valutazione online al minuto | 1000 richieste per progetto per regione |
Richieste di previsione online al minuto per base_model, base_model: text-bison |
1600 richieste per progetto per regione |
Se ricevi un errore relativo alle quote durante l'utilizzo del servizio di valutazione online, potresti dover inviare una richiesta di aumento della quota. Per ulteriori informazioni, consulta Visualizzazione e gestione delle quote.
Limite | Valore |
---|---|
Timeout della richiesta del servizio di valutazione online | 60 secondi |
I nuovi utenti del servizio di valutazione online all'interno di un nuovo progetto potrebbero riscontrare un ritardo iniziale nella configurazione, in genere fino a due minuti. Questa procedura deve essere eseguita una sola volta. Se la prima richiesta non va a buon fine, attendi qualche minuto e riprova. Le richieste di valutazione successive in genere vengono completate entro 60 secondi.
Il numero massimo di token di input e di output è limitato per le metriche basate su modello in base al modello utilizzato come classificatore automatico. Consulta Informazioni sul modello | IA generativa su Vertex AI | Google Cloud per i limiti per i modelli pertinenti.
LlamaIndex sulle quote di Vertex AI
Le seguenti quote riguardano l'esecuzione di RAG (retrieval-augmented Generation) utilizzando LlamaIndex su Vertex AI:
Servizio | Quota |
---|---|
LlamaIndex sulle API di gestione dei dati Vertex AI | 60 richieste al minuto (RPM) |
RetrievalContexts API |
1.500 rpm |
Importazione dati | 1000 file |
La quota dell'API Embedding del testo textembedding-gecko@003
viene utilizzata per l'indicizzazione dei documenti. Valuta la possibilità di aumentare la quota per ottenere le migliori prestazioni di indicizzazione.
Quote di valutazione della pipeline
Se ricevi un errore relativo alle quote durante l'utilizzo del servizio delle pipeline di valutazione, potresti dover presentare una richiesta di aumento della quota. Per ulteriori informazioni, consulta Visualizzazione e gestione delle quote.
Il servizio delle pipeline di valutazione utilizza Vertex AI Pipelines per eseguire
PipelineJobs
. Consulta le quote pertinenti per
Vertex AI Pipelines. Di seguito sono riportati alcuni suggerimenti generali sulle quote:
Servizio | Quota | Suggerimento |
---|---|---|
API Vertex AI | Job simultanei di previsione batch LLM per regione | A livello di punto: 1 * num_concurrent_pipelines Pairwise: 2 * num_concurrent_pipelines |
API Vertex AI | Richieste di valutazione al minuto per regione | 1000 * num_pipeline_concurrent |
Inoltre, nel calcolo delle metriche di valutazione basate su modello, il responsabile della valutazione automatica potrebbe raggiungere problemi di quota. La quota pertinente dipende dal classificatore automatico utilizzato:
Attività | Quota | Modello di base | Suggerimento |
---|---|---|---|
summarization question_answering |
Richieste di previsione online per modello base al minuto per regione per base_model | text-bison |
60 * num_pipeline_concorrenti |
Vertex AI Pipelines
Ogni job di ottimizzazione utilizza Vertex AI Pipelines. Per ulteriori informazioni, consulta Quote e limiti di Vertex AI Pipelines.
Aumenti di quota
Se vuoi aumentare una qualsiasi delle quote per Generative AI su Vertex AI, puoi utilizzare la console Google Cloud per richiedere un aumento della quota. Per scoprire di più sulle quote, consulta Utilizzare le quote.
Passaggi successivi
- Scopri di più su quote e limiti di Vertex Generative AI.