Una quota limita la quantità di una risorsa Google Cloud condivisa che un progetto Google Cloud può utilizzare, inclusi hardware, software e componenti di rete. Pertanto, le quote fanno parte di un sistema che:
- Monitora l'utilizzo o il consumo dei prodotti e dei servizi Google Cloud.
- Limita il consumo di queste risorse, per motivi che includono la garanzia di equità e la riduzione dei picchi di utilizzo.
- Mantiene le configurazioni che applicano automaticamente le limitazioni prescritte.
- Consente di richiedere o modificare la quota.
Nella maggior parte dei casi, quando viene superata una quota, il sistema blocca immediatamente l'accesso alla risorsa Google pertinente e l'attività che stai tentando di eseguire non riesce. Nella maggior parte dei casi, le quote vengono applicate a ogni progetto Google Cloud e vengono condivise tra tutte le applicazioni e gli indirizzi IP che utilizzano il progetto Google Cloud.
Quote per regione e modello
La quota per le richieste al minuto (RPM) si applica a un modello di base e a tutte le versioni,
gli identificatori e alle versioni ottimizzate di quel modello. Ad esempio, una richiesta a gemini-1.0-pro
e una richiesta a gemini-1.0-pro-001
vengono conteggiate come due richieste ai fini della quota RPM del modello di base, gemini-1.0-pro
.
Analogamente, una richiesta a gemini-1.0-pro-001
e gemini-1.0-pro-002
viene conteggiata come due richieste per la quota RPM del modello di base,
gemini-1.0-pro
. Lo stesso vale per i modelli ottimizzati, quindi una richiesta a
gemini-1.0-pro-001
e a un modello ottimizzato basato su gemini-1.0-pro-001
denominato my-tuned-chat-model
vengono conteggiate come due richieste verso il modello di base,
gemini-1.0-pro
.
Le quote si applicano alle richieste di IA generativa su Vertex AI per un determinato progetto Google Cloud e regione supportata.
Per visualizzare le quote nella console Google Cloud, segui questi passaggi:
- Nella console Google Cloud, vai alla pagina Quote di IAM e amministrazione.
Nel campo Filtro, specifica la dimensione o la metrica.
Dimensione:l'identificatore del modello. Ad esempio,
base_model:gemini-1.0-pro
obase_model:text-bison
.Metrica: l'identificatore della quota per i modelli Gemini è
aiplatform.googleapis.com/generate_content_requests_per_minute_per_project_per_base_model
Scegli una regione per visualizzare i limiti di quota per ogni modello disponibile:
Quote batch
Le quote e i limiti seguenti sono uguali in tutte le regioni per i job di previsione batch di IA generativa su Vertex AI:
Quota | Valore |
---|---|
textembedding_gecko_concurrent_batch_prediction_jobs |
4 |
Quote dei modelli con addestramento personalizzato
Le seguenti quote si applicano ai modelli ottimizzati di Generative AI su Vertex AI per un progetto e una regione specifici:
Quota | Valore |
---|---|
Core dei pod TPU V3 di addestramento delle immagini limitati per regione * Regione supportata - europe-west4 |
64 |
Addestramento delle immagini limitato per GPU Nvidia A100 da 80 GB per regione * Regione supportata - us-central1 * Regione supportata - us-east4 |
8 2 |
* Gli scenari di ottimizzazione prevedono prenotazioni degli acceleratori in regioni specifiche. Le quote per l'ottimizzazione sono supportate e devono essere richieste in regioni specifiche.
Quote di valutazione online
Il servizio online di valutazione utilizza il modello text-bison
come strumento di valutazione automatica con i meccanismi e i prompt IP di Google per garantire una valutazione coerente e obiettiva per le metriche basate sul modello.
Una singola richiesta di valutazione di una metrica basata su modello potrebbe generare più richieste sottostanti al servizio di previsione online. La quota di ogni modello viene calcolata
in base al singolo progetto, il che significa che tutte le richieste indirizzate a
text-bison
per l'inferenza del modello e la valutazione basata sul modello contribuiscono alla
quota. Le quote dei modelli sono impostate in modo diverso. La quota per il servizio di valutazione e la quota per il modello di valutazione automatica sottostante sono visualizzate nella tabella.
Quota per le richieste | Quota predefinita |
---|---|
Richieste di servizio di valutazione online al minuto | 1000 richieste per progetto per regione |
Richieste di previsione online al minuto per base_model, base_model: text-bison |
1600 richieste per progetto per regione |
Se ricevi un errore relativo alle quote durante l'utilizzo del servizio online di valutazione, potresti dover presentare una richiesta di aumento della quota. Per ulteriori informazioni, consulta Visualizzare e gestire le quote.
Limite | Valore |
---|---|
Timeout della richiesta del servizio di valutazione online | 60 secondi |
I nuovi utenti del servizio di valutazione online all'interno di un nuovo progetto potrebbero riscontrare un ritardo di configurazione iniziale in genere di due minuti. Si tratta di un processo una tantum. Se la prima richiesta non va a buon fine, attendi qualche minuto e poi riprova. Le richieste di valutazione successive in genere vengono completate entro 60 secondi.
Il numero massimo di token di input e output è limitato per le metriche basate sul modello in base al modello utilizzato come classificatore automatico. Consulta Informazioni sui modelli | IA generativa su Vertex AI | Google Cloud per i limiti relativi ai modelli pertinenti.
Quote di LlamaIndex su Vertex AI per RAG
Le seguenti quote si riferiscono all'esecuzione di RAG (Retrieval-augmented Generation) utilizzando LlamaIndex su Vertex AI:
Servizio | Quota |
---|---|
LlamaIndex sulle API di gestione dei dati di Vertex AI | 60 richieste al minuto (RPM) |
RetrievalContexts API |
1.500 rpm |
base_model: textembedding-gecko |
1.500 rpm |
Richieste di previsione online1 | 30.000 rpm |
Importazione dati | 1000 file |
1 Questa quota si applica solo agli endpoint pubblici. Gli endpoint privati hanno richieste illimitate al minuto.
Quote di valutazione della pipeline
Se ricevi un errore relativo alle quote mentre utilizzi il servizio pipeline di valutazione, potresti dover presentare una richiesta di aumento della quota. Per ulteriori informazioni, consulta Visualizzare e gestire le quote.
Il servizio di pipeline di valutazione utilizza Vertex AI Pipelines per eseguire
PipelineJobs
. Vedi le quote pertinenti per
Vertex AI Pipelines. Di seguito sono riportati alcuni suggerimenti generali per le quote:
Servizio | Quota | Suggerimento |
---|---|---|
API Vertex AI | Job di previsione batch LLM simultanei per regione | A punta: 1 * num_concurrent_pipelines Pairwise: 2 * num_concurrent_pipelines |
API Vertex AI | Richieste di valutazione al minuto per regione | 1000 * num_pipeline_concorrenti |
Inoltre, durante il calcolo delle metriche di valutazione basata su modello, lo strumento di valutazione automatica potrebbe riscontrare problemi di quota. La quota pertinente dipende dallo strumento di valutazione automatica utilizzato:
Attività | Quota | Modello di base | Suggerimento |
---|---|---|---|
summarization question_answering |
Richieste di previsione online per modello di base al minuto per regione per base_model | text-bison |
60 * num_pipeline_concurrent |
Vertex AI Pipelines
Ogni job di ottimizzazione utilizza Vertex AI Pipelines. Per ulteriori informazioni, consulta Quote e limiti di Vertex AI Pipelines.
Quota condivisa dinamica
Per i servizi che supportano la quota dinamica condivisa, Google Cloud distribuisce la capacità on demand tra tutte le query in elaborazione. Questa funzionalità elimina la necessità di inviare richieste di aumento della quota (QIR).
Per applicare un override del consumer al progetto come misura per il controllo dei costi ed evitare il superamento del budget, consulta Creazione di un override della quota consumer.
Se hai bisogno di una quantità massima specificata per la velocità effettiva, contatta il rappresentante del tuo account Google Cloud per informazioni sulla velocità effettiva sottoposta a provisioning.
Puoi anche monitorare l'utilizzo tramite Quote e limiti di sistema nella console Google Cloud.
Per informazioni sui modelli che supportano la quota dinamica condivisa, consulta Utilizzare i modelli Claude di Anthropic.
Esempio di come funziona la quota condivisa dinamica
Google Cloud esamina la capacità disponibile in una regione specifica, come Nord America, e poi controlla quanti clienti inviano le richieste. Consideriamo il cliente A, che invia 25 query al minuto (QPM), e il cliente B, che invia 25 QPM. Il servizio può supportare 100 QPM. Se il cliente A aumenta la frequenza delle query a 75 QPM, la quota condivisa dinamica supporta l'aumento. Se il cliente A aumenta la frequenza delle proprie query a 100 QPM, la quota condivisa dinamica limita il cliente A a 75 QPM per continuare a servire il cliente B alle 25 QPM.
Per risolvere gli errori che potrebbero verificarsi durante l'uso della quota dinamica condivisa, consulta Risolvere gli errori di quota.
Aumenti di quota
Se vuoi aumentare una qualsiasi delle tue quote per l'IA generativa su Vertex AI, puoi utilizzare la console Google Cloud per richiedere un aumento della quota. Per scoprire di più sulle quote, consulta Utilizzo delle quote.
Passaggi successivi
- Scopri di più su quote e limiti di Vertex AI.
- Scopri di più su quote e limiti di Google Cloud.