Questa pagina fornisce informazioni sulle quote e sui limiti dei modelli precedenti. I modelli di una famiglia di modelli legacy non vengono più aggiornati con nuove versioni stabili. Per maggiori dettagli, vedi Informazioni sui modelli legacy.
Google Cloud utilizza le quote per contribuire a garantire l'equità e ridurre gli picchi di utilizzo e disponibilità delle risorse. Una quota limita la quantità di una risorsaGoogle Cloud che può essere utilizzata nel progetto Google Cloud . Le quote si applicano a una serie di tipi di risorse, inclusi hardware, software e componenti di rete. Ad esempio, le quote possono limitare il numero di chiamate API a un servizio, il numero di bilanciatori del carico utilizzati contemporaneamente dal tuo progetto o il numero di progetti che puoi creare. Le quote proteggono la community degli utenti diGoogle Cloud impedendo il sovraccarico dei servizi. Le quote ti aiutano anche a gestire le tue risorse Google Cloud .
Il sistema delle quote di Cloud esegue le seguenti operazioni:
- Monitora il consumo di prodotti e servizi Google Cloud
- Limita il consumo di queste risorse
- Fornisce un modo per richiedere modifiche al valore della quota
Nella maggior parte dei casi, quando provi a utilizzare una risorsa per un volume maggiore di quello consentito dalla quota, il sistema blocca l'accesso alla risorsa e l'attività che stai tentando di eseguire non va a buon fine.
In genere, le quote si applicano a livello di progetto Google Cloud . L'utilizzo di una risorsa in un progetto non influisce sulla quota disponibile in un altro progetto. All'interno di un progetto Google Cloud , le quote sono condivise tra tutte le applicazioni e gli indirizzi IP.
Quote per regione e modello
La quota di richieste al minuto (RPM) si applica a un modello di base e a tutte le versioni, gli identificatori e le versioni ottimizzate di quel modello. Ad esempio, una richiesta a text-bison
e una richiesta a text-bison@002
vengono conteggiate come due richieste ai fini della quota RPM del modello di base text-bison
. Lo stesso vale per i modelli ottimizzati, pertanto una richiesta a chat-bison@002
e un modello ottimizzato basato su chat-bison@002
denominato my-tuned-chat-model
vengono conteggiate come due richieste al modello di base chat-bison
.
Le quote si applicano alle richieste di AI generativa su Vertex AI per un determinato progettoGoogle Cloud e per la regione supportata.
Per visualizzare le quote nella console Google Cloud , segui questi passaggi:
- Nella console Google Cloud , vai alla pagina Quote di IAM e amministrazione.
Nel campo Filtro, specifica la dimensione o la metrica.
Dimensione: l'identificatore del modello. Ad esempio,
base_model:gemini-1.0-pro
obase_model:text-bison
.Metrica: l'identificatore della quota per i modelli PaLM 2 è
aiplatform.googleapis.com/online_prediction_requests_per_base_model
Scegli una regione per visualizzare i limiti di quota per ogni modello disponibile:
Quote batch
Le seguenti quote e limiti sono uguali in tutte le regioni per i job di previsione batch dell'AI generativa su Vertex AI:
Quota | Valore |
---|---|
text_bison_concurrent_batch_prediction_jobs |
4 |
code_bison_concurrent_batch_prediction_jobs |
4 |
Quote dei modelli con addestramento personalizzato
Le seguenti quote si applicano ai modelli ottimizzati di AI generativa su Vertex AI per un determinato progetto e una determinata regione:
Quota | Valore |
---|---|
Core del pod TPU v3 per l'addestramento di immagini con limitazioni per regione * Regione supportata: europe-west4 |
64 |
GPU NVIDIA A100 80 GB per regione per l'addestramento di immagini con limitazioni * Regione supportata: us-central1 * Regione supportata: us-east4 |
8 2 |
* Gli scenari di ottimizzazione hanno prenotazioni di acceleratori in regioni specifiche. Le quote per la regolazione sono supportate e devono essere richieste in regioni specifiche.
Quote di valutazione online
Il servizio online di valutazione utilizza il modello text-bison
come autore di testi automatici con prompt e meccanismi di proprietà di Google per garantire una valutazione coerente e oggettiva delle metriche basate su modelli.
Una singola richiesta di valutazione per una metrica basata su modello potrebbe comportare più richieste di base al servizio di previsione online. La quota di ogni modello viene calcolata in base al progetto, il che significa che tutte le richieste indirizzate a text-bison
per l'inferenza del modello e la valutazione basata sul modello contribuiscono alla quota. Le quote dei diversi modelli sono impostate in modo diverso. La quota per il servizio di valutazione e la quota per il modello di autoregolamentazione sottostante sono riportate nella tabella.
Quota per le richieste | Quota predefinita |
---|---|
Richieste di servizi di valutazione online al minuto | 1000 richieste per progetto per regione |
Richieste di previsione online al minuto per base_model, base_model: text-bison |
1600 richieste per progetto per regione |
Se ricevi un errore relativo alle quote durante l'utilizzo del servizio di valutazione online, potresti dover presentare una richiesta di aumento della quota. Per ulteriori informazioni, consulta Visualizzare e gestire le quote.
Limite | Valore |
---|---|
Timeout della richiesta di servizio di valutazione online | 60 secondi |
Gli utenti che utilizzano per la prima volta il servizio di valutazione online in un nuovo progetto potrebbero riscontrare un ritardo nella configurazione iniziale generalmente fino a due minuti. Si tratta di un processo che viene eseguito una sola volta. Se la prima richiesta non va a buon fine, attendi qualche minuto e riprova. Le richieste di valutazione successive vengono in genere completate entro 60 secondi.
Il numero massimo di token di input e output è limitato per le metriche basate su modello in base al modello utilizzato come autore. Consulta Informazioni sui modelli | IA generativa su Vertex AI | Google Cloud per i limiti per i modelli pertinenti.
Quote di valutazione della pipeline
Se ricevi un errore relativo alle quote durante l'utilizzo del servizio per le pipeline di valutazione, potresti dover presentare una richiesta di aumento della quota. Per ulteriori informazioni, consulta Visualizzare e gestire le quote.
Il servizio di pipeline di valutazione utilizza Vertex AI Pipelines per eseguire
PipelineJobs
. Consulta le quote pertinenti per
Vertex AI Pipelines. Di seguito sono riportati alcuni consigli generali sulle quote:
Servizio | Quota | Consiglio |
---|---|---|
API Vertex AI | Job di previsione batch LLM simultanei per regione | Su base punto: 1 * num_pipeline_concurrenti In coppia: 2 * num_pipeline_concurrenti |
API Vertex AI | Richieste di valutazione al minuto per regione | 1000 * num_concurrent_pipelines |
Inoltre, durante il calcolo delle metriche di valutazione basate su modelli, l'autoreattore potrebbe riscontrare problemi di quota. La quota pertinente dipende dall'autoreattore utilizzato:
Tasks | Quota | Modello di base | Consiglio |
---|---|---|---|
summarization question_answering |
Richieste di previsione online per modello base al minuto per regione per base_model | text-bison |
60 * num_concurrent_pipelines |
Vertex AI Pipelines
Ogni job di ottimizzazione utilizza Vertex AI Pipelines. Per ulteriori informazioni, consulta Quote e limiti di Vertex AI Pipelines.
Aumenti di quota
Se vuoi aumentare una delle quote per l'AI generativa su Vertex AI, puoi utilizzare la console Google Cloud per richiedere un aumento di quota. Per scoprire di più sulle quote, consulta Utilizzo delle quote.
Passaggi successivi
- Scopri di più su quote e limiti di Vertex AI.
- Scopri di più su quote e limiti di Google Cloud .