Limiti di quota per i modelli precedenti

Questa pagina fornisce informazioni sulle quote e sui limiti dei modelli precedenti. I modelli di una famiglia di modelli legacy non vengono più aggiornati con nuove versioni stabili. Per maggiori dettagli, consulta Informazioni sul modello precedente.

Google Cloud utilizza le quote per garantire equità e ridurre dei picchi di utilizzo e disponibilità delle risorse. Una quota limita la quantità di una risorsa Google Cloud che può essere utilizzata nel progetto Google Cloud. Le quote si applicano a una serie di tipi di risorse, inclusi hardware, software e componenti di rete. Ad esempio, le quote possono limitare il numero di chiamate API a un servizio, il numero di bilanciatori del carico utilizzati contemporaneamente dal tuo progetto o il numero di progetti che puoi creare. Le quote proteggono la community per gli utenti di Google Cloud evitando il sovraccarico dei servizi. Le quote ti aiutano anche a gestire le tue risorse Google Cloud.

Il sistema Cloud Quotas esegue le seguenti operazioni:

  • Monitora il tuo consumo dei prodotti e dei servizi Google Cloud
  • Limita il tuo consumo di queste risorse
  • Consente di richiedere modifiche al valore della quota

Nella maggior parte dei casi, quando provi a utilizzare una risorsa per un volume maggiore di quello consentito dalla quota, il sistema blocca l'accesso alla risorsa e l'attività che stai tentando di eseguire non va a buon fine.

In genere, le quote si applicano a livello di progetto Google Cloud. L'utilizzo di una risorsa in un progetto non influisce sulla quota disponibile in un altro progetto. All'interno di un progetto Google Cloud, le quote sono condivise tra tutte le applicazioni e gli indirizzi IP.

Quote per regione e modello

La quota di richieste al minuto (RPM) si applica a un modello di base e a tutte le versioni. identificatori e versioni ottimizzate del modello. Ad esempio, una richiesta a text-bison e una richiesta a text-bison@002 vengono conteggiate come due richieste per la quota RPM del modello di base, text-bison. Lo stesso vale per di grandi dimensioni, quindi una richiesta a chat-bison@002 e un modello ottimizzato basata Le chat-bison@002 denominate my-tuned-chat-model vengono conteggiate come due richieste ai fini il modello di base, chat-bison.

Le quote si applicano alle richieste di AI generativa su Vertex AI per un determinato progetto Google Cloud e una regione supportata.

Per visualizzare le quote nella console Google Cloud:

  1. Nella console Google Cloud, vai alla pagina Quote di IAM e amministrazione.

    Visualizzare le quote nella console

  2. Nel campo Filtro, specifica la dimensione o la metrica.

    • Dimensione:l'identificatore del modello. Ad esempio, base_model:gemini-1.0-pro o base_model:text-bison.

    • Metrica: l'identificatore della quota per i modelli PaLM 2 è aiplatform.googleapis.com/online_prediction_requests_per_base_model

Scegli una regione per visualizzare i limiti di quota per ogni modello disponibile:

Quote batch

Le quote e i limiti seguenti sono uguali nelle regioni per IA generativa su job di previsione batch di Vertex AI:

Quota Valore
text_bison_concurrent_batch_prediction_jobs 4
code_bison_concurrent_batch_prediction_jobs 4

Quote dei modelli con addestramento personalizzato

Le seguenti quote si applicano ai modelli ottimizzati di AI generativa su Vertex AI per un determinato progetto e una determinata regione:

Quota Valore
Core dei pod TPU V3 di addestramento delle immagini limitati per regione
* Regione supportata - europe-west4
64
Addestramento delle immagini limitato per GPU Nvidia A100 da 80 GB per regione
* Regione supportata - us-central1
* Regione supportata - us-east4

8
2

* Gli scenari di ottimizzazione prevedono prenotazioni degli acceleratori in regioni specifiche. Le quote per la regolazione sono supportate e devono essere richieste in regioni specifiche.

Quote di valutazione online

Il servizio online di valutazione utilizza il modello text-bison come strumento di valutazione automatica con l'IP di Google di prompt e di meccanismi per garantire una valutazione coerente e obiettiva basate su modelli.

Una singola richiesta di valutazione per una metrica basata su modello può generare più le richieste sottostanti al servizio di previsione online. La quota di ogni modello viene calcolata in base al progetto, il che significa che tutte le richieste indirizzate a text-bison per l'inferenza del modello e la valutazione basata sul modello contribuiscono alla quota. Le quote dei modelli sono impostate in modo diverso. La quota per il servizio di valutazione e la quota per il modello di autoregolamentazione sottostante sono riportate nella tabella.

Quota per le richieste Quota predefinita
Richieste di servizio di valutazione online al minuto 1000 richieste per progetto per regione
Richieste di previsione online al minuto per base_model, base_model: text-bison 1600 richieste per progetto per regione

Se ricevi un errore relativo alle quote durante l'utilizzo del servizio di valutazione online, potresti dover presentare una richiesta di aumento della quota. Consulta Visualizzare e gestire le quote per ulteriori informazioni.

Limite Valore
Timeout della richiesta di servizio di valutazione online 60 secondi

Gli utenti che utilizzano per la prima volta il servizio di valutazione online in un nuovo progetto potrebbero riscontrare un ritardo nella configurazione iniziale generalmente fino a due minuti. Si tratta di un processo che viene eseguito una sola volta. Se la prima richiesta non va a buon fine, attendi qualche minuto e riprova. Le richieste di valutazione successive vengono generalmente completate entro 60 secondi.

Il numero massimo di token di input e output è limitato per le metriche basate su modello in base al modello utilizzato come autore. Per i limiti dei modelli pertinenti, consulta Informazioni sui modelli | IA generativa su Vertex AI | Google Cloud.

Quote di valutazione della pipeline

Se ricevi un errore relativo alle quote mentre utilizzi le pipeline di valutazione servizio, potresti dover inviare una quota richiesta di aumento. Vedi Visualizzare e gestire le quote per ulteriori informazioni.

Il servizio di pipeline di valutazione utilizza Vertex AI Pipelines per eseguire PipelineJobs. Consulta le quote pertinenti per Vertex AI Pipelines. Di seguito sono riportati alcuni suggerimenti generali per le quote:

Servizio Quota Consiglio
API Vertex AI Job di previsione batch LLM simultanei per regione Su base punto: 1 * num_pipeline_concurrenti

In coppia: 2 * num_pipeline_concurrenti
API Vertex AI Richieste di valutazione al minuto per regione 1000 * num_pipeline_concorrenti

Inoltre, quando si calcolano le metriche di valutazione basate su modello, potrebbero verificarsi problemi di quota. La quota pertinente dipende dallo strumento di valutazione automatica utilizzato:

Tasks Quota Modello di base Consiglio
summarization
question_answering
Richieste di previsione online per modello di base al minuto per regione per base_model text-bison 60 * num_pipeline_concurrent

Vertex AI Pipelines

Ogni job di ottimizzazione utilizza Vertex AI Pipelines. Per ulteriori informazioni, consulta Quote e limiti di Vertex AI Pipelines.

Aumenti di quota

Se vuoi aumentare una qualsiasi delle tue quote per l'AI generativa su Vertex AI, puoi usa la console Google Cloud per richiedere un aumento della quota. Per scoprire di più su quote, consulta Utilizzare le quote.

Passaggi successivi