Questa pagina è stata tradotta dall'API Cloud Translation.

Limiti di frequenza di IA generativa su Vertex AI

Google Cloud utilizza le quote per garantire equità e ridurre dei picchi di utilizzo e disponibilità delle risorse. Una quota limita la quantità di una risorsa Google Cloud che può essere utilizzata nel progetto Google Cloud. Le quote si applicano a una serie di tipi di risorse, inclusi hardware, software e componenti di rete. Ad esempio, le quote possono limitare il numero di chiamate API a un servizio, il numero di bilanciatori del carico utilizzati contemporaneamente dal tuo progetto o di progetti che puoi creare. Le quote proteggono la community degli utenti di Google Cloud impedendo il sovraccarico dei servizi. Anche le quote sono utili per gestire le tue risorse Google Cloud.

Il sistema Cloud Quotas esegue le seguenti operazioni:

Monitora il tuo consumo di prodotti e servizi Google Cloud
Limita il tuo consumo di queste risorse
Consente di richiedere modifiche al valore della quota

Nella maggior parte dei casi, quando provi a utilizzare una risorsa per un volume maggiore di quello consentito dalla quota, il sistema blocca l'accesso alla risorsa e l'attività che stai tentando di eseguire non va a buon fine.

In genere le quote si applicano al progetto Google Cloud livello. L'utilizzo di una risorsa in un progetto non influisce sulla quota disponibile in un altro progetto. All'interno di un progetto Google Cloud, le quote vengono condivise tra tutte le applicazioni e gli indirizzi IP.

Quote per regione e modello

La quota di richieste al minuto (RPM) si applica a un modello di base e a tutte le versioni. identificatori e versioni ottimizzate del modello. Gli esempi riportati di seguito mostrano come viene applicata la quota RPM:

Una richiesta al modello di base gemini-1.0-pro e una richiesta alla relativa versione stabile gemini-1.0-pro-001 vengono conteggiate come due richieste ai fini della quota RPM del modello di base gemini-1.0-pro.
Una richiesta a due versioni di un modello di base, gemini-1.0-pro-001 e gemini-1.0-pro-002, viene conteggiata come due richieste ai fini della quota RPM del modello di base, gemini-1.0-pro.
Una richiesta a due versioni di un modello di base, gemini-1.0-pro-001 e a la versione ottimizzata denominata my-tuned-chat-model, vengono conteggiate come due richieste il modello di base, gemini-1.0-pro.

Le quote si applicano alle richieste di IA generativa su Vertex AI per un determinato progetto Google Cloud e regione supportata.

Visualizzare le quote nella console Google Cloud

Per visualizzare le quote nella console Google Cloud:

Nella console Google Cloud, vai alla pagina Quote di IAM e amministrazione.

Visualizza le quote nella console
Nel campo Filtro, specifica la dimensione o la metrica.

Dimensione (identificatore del modello)	Metrica (identificatore della quota per i modelli Gemini)
`base_model: gemini-1.5-flash` `base_model: gemini-1.5-pro`	Puoi richiedere aggiustamenti nei seguenti casi: `aiplatform.googleapis.com/generate_content_requests_per_minute_per_project_per_base_model` `aiplatform.googleapis.com/generate_content_input_tokens_per_minute_per_base_model`
Tutti gli altri modelli	Puoi modificare una sola quota: `aiplatform.googleapis.com/generate_content_requests_per_minute_per_project_per_base_model`

Scegli una regione per visualizzare i limiti di quota per ogni modello disponibile:

Limiti di frequenza

I seguenti limiti di frequenza si applicano ai modelli elencati in tutte le regioni per metrica, generate_content_input_tokens_per_minute_per_base_model:

Modello di base	Token al minuto
`base_model: gemini-1.5-flash`	4 milioni (4.000.000)
`base_model: gemini-1.5-pro`	4 milioni (4.000.000)

Richieste batch

Le quote e i limiti per le richieste batch sono gli stessi in tutte le regioni.

Richieste batch in parallelo

La tabella seguente elenca le quote per il numero di richieste batch simultanee:

Quota	Valore
`aiplatform.googleapis.com/textembedding_gecko_concurrent_batch_prediction_jobs`	4
`aiplatform.googleapis.com/model_garden_oss_concurrent_batch_prediction_jobs`	1
`aiplatform.googleapis.com/gemini_pro_concurrent_batch_prediction_jobs`	1

Se il numero di attività inviate supera la quota allocata, le attività vengono inseriti in coda ed elaborati quando la capacità della quota diventa disponibile.

Limiti per le richieste batch

Nella tabella seguente sono elencati i limiti di dimensione di ciascun generazione di testo in batch richiesta.

Modello	Limite
`gemini-1.5-pro`	50.000 record
`gemini-1.5-flash`	150.000 record
`gemini-1.0-pro`	150.000 record
`gemini-1.0-pro-vision`	50.000 record

Quote dei modelli con addestramento personalizzato

Le seguenti quote si applicano ai modelli ottimizzati di AI generativa su Vertex AI per un determinato progetto e una determinata regione:

Quota	Valore
Core del pod TPU v3 per l'addestramento di immagini con limitazioni per regione * Regione supportata: europe-west4	64
Addestramento delle immagini limitato per GPU Nvidia A100 da 80 GB per regione * Regione supportata - us-central1 * Regione supportata - us-east4	8 2

* Gli scenari di ottimizzazione hanno prenotazioni di acceleratori in regioni specifiche. Le quote per l'ottimizzazione sono supportate e devono essere richieste in regioni.

Limiti di incorporamento del testo

Quando utilizzi il modello text-embedding-004 nella regione us-central1, il valore Il numero massimo di testi di input è 250. In altre regioni, il testo di input massimo è 5.

Ogni testo di input ha un limite di token di 2048.

Quote del servizio di valutazione dell'IA generativa

Gen AI Evaluation Service utilizza gemini-1.5-pro come modello di giudizio e meccanismi per garantire una valutazione coerente e oggettiva per le metriche basate su modelli.

Una singola richiesta di valutazione per una metrica basata su modello può generare più le richieste sottostanti al servizio di valutazione dell'IA generativa. La quota di ogni modello calcolato in base al progetto, il che significa che tutte le richieste indirizzate gemini-1.5-pro per l'inferenza del modello e la valutazione basata sul modello contribuiscono al quota. Le quote dei modelli sono impostate in modo diverso. La quota per la valutazione e la quota per il modello di valutazione automatica sottostante sono visualizzate nella tabella.

Quota per le richieste	Quota predefinita
Richieste di Gen AI Evaluation Service al minuto	1000 richieste per progetto per regione
Richieste di previsione online al minuto per `base_model: gemini-1.5-pro`	Consulta Quote per regione e modello.

Se ricevi un errore relativo alle quote durante l'utilizzo del servizio di valutazione dell'IA generativa, potresti dover presentare una richiesta di aumento della quota. Consulta Visualizzare e gestire le quote per ulteriori informazioni.

Limite	Valore
Tempo di attesa della richiesta del servizio di valutazione dell'IA generativa	60 secondi

Gli utenti che utilizzano per la prima volta il Servizio di valutazione dell'IA generativa in un nuovo progetto potrebbero riscontrare un ritardo di configurazione iniziale generalmente fino a due minuti. Si tratta di un evento che deve essere eseguito una sola volta e il processo di sviluppo. Se la prima richiesta non va a buon fine, attendi qualche minuto e riprova. Le richieste di valutazione successive in genere vengono completate entro 60 secondi.

Il numero massimo di token di input e output è limitato per le metriche basate su modello in base al modello utilizzato come autore. Vedi Informazioni modello | IA generativa su Vertex AI | Google Cloud per i limiti per i modelli pertinenti.

Quote di Knowledge Engine di Vertex AI

Per ogni servizio per eseguire RAG (Retrieval-Augmented Generation) utilizzando Vertex AI Knowledge Engine, si applicano le seguenti quote:

Servizio	Quota
LlamaIndex nelle API di gestione dei dati di Vertex AI	60 richieste al minuto (RPM)
`RetrievalContexts` API	1500 rpm
base_model: `textembedding-gecko`	1500 rpm
Richieste di previsione online¹	30.000 rpm
Importazione dati	1000 file

¹ Questa quota si applica solo agli endpoint pubblici. Gli endpoint privati di richieste illimitate al minuto.

Per altri limiti di frequenza e quote, consulta Limiti di frequenza dell'IA generativa su Vertex AI.

Quote di valutazione della pipeline

Se ricevi un errore relativo alle quote durante l'utilizzo del servizio per le pipeline di valutazione, potresti dover presentare una richiesta di aumento della quota. Vedi Visualizzare e gestire le quote per ulteriori informazioni.

Il servizio di pipeline di valutazione utilizza Vertex AI Pipelines per eseguire PipelineJobs. Consulta le quote pertinenti per Vertex AI Pipelines. Di seguito sono riportati alcuni consigli generali sulle quote:

Servizio	Quota	Consiglio
API Vertex AI	Job di previsione batch LLM simultanei per regione	Su base punto: 1 * num_pipeline_concurrenti In coppia: 2 * num_pipeline_concurrenti
API Vertex AI	Richieste di valutazione al minuto per regione	1000 * num_pipeline_concorrenti

Inoltre, quando si calcolano le metriche di valutazione basate su modello, potrebbero verificarsi problemi di quota. La quota pertinente dipende dallo strumento di valutazione automatica utilizzato:

Tasks	Quota	Modello di base	Consiglio
`summarization` `question_answering`	Richieste di previsione online per modello di base al minuto per regione per base_model	`text-bison`	60 * num_pipeline_concurrent

Vertex AI Pipelines

Ogni job di ottimizzazione utilizza Vertex AI Pipelines. Per ulteriori informazioni, consulta Quote e limiti di Vertex AI Pipelines.

Vertex AI Reasoning Engine

Le quote e i limiti seguenti si applicano a Vertex AI Reasoning Engine per un progetto specifico in ogni regione.

Quota	Valore
Creazione/eliminazione/aggiornamento motore di ragionamento al minuto	10
Motore di ragionamento delle query al minuto	60
Numero massimo di risorse del motore di ragionamento	100

Codice di errore `429`

Se il numero di richieste supera la capacità allocata per l'elaborazione richieste, viene restituito il codice di errore 429. Nella tabella seguente vengono visualizzati i messaggio di errore generato da ogni tipo di framework della quota:

Framework per le quote	Messaggio
Pagamento a consumo	`Resource exhausted, please try again later.`
Portata sottoposta a provisioning	`Too many requests. Exceeded the provisioned throughput.`

Con un abbonamento con portata sottoposta a provisioning, puoi riservare una quantità di portata per modelli di IA generativa specifici. Se non disponi di un account La sottoscrizione e le risorse per la velocità effettiva non sono disponibili per l'applicazione, quindi viene restituito un codice di errore 429. Anche se non hai una capacità riservata, puoi provare di nuovo a inviare la richiesta. Tuttavia, la richiesta non viene conteggiata ai fini del calcolo del tasso di errore come descritto nel tuo accordo sul livello del servizio (SLA).

Per i progetti che hanno acquistato la funzionalità Throughput Provisioning, Vertex AI misura la velocità effettiva di un progetto e la riserva in modo che sia disponibile. Quando utilizzi meno dell'importo del throughput acquistato, gli errori che altrimenti potrebbero essere restituiti come 429 vengono restituiti come 5XX e vengono conteggiati come parte del tasso di errore descritto nello SLA.

Pagamento a consumo

Nel framework delle quote con pagamento a consumo, sono disponibili le seguenti opzioni per risoluzione di 429 errori:

Implementare una strategia di ripetizione utilizzando backoff esponenziale troncato.
Se hai impostato una sostituzione del consumatore e la hai configurata per controllare il costo, aumenta il limite. Per ulteriori informazioni, vedi Quota condivisa dinamica.
Abbonati a Throughput Provisioning per un livello di servizio più coerente. Per ulteriori informazioni, consulta la sezione Portata sottoposta a provisioning.

Portata sottoposta a provisioning

Per correggere l'errore generato da Throughput Provisioning:

Utilizza l'esempio predefinito, che non imposta un'intestazione nelle richieste di previsione. Eventuali eccedenze vengono elaborati on demand e addebitati come pagamento a consumo.
Aumenta il numero di GSU nell'abbonamento con throughput pianificato.

Aumenti di quota

Se vuoi aumentare una qualsiasi delle tue quote per l'AI generativa su Vertex AI, puoi usa la console Google Cloud per richiedere un aumento della quota. Per scoprire di più su quote, consulta Utilizzare le quote.

Passaggi successivi

Per scoprire di più sulla quota condivisa dinamica, consulta Quota condivisa dinamica.
Per informazioni su quote e limiti per Vertex AI, consulta Quote e limiti di Vertex AI.
Per saperne di più sulle quote e sui limiti di Google Cloud, consulta Informazioni sui valori delle quote e sui limiti di sistema.