AI Platform Prediction limita l'allocazione e l'utilizzo delle risorse e applica quote appropriate in base al singolo progetto. I criteri specifici variano a seconda della disponibilità delle risorse, del profilo utente, della cronologia di utilizzo dei servizi e di altri fattori e sono soggetti a modifiche senza preavviso.
Le sezioni seguenti descrivono gli attuali limiti di quota del sistema.
Limiti relativi alle richieste di servizio
È possibile effettuare solo un numero limitato di richieste API individuali per ciascun intervallo di 60 secondi. Ogni limite si applica a una specifica API o a un gruppo di API come descritto nelle seguenti sezioni.
Puoi visualizzare le quote per le richieste del progetto Gestore API per AI Platform Prediction sulla console Google Cloud. Per richiedere un aumento della quota, fai clic sull'icona di modifica accanto al limite della quota, quindi fai clic su Richiedi una quota più alta.
Richieste di job
I seguenti limiti sono applicabili alle richieste projects.jobs.create (job di addestramento e di previsione batch combinati):
Periodo | Limite |
---|---|
60 secondi | 60 |
Richieste di previsione online
I seguenti limiti sono applicabili alle richieste projects.predict:
Periodo | Limite |
---|---|
60 secondi | 600.000 |
Richieste di gestione delle risorse
I seguenti limiti sono applicabili al totale combinato di tutte le richieste supportate in questo elenco:
Richieste list per projects.jobs, projects.models, projects.models.versions e projects.operations.
Richieste get per projects.jobs, projects.models, projects.models.versions e projects.operations.
Richieste delete per projects.models e projects.models.versions.
Richieste create per projects.models e projects.models.versions.
Richieste cancel per projects.jobs e projects.operations.
Richieste per projects.models.versions.setDefault.
Periodo | Limite |
---|---|
60 secondi | 300 |
Inoltre, tutte le richieste delete elencate sopra e tutte le richieste create per le versioni sono limitate a 10 richieste totali combinate simultanee.
Quote per le risorse
Oltre ai limiti delle richieste nel tempo, esiste un limite all'utilizzo delle risorse, come descritto nell'elenco seguente:
- Numero massimo di modelli: 100.
- Numero massimo di versioni: 200. Il limite di versioni riguarda il numero totale di versioni nel progetto, che possono essere distribuite tra i modelli attivi come desiderato.
Limiti di dimensione dei modelli
Quando crei una versione del modello, le dimensioni totali dei file della directory del modello devono essere pari o inferiori a 500 MB se utilizzi un tipo di macchina legacy (MLS1) o pari o inferiori a 10 GB se utilizzi un tipo di macchina di Compute Engine (N1). Ulteriori informazioni sui tipi di macchine per la previsione online.
Non puoi richiedere un aumento di questi limiti di dimensione dei modelli.
Limiti all'uso simultaneo delle macchine virtuali
L'utilizzo delle risorse di elaborazione di Google Cloud da parte del tuo progetto viene misurato mediante il numero di macchine virtuali utilizzate. Questa sezione descrive i limiti previsti per l'uso simultaneo di queste risorse nel progetto.
Limiti sui nodi simultanei per la previsione batch
Un progetto tipico che utilizza AI Platform Prediction per la prima volta ha a disposizione un numero limitato di nodi simultanei per la previsione batch:
- Numero simultaneo di nodi di previsione: 72.
Utilizzo di nodi per la previsione online
AI Platform Prediction non applica quote per l'utilizzo dei nodi per la previsione online. Ulteriori informazioni su nodi di previsione e allocazione di risorse.
Limiti all'uso simultaneo di vCPU per la previsione online
Un progetto tipico, quando si utilizza AI Platform Prediction per la prima volta, è limitato al seguente numero di vCPU simultanee su ciascun endpoint a livello di area geografica quando si utilizzano tipi di macchine Compute Engine (N1). Diversi endpoint a livello di area geografica potrebbero avere quote diverse e le quote per il tuo progetto potrebbero cambiare nel tempo.
Numero totale simultaneo di vCPU su ciascun endpoint a livello di area geografica:
us-central1
: 450us-east1
: 450us-east4
: 20us-west1
: 450northamerica-northeast1
: 20europe-west1
: 450europe-west2
: 20europe-west3
: 20europe-west4
: 450asia-east1
: 450asia-northeast1
: 20asia-southeast1
: 450australia-southeast1
: 20
Queste sono le quote predefinite, e puoi richiedere un aumento delle quote.
Limiti all'uso simultaneo di GPU per la previsione online
Un progetto tipico, quando si utilizza per la prima volta AI Platform Prediction, è limitato al seguente numero di GPU simultanee su ciascun endpoint a livello di area geografica. Diversi endpoint a livello di area geografica potrebbero avere quote diverse e le quote per il tuo progetto potrebbero cambiare nel tempo.
Numero totale simultaneo di GPU: questo è il numero massimo di GPU in uso simultaneo, suddiviso per tipo e endpoint a livello di area geografica come segue:
- Numero di GPU simultanee Tesla P4:
us-central1
: 2us-east4
: 2northamerica-northeast1
: 2europe-west4
: 2asia-southeast1
: 2australia-southeast1
: 2
- Numero di GPU simultanee Tesla P100:
us-central1
: 30us-east1
: 30us-west1
: 30europe-west1
: 30asia-southeast1
: 30
- Numero di GPU simultanee Tesla T4:
us-central1
: 6us-east1
: 6us-west1
: 6europe-west2
: 2europe-west4
: 6asia-northeast1
: 2asia-southeast1
: 6
- Numero di GPU simultanee Tesla V100:
us-central1
: 2us-west1
: 2europe-west4
: 2
Queste sono le quote predefinite, e puoi richiedere un aumento delle quote.
Le GPU utilizzate per la previsione non vengono conteggiate come GPU per Compute Engine e la quota per AI Platform Prediction non consente l'accesso a nessuna VM di Compute Engine che utilizza le GPU. Se vuoi avviare una VM di Compute Engine che utilizza una GPU, devi richiedere una quota GPU di Compute Engine, come descritto nella documentazione di Compute Engine.
Per ulteriori informazioni, consulta la pagina su come utilizzare le GPU per la previsione online.
Richiesta di aumento della quota
Le quote elencate in questa pagina sono assegnate in base al singolo progetto e possono aumentare nel tempo in base all'utilizzo. Se hai bisogno di maggiore capacità di elaborazione, puoi richiedere un aumento della quota in uno dei seguenti modi:
Utilizza la console Google Cloud per richiedere aumenti di quote elencato in Gestore API per AI Platform Prediction:
Individua la sezione della quota che vuoi aumentare.
Fai clic sull'icona a forma di matita accanto al valore della quota nella parte inferiore del grafico di utilizzo per quella quota.
Inserisci l'aumento richiesto:
Se il valore che vuoi richiedere è compreso nell'intervallo visualizzato nella finestra di dialogo del limite di quota, immetti il nuovo valore e fai clic su Salva.
Se vuoi aumentare la quota oltre il massimo visualizzato, fai clic su Richiedi una quota più alta e segui le istruzioni relative al secondo metodo per richiedere un aumento.
Se vuoi aumentare una quota non elencata nella console Google Cloud, ad esempio le quote GPU, utilizza il modulo di richiesta quota per AI Platform per richiedere un aumento di quota. Queste richieste vengono gestite secondo il criterio del "best effort" il che significa che nella revisione di queste richieste non sono coinvolti accordi sul livello del servizio (SLA) o obiettivi del livello del servizio (SLO).
Passaggi successivi
- Ulteriori informazioni sulle basi di AI Platform.
- Informazioni sul ruolo svolto da AI Platform Prediction nelle soluzioni di machine learning.