Questo documento elenca le quote e i limiti di sistema che si applicano a Dataflow.
- Le quote specificano la quantità di una risorsa condivisa e conteggiabile che puoi utilizzare. Le quote sono definite dai servizi Google Cloud , come Dataflow.
- I limiti di sistema sono valori fissi che non possono essere modificati.
Google Cloud utilizza le quote per contribuire a garantire l'equità e ridurre gli picchi di utilizzo e disponibilità delle risorse. Una quota limita la quantità di una risorsaGoogle Cloud che può essere utilizzata nel progetto Google Cloud . Le quote si applicano a una serie di tipi di risorse, inclusi hardware, software e componenti di rete. Ad esempio, le quote possono limitare il numero di chiamate API a un servizio, il numero di bilanciatori del carico utilizzati contemporaneamente dal tuo progetto o il numero di progetti che puoi creare. Le quote proteggono la community degli utenti diGoogle Cloud impedendo il sovraccarico dei servizi. Le quote ti aiutano anche a gestire le tue risorse Google Cloud .
Il sistema delle quote di Cloud esegue le seguenti operazioni:
- Monitora il consumo di prodotti e servizi Google Cloud
- Limita il consumo di queste risorse
- Fornisce un modo per richiedere modifiche al valore della quota
Nella maggior parte dei casi, quando provi a utilizzare una risorsa per un volume maggiore di quello consentito dalla quota, il sistema blocca l'accesso alla risorsa e l'attività che stai tentando di eseguire non va a buon fine.
In genere, le quote si applicano a livello di progetto Google Cloud . L'utilizzo di una risorsa in un progetto non influisce sulla quota disponibile in un altro progetto. All'interno di un progetto Google Cloud , le quote sono condivise tra tutte le applicazioni e gli indirizzi IP.
Per modificare la maggior parte delle quote, utilizza la console Google Cloud . Per ulteriori informazioni, consulta Richiedere un aggiustamento della quota.
Esistono inoltre limiti di sistema per le risorse Dataflow. I limiti di sistema non possono essere modificati.
Il servizio gestito Dataflow ha le seguenti quote e limiti:
- Ogni progetto Google Cloud può effettuare fino a 3.000.000 richieste al minuto.
- Ogni job Dataflow può utilizzare un massimo di 2000 istanze Compute Engine. Senza specificare una zona di worker, ogni job in streaming che utilizza Streaming Engine o ogni job batch che utilizza Dataflow Shuffle basato su servizio può utilizzare un massimo di 4000 istanze Compute Engine.
- Per impostazione predefinita, ogni progetto Google Cloud può eseguire al massimo 25 job Dataflow simultanei.
- Ogni worker Dataflow ha un limite massimo di log che può generare in un intervallo di tempo. Per il limite esatto, consulta la documentazione relativa alla registrazione.
- Se attivi le quote a livello di organizzazione, per impostazione predefinita ogni organizzazione può eseguire al massimo 125 job Dataflow contemporaneamente.
- Ogni utente può effettuare fino a 15.000 richieste di monitoraggio al minuto.
- Ogni utente può effettuare fino a 60 richieste di creazione di job al minuto.
- Ogni utente può effettuare fino a 60 richieste di modello di job al minuto.
- Ogni utente può effettuare fino a 60 richieste di aggiornamento dei job al minuto.
- Ogni progetto Google Cloud riceve i seguenti slot shuffle in ogni regione:
- asia-east1: 48 slot
- asia-northeast1: 24 slot
- asia-northeast3: 32 slot
- asia-south1: 64 slot
- asia-southeast1: 64 slot
- australia-southeast1: 24 slot
- europe-west1: 640 slot
- europe-west2: 32 slot
- europe-west3: 40 slot
- europe-west4: 512 slot
- northamerica-northeast1: 512 slot
- us-central1: 640 slot
- us-east1: 640 slot
- us-east4: 64 slot
- us-west1: 384 slot
- us-west2: 24 slot
- us-west3: 24 slot
- altre aree: 16 slot
- I job batch di Dataflow verranno annullati dopo 10 giorni.
Quote di Compute Engine
Quando esegui la pipeline sul servizio Dataflow, quest'ultimo crea le istanze di Compute Engine per eseguire il codice della pipeline.
La quota di Compute Engine viene specificata per area geografica. Controlla la quota di Compute Engine del progetto e, se necessario, richiedi le seguenti modifiche:
- CPU: nelle seguenti regioni, i tipi di macchine predefiniti per Dataflow sono
n1-standard-1
per la modalità batch,n1-standard-2
per i job che utilizzano Streaming Engine,n1-standard-4
per i job in streaming che non utilizzano Streaming Engine en1-standard-2
per i job che utilizzano la pianificazione delle risorse flessibili (FlexRS). FlexRS utilizza un 90% di VM prerilasciabili e un 10% di VM standard.asia-east1
asia-east2
asia-northeast1
asia-northeast2
asia-northeast3
asia-south1
asia-south2
asia-southeast1
asia-southeast2
australia-southeast1
australia-southeast2
europe-central2
europe-north1
europe-west1
europe-west2
europe-west3
europe-west4
europe-west5
europe-west6
northamerica-northeast1
northamerica-northeast2
southamerica-east1
us-central1
us-central2
us-east1
us-east4
us-west1
us-west2
us-west3
us-west4
Per le altre regioni, i tipi di macchina predefiniti sono
e2-standard-2
per la modalità batch,e2-standard-2
per i job che utilizzano Streaming Engine,e2-standard-4
per i job in streaming che non utilizzano Streaming Engine ee2-standard-2
per i job che utilizzano FlexRS.Compute Engine calcola il numero di CPU sommando il conteggio totale delle CPU di ciascuna istanza. Ad esempio, l'esecuzione di 10 istanze
n1-standard-4
corrisponde a un conteggio totale di 40 CPU. Per una mappatura dei tipi di macchine in base al conteggio delle CPU, consulta Tipi di macchine di Compute Engine. - Indirizzi IP in uso: il numero di indirizzi IP in uso nel progetto deve essere sufficiente per poter gestire il numero desiderato di istanze. Per utilizzare 10 istanze di Compute Engine, sono necessari 10 indirizzi IP in uso.
- Persistent Disk: Dataflow collega Persistent Disk
a ciascuna istanza.
- Le dimensioni predefinite del disco sono di 250 GB per le pipeline in modalità batch e 400 GB per le pipeline in modalità flusso. Nel caso di 10 istanze, per impostazione predefinita sono necessari 2500 GB di Persistent Disk per un job batch.
- Le dimensioni predefinite del disco sono di 25 GB per le pipeline batch di Dataflow Shuffle.
- Le dimensioni predefinite del disco sono di 30 GB per le pipeline in modalità flusso di Streaming Engine.
- Attualmente, il servizio Dataflow è limitato a 15 dischi permanenti per istanza worker quando viene eseguito un job di streaming. Ogni disco permanente è locale per una singola macchina virtuale Compute Engine. Un rapporto 1:1 tra worker e dischi è l'allocazione minima delle risorse.
- L'utilizzo di Compute Engine si basa sul numero medio di worker, mentre l'utilizzo di Persistent Disk si basa sul valore esatto di
--maxNumWorkers
. I dischi permanenti vengono ridistribuiti in modo che ogni worker abbia un numero uguale di dischi collegati.
- Gruppi di istanze gestite a livello di regione: Dataflow esegue il deployment delle istanze di Compute Engine come gruppo di istanze gestite a livello di regione. Assicurati
che sia disponibile la seguente quota correlata:
- Un singolo gruppo di istanze per job Dataflow
- Un singolo modello di istanza per job Dataflow
- Un singolo gruppo di istanze gestite a livello di regione per job Dataflow
- Se i gruppi di istanze gestite non sono presenti per un job di streaming per più di 7 giorni, il job viene annullato.
- Se i gruppi di istanze gestite non sono presenti per un job batch per più di un'ora, il job viene annullato.
Quote aggiuntive
A seconda dei tipi di origini e sink che utilizzi, potresti aver bisogno di quote aggiuntive.
- Pub/Sub: se stai utilizzando Pub/Sub, potresti aver bisogno di una quota aggiuntiva. Quando pianifichi la quota, ricorda che l'elaborazione di 1 messaggio da Pub/Sub comporta 3 operazioni. Se utilizzi timestamp personalizzati, devi raddoppiare il numero previsto di operazioni poiché Cloud Dataflow creerà una sottoscrizione separata per tracciare i timestamp personalizzati.
- BigQuery: se stai utilizzando l'API di flusso per BigQuery, vengono applicati limiti di quota e altre restrizioni.
Trovare e aumentare le quote
Puoi controllare l'utilizzo corrente della quota specifica di Dataflow in questo modo:
- Nella console Google Cloud , vai a API e servizi.
Vai su API e servizi - Per controllare il tuo attuale utilizzo delle quote degli slot Shuffle, nella scheda Quote, individua la riga Slot Shuffle nella tabella e fai clic su Mostra grafico di utilizzo nella colonna Grafico di utilizzo.
Se vuoi aumentare la quota di job, contatta l'assistenzaGoogle Cloud e aumenteremo il limite a un valore più adatto alle tue esigenze. La quota predefinita è di 25 job Dataflow simultanei per il progetto o di 125 job Dataflow simultanei per l'organizzazione.
Inoltre, puoi aumentare la quota degli slot Shuffle per i job batch inviando una richiesta di assistenza e specificando la dimensione massima prevista del set di dati Shuffle simultaneo per tutti i job nel progetto. Prima di richiedere una quota Shuffle aggiuntiva, esegui la pipeline utilizzando Dataflow Shuffle e verifica l'utilizzo effettivo della quota Shuffle.
Per i job di flussi, puoi aumentare la velocità effettiva di Streaming Engine inviando una richiesta di assistenza all'assistenza Google Cloud Platform. Nella richiesta, specifica la quantità massima di dati che vuoi ridistribuire tra worker ogni minuto per ogni area geografica in cui viene eseguito il job.
Il servizio Dataflow utilizza anche vari componenti di Google Cloud, come BigQuery, Cloud Storage, Pub/Sub, e Compute Engine. Questi e altri servizi Google Cloud utilizzano le quote per limitare il numero massimo di risorse che è possibile utilizzare in un progetto. Quando utilizzi Dataflow, potresti dover modificare le impostazioni delle quote per questi servizi.
Dataflow Prime
Le quote e i limiti sono gli stessi per Dataflow e Dataflow Prime. Se hai quote per Dataflow, non hai bisogno di quote aggiuntive per eseguire i tuoi job utilizzando Dataflow Prime.
Limiti
Questa sezione descrive i limiti di produzione pratici per Dataflow.
Limite | Importo |
---|---|
Numero massimo di worker per pipeline. | 2000 |
Dimensione massima per una richiesta di creazione job. Le descrizioni di pipeline con molti passaggi e nomi eccessivamente dettagliati potrebbero raggiungere questo limite. | 10 MB |
Dimensioni massime per una richiesta di lancio del modello. | 1 MB |
Numero massimo di shard di input aggiuntivi. | 20.000 |
Dimensioni massime per un singolo elemento (tranne nel caso in cui vengano applicate condizioni più severe, ad esempio Streaming Engine). | 2 GB |
Dimensione massima della chiave nelle pipeline batch. | 1,5 MB |
Numero massimo di voci di log in un dato periodo di tempo, per worker. | 15.000 messaggi ogni 30 secondi |
Numero massimo di metriche personalizzate per project. | 100 |
Periodo di tempo per cui i consigli verranno memorizzati. | 30 giorni |
Limiti di Streaming Engine | Importo |
---|---|
Numero massimo di byte per i messaggi Pub/Sub. | 7 MB |
Dimensioni minime per il valore di un singolo elemento. | 80 MB |
Dimensione massima di una chiave grande. Le chiavi di dimensioni superiori a 64 KB causano una riduzione delle prestazioni. | 2 MB |
Dimensione massima di un input aggiuntivo. | 80 MB |
Lunghezza massima per i tag stato utilizzati da TagValue e TagBag . |
64 KB |