Quote e limiti

Questo documento elenca le quote e i limiti di sistema che si applicano a Dataflow. Le quote specificano la quantità di una risorsa condivisa conteggiabile che viene possono utilizzare e sono definite dai servizi Google Cloud come e Dataflow. I limiti di sistema sono valori fissi che non possono essere modificati.

Google Cloud utilizza le quote per contribuire a garantire l'equità e ridurre gli picchi di utilizzo e disponibilità delle risorse. Una quota limita la quantità di dati Risorsa Google Cloud utilizzabile dal progetto Google Cloud. Quote si applicano a una serie di tipi di risorse, tra cui hardware, software e componenti. Ad esempio, le quote possono limitare il numero di chiamate API a un servizio, il numero di bilanciatori del carico utilizzati contemporaneamente dal tuo progetto o di progetti che puoi creare. Le quote proteggono la community degli utenti di Google Cloud impedendo il sovraccarico dei servizi. Anche le quote sono utili per gestire le tue risorse Google Cloud.

Il sistema Cloud Quotas esegue le seguenti operazioni:

  • Monitora il tuo consumo dei prodotti e dei servizi Google Cloud
  • Limita il tuo consumo di queste risorse
  • Consente di richiedere modifiche al valore della quota

Nella maggior parte dei casi, quando provi a utilizzare una risorsa per un volume maggiore di quello consentito dalla quota, il sistema blocca l'accesso alla risorsa e l'attività che stai tentando di eseguire non va a buon fine.

In genere, le quote si applicano a livello di progetto Google Cloud. L'utilizzo di una risorsa in un progetto non influisce la quota disponibile in un altro progetto. All'interno di un progetto Google Cloud, le quote sono condivise tra tutte le applicazioni e gli indirizzi IP.

Per regolare la maggior parte delle quote, utilizza la console Google Cloud. Per ulteriori informazioni, vedi Richiedi un adeguamento della quota.

Esistono anche limiti di sistema per le risorse Dataflow. I limiti di sistema non possono essere modificati.

Il servizio gestito Dataflow prevede le quote e i limiti seguenti:

  • Ogni progetto Google Cloud può effettuare fino a 3.000.000 di richieste al minuto.
  • Ogni job Dataflow può utilizzare un massimo di 2000 istanze di Compute Engine. Senza specificare una zona di worker, ogni job in streaming che utilizza Streaming Engine o il job batch che utilizza Dataflow Shuffle basato su servizio può utilizzare un massimo di 4000 istanze Compute Engine.
  • Ogni progetto Google Cloud può eseguire al massimo 25 job Dataflow simultanei per impostazione predefinita.
  • Ogni worker Dataflow ha un limite massimo di log che può restituire in un intervallo di tempo. Per il limite esatto, consulta la documentazione relativa alla registrazione.
  • Se attivi le quote a livello di organizzazione, ogni organizzazione può essere eseguita al massimo 125 in contemporanea Job Dataflow per impostazione predefinita.
  • Ogni utente può effettuare fino a 15.000 richieste di monitoraggio al minuto.
  • Ogni utente può effettuare fino a 60 richieste di creazione di job al minuto.
  • Ogni utente può effettuare fino a 60 richieste di modello di job al minuto.
  • Ogni utente può effettuare fino a 60 richieste di aggiornamento dei job al minuto.
  • Ogni progetto Google Cloud riceve i seguenti slot shuffle in ogni area geografica:
    • asia-east1: 48 slot
    • asia-northeast1: 24 slot
    • asia-northeast3: 32 slot
    • asia-south1: 64 slot
    • asia-southeast1: 64 slot
    • australia-southeast1: 24 slot
    • europe-west1: 640 slot
    • europe-west2: 32 slot
    • europe-west3: 40 slot
    • europe-west4: 512 slot
    • northamerica-northeast1: 512 slot
    • us-central1: 640 slot
    • us-east1: 640 slot
    • us-east4: 64 slot
    • us-west1: 384 slot
    • us-west2: 24 slot
    • us-west3: 24 slot
    • altre aree: 16 slot
    16 slot sono sufficienti per eseguire lo shuffle di circa 10 TB di dati contemporaneamente.
  • I job batch di Dataflow verranno annullati dopo 10 giorni.

Quote di Compute Engine

Quando esegui la pipeline sul servizio Dataflow, quest'ultimo crea le istanze di Compute Engine per eseguire il codice della pipeline.

La quota di Compute Engine viene specificata per area geografica. Controlla la quota di Compute Engine del progetto e, se necessario, richiedi le seguenti modifiche:

  • CPU: nelle seguenti regioni, i tipi di macchine predefiniti per Dataflow sono n1-standard-1 per la modalità batch, n1-standard-2 per i job che utilizzano Streaming Engine, n1-standard-4 per i job in streaming che non utilizzano Streaming Engine e n1-standard-2 per i job che utilizzano la pianificazione delle risorse flessibili (FlexRS). FlexRS utilizza un 90% di VM prerilasciabili e un 10% di VM standard.
    • asia-east1
    • asia-east2
    • asia-northeast1
    • asia-northeast2
    • asia-northeast3
    • asia-south1
    • asia-south2
    • asia-southeast1
    • asia-southeast2
    • australia-southeast1
    • australia-southeast2
    • europe-central2
    • europe-north1
    • europe-west1
    • europe-west2
    • europe-west3
    • europe-west4
    • europe-west5
    • europe-west6
    • northamerica-northeast1
    • northamerica-northeast2
    • southamerica-east1
    • us-central1
    • us-central2
    • us-east1
    • us-east4
    • us-west1
    • us-west2
    • us-west3
    • us-west4

    Per le altre regioni, i tipi di macchina predefiniti sono e2-standard-2 per la modalità batch, e2-standard-2 per i job che utilizzano Streaming Engine, e2-standard-4 per i job in streaming che non utilizzano Streaming Engine e e2-standard-2 per i job che utilizzano FlexRS.

    Compute Engine calcola il numero di CPU sommando la CPU totale di ogni istanza conteggio. Ad esempio, l'esecuzione di 10 istanze n1-standard-4 corrisponde a un conteggio totale di 40 CPU. Per una mappatura dei tipi di macchine al conteggio delle CPU, consulta Tipi di macchine di Compute Engine.

  • Indirizzi IP in uso: il numero di indirizzi IP in uso nel progetto deve essere sufficiente per poter gestire il numero desiderato di istanze. Per utilizzare 10 istanze di Compute Engine, sono necessari 10 indirizzi IP in uso.
  • Persistent Disk: Dataflow collega Persistent Disk a ciascuna istanza.
    • Le dimensioni predefinite del disco sono di 250 GB per la versione batch e di 400 GB per la versione in batch pipeline di flusso. Nel caso di 10 istanze, per impostazione predefinita sono necessari 2500 GB di Persistent Disk per un job batch.
    • Le dimensioni predefinite del disco sono di 25 GB per le pipeline batch di Dataflow Shuffle.
    • Le dimensioni predefinite del disco sono di 30 GB per le pipeline in modalità flusso di Streaming Engine.
    • Attualmente, il servizio Dataflow è limitato a 15 dischi permanenti per istanza di worker quando viene eseguito un job di streaming. Ogni disco permanente è locale in una macchina virtuale. Un rapporto 1:1 tra worker e dischi è l'allocazione minima delle risorse.
    • L'utilizzo di Compute Engine si basa sul numero medio di worker, mentre l'utilizzo di Persistent Disk l'utilizzo si basa sul valore esatto di --maxNumWorkers. I dischi permanenti sono vengono ridistribuiti in modo che ogni worker abbia lo stesso numero di dischi collegati.
  • Gruppi di istanze gestite a livello di regione: Dataflow esegue il deployment di Compute Engine come gruppo di istanze gestite a livello di regione. Assicurati che sia disponibile la seguente quota correlata:
    • Un singolo gruppo di istanze per job Dataflow
    • Un singolo modello di istanza per job Dataflow
    • Un solo gruppo di istanze gestite a livello di regione per job Dataflow
  • Se i gruppi di istanze gestite non sono presenti per un job di streaming per più di 7 giorni, il job viene annullato.
  • Se i gruppi di istanze gestite risultano mancanti per un job batch per più di un'ora, il job viene annullato.

Quote aggiuntive

A seconda dei tipi di origini e sink che utilizzi, potresti aver bisogno di quote aggiuntive.

  1. Pub/Sub: se stai utilizzando Pub/Sub, potresti aver bisogno di una quota aggiuntiva. Quando pianifichi la quota, ricorda che l'elaborazione di 1 messaggio da Pub/Sub comporta 3 operazioni. Se utilizzi timestamp personalizzati, devi raddoppiare il numero previsto di operazioni poiché Cloud Dataflow creerà una sottoscrizione separata per tracciare i timestamp personalizzati.
  2. BigQuery: se stai utilizzando l'API di flusso per BigQuery, vengono applicati limiti di quota e altre restrizioni.

Trovare e aumentare le quote

Puoi controllare l'utilizzo corrente della quota specifica di Dataflow in questo modo:

  1. Nella console Google Cloud, vai a API e servizi.
    Vai su API e Servizi
  2. Per controllare il tuo attuale utilizzo delle quote degli slot Shuffle, nella scheda Quote, individua la Distribuisci casualmente gli slot nella tabella e fai clic sulla colonna Grafico di utilizzo Mostra grafico di utilizzo.

Se vuoi aumentare la quota dei job, contatta Assistenza Google Cloud e aumenteremo il limite a un valore che più adatta alle tue esigenze. La quota predefinita è 25 simultanei Job Dataflow per il tuo progetto o 125 job simultanei Job Dataflow per la tua organizzazione.

Inoltre, puoi aumentare la quota degli slot Shuffle per i job batch inviando una richiesta di assistenza e specificando la dimensione massima prevista del set di dati Shuffle simultaneo per tutti i job nel progetto. Prima di richiedere una quota Shuffle aggiuntiva, esegui la pipeline utilizzando Dataflow Shuffle e verifica l'utilizzo effettivo della quota Shuffle.

Per i job di flussi, puoi aumentare la velocità effettiva di Streaming Engine inviando una richiesta di assistenza all'assistenza Google Cloud Platform. Nella richiesta, specifica la quantità massima di dati che vuoi ridistribuire tra worker ogni minuto per ogni area geografica in cui viene eseguito il job.

Il servizio Dataflow utilizza anche vari componenti di Google Cloud, come BigQuery, Cloud Storage, Pub/Sub, e Compute Engine. Queste (e altre funzionalità di Google Cloud) utilizzano le quote per limitare il numero massimo di risorse che puoi utilizzare all'interno di un progetto. Quando utilizzi Dataflow, potresti dover regolare le impostazioni delle quote per questi servizi.

Dataflow Prime

Le quote e i limiti sono gli stessi per Dataflow e Dataflow Prime. Se hai quote per Dataflow, non hai bisogno di quote aggiuntive per eseguire i job utilizzando Dataflow Prime.

Limiti

Questa sezione descrive i limiti di produzione pratici per Dataflow.

Limite Importo
Numero massimo di worker per pipeline. 2000
Dimensione massima per una richiesta di creazione job. Le descrizioni di pipeline con molti passaggi e nomi eccessivamente dettagliati potrebbero raggiungere questo limite. 10 MB
Dimensioni massime per una richiesta di lancio del modello. 1 MB
Numero massimo di shard di input aggiuntivi. 20.000
Dimensioni massime per un singolo elemento (tranne nel caso in cui vengano applicate condizioni più severe, ad esempio Streaming Engine). 2 GB
Dimensione massima della chiave nelle pipeline batch. 1,5 MB
Numero massimo di voci di log in un dato periodo di tempo, per worker. 15.000 messaggi ogni 30 secondi
Numero massimo di metriche personalizzate per project. 100
Periodo di tempo per cui i consigli verranno memorizzati. 30 giorni
Limiti di Streaming Engine Importo
Numero massimo di byte per i messaggi Pub/Sub. 7 MB
Dimensioni minime per il valore di un singolo elemento. 80 MB
Dimensione massima di una chiave grande. Le chiavi superiori a 64 kB causano una riduzione delle prestazioni. 2 MB
Dimensioni massime di un input laterale. 80 MB
Lunghezza massima per i tag stato utilizzati da TagValue e TagBag. 64 kB