Quote e limiti

Questo documento elenca le quotas e i quotas che si applicano a Dataflow.

Una quota limita la quantità di una risorsa Google Cloud condivisa che può essere utilizzata dal progetto Google Cloud, inclusi hardware, software e componenti di rete. Pertanto, le quote fanno parte di un sistema che:

  • Monitora il tuo utilizzo o consumo di prodotti e servizi Google Cloud.
  • Limita il consumo di queste risorse, per motivi che includono la garanzia dell'equità e la riduzione dei picchi di utilizzo.
  • Mantiene configurazioni che applicano automaticamente le limitazioni prescritte.
  • Offre un mezzo per richiedere o modificare la quota.

Nella maggior parte dei casi, quando viene superata una quota, il sistema blocca immediatamente l'accesso alla risorsa Google pertinente e l'attività che stai tentando di eseguire ha esito negativo. Nella maggior parte dei casi, le quote si applicano a ogni progetto Google Cloud e sono condivise tra tutte le applicazioni e gli indirizzi IP che utilizzano il progetto Google Cloud.

Per aumentare o diminuire la maggior parte delle quote, utilizza la console Google Cloud. Per ulteriori informazioni, consulta Richiedere una quota più alta.

Esistono anche dei limiti per le risorse Dataflow. Questi limiti non sono correlati al sistema di quote. I limiti non possono essere modificati se non diversamente indicato.

Il servizio gestito Dataflow ha le quote e i limiti seguenti:

  • Ogni progetto Google Cloud può effettuare fino a 3.000.000 di richieste al minuto.
  • Ogni job Dataflow può utilizzare un massimo di 2000 istanze di Compute Engine. Senza specificare una zona worker, ogni job di inserimento di flussi che utilizza Streaming Engine o job batch che utilizza Dataflow shuffling basato sui servizi può utilizzare un massimo di 4000 istanze di Compute Engine.
  • Per impostazione predefinita, ogni progetto Google Cloud può eseguire al massimo 25 job Dataflow simultanei.
  • Ogni worker Dataflow ha un limite massimo di log che può restituire in un intervallo di tempo. Consulta la documentazione di Logging per il limite esatto.
  • Se attivi le quote a livello di organizzazione, per impostazione predefinita ogni organizzazione può eseguire al massimo 125 job Dataflow simultanei.
  • Ogni utente può effettuare fino a 15.000 richieste di monitoraggio al minuto.
  • Ogni utente può effettuare fino a 60 richieste di creazione di job al minuto.
  • Ogni utente può effettuare fino a 60 richieste di modelli di job al minuto.
  • Ogni utente può inviare fino a 60 richieste di aggiornamento dei job al minuto.
  • Ogni progetto Google Cloud riceve i seguenti slot shuffle in ogni area geografica:
    • asia-east1: 48 slot
    • asia-northeast1: 24 slot
    • asia-northeast3: 32 slot
    • asia-south1: 64 slot
    • asia-southeast1: 64 slot
    • australia-southeast1: 24 slot
    • europe-west1: 640 slot
    • europe-west2: 32 slot
    • europe-west3: 40 slot
    • europe-west4: 512 slot
    • nordamerica-northeast1: 512 slot
    • us-central1: 640 slot
    • us-east1: 640 slot
    • us-east4: 64 slot
    • us-west1: 384 slot
    • us-west2: 24 slot
    • us-west3: 24 slot
    • altre aree: 16 slot
    16 slot sono sufficienti per eseguire lo shuffling di circa 10 TB di dati contemporaneamente.
  • I job batch di Dataflow verranno annullati dopo 30 giorni.

Quote di Compute Engine

Quando esegui la pipeline sul servizio Dataflow, quest'ultimo crea le istanze di Compute Engine per eseguire il codice della pipeline.

La quota di Compute Engine viene specificata per area geografica. Controlla la quota di Compute Engine del progetto e, se necessario, richiedi le seguenti modifiche:

  • CPU: i tipi di macchina predefiniti per Dataflow sono n1-standard-1 per la modalità batch, n1-standard-2 per i job che utilizzano Streaming Engine e n1-standard-4 per i job che non utilizzano Streaming Engine. FlexRS utilizza macchine n1-standard-2 per impostazione predefinita. Con la versione beta, FlexRS utilizza un 90% di VM prerilasciabili e un 10% di VM standard. Compute Engine calcola il numero di CPU sommando il conteggio totale delle CPU di ciascuna istanza. Ad esempio, l'esecuzione di 10 istanze n1-standard-4 corrisponde a un conteggio totale di 40 CPU. Vedi Tipi di macchine di Compute Engine per una mappatura dei tipi di macchine in base al conteggio delle CPU.
  • Indirizzi IP in uso: il numero di indirizzi IP in uso nel progetto deve essere sufficiente per poter gestire il numero desiderato di istanze. Per utilizzare 10 istanze di Compute Engine, sono necessari 10 indirizzi IP in uso.
  • Persistent Disk: Dataflow collega Persistent Disk a ciascuna istanza.
    • Le dimensioni predefinite del disco sono di 250 GB per le pipeline in modalità batch e 400 GB per le pipeline in modalità flusso. Nel caso di 10 istanze, per impostazione predefinita sono necessari 2500 GB di Persistent Disk per un job batch.
    • Le dimensioni predefinite del disco sono di 25 GB per le pipeline batch di Dataflow Shuffle.
    • Le dimensioni predefinite del disco sono di 30 GB per le pipeline in modalità flusso di Streaming Engine.
    • Il servizio Dataflow è attualmente limitato a 15 dischi permanenti per istanza worker quando viene eseguito un job di inserimento di flussi. Ogni disco permanente è locale su una singola macchina virtuale Compute Engine. Un rapporto 1:1 tra worker e dischi è l'allocazione minima delle risorse.
    • L'utilizzo di Compute Engine si basa sul numero medio di worker, mentre l'utilizzo del Persistent Disk si basa sul valore esatto di --maxNumWorkers. I dischi permanenti vengono ridistribuiti in modo che ogni worker abbia lo stesso numero di dischi collegati.
  • Gruppi di istanze gestite a livello di regione: Dataflow esegue il deployment delle istanze di Compute Engine come gruppo di istanze gestite a livello di regione. Assicurati che sia disponibile la seguente quota correlata:
    • Un singolo gruppo di istanze per job Dataflow
    • Un singolo modello di istanza per job Dataflow
    • Un singolo gruppo di istanze gestite a livello di regione per job Dataflow

Quote aggiuntive

A seconda dei tipi di origini e sink che utilizzi, potresti aver bisogno di quote aggiuntive.

  1. Pub/Sub: se stai utilizzando Pub/Sub, potresti aver bisogno di una quota aggiuntiva. Quando pianifichi la quota, ricorda che l'elaborazione di 1 messaggio da Pub/Sub comporta 3 operazioni. Se utilizzi timestamp personalizzati, devi raddoppiare il numero previsto di operazioni poiché Cloud Dataflow creerà una sottoscrizione separata per tracciare i timestamp personalizzati.
  2. BigQuery: se stai utilizzando l'API di flusso per BigQuery, vengono applicati limiti di quota e altre restrizioni.

Trova e aumenta le quote

Puoi controllare l'utilizzo corrente della quota specifica di Dataflow in questo modo:

  1. Nella console Google Cloud, vai alla pagina API e servizi.
    Vai su API e Servizi
  2. Per controllare l'utilizzo attuale delle quote degli slot shuffling, nella scheda Quote individua la riga Slot di shuffling nella tabella e nella colonna Grafico di utilizzo fai clic su Mostra grafico di utilizzo.

Se vuoi aumentare la quota per i job, contatta l'assistenza Google Cloud e aumenteremo il limite a un valore più adatto alle tue esigenze. La quota predefinita è di 25 job Dataflow simultanei per il tuo progetto o 125 job Dataflow simultanei per la tua organizzazione.

Inoltre, puoi aumentare la quota degli slot Shuffle per i job batch inviando una richiesta di assistenza e specificando la dimensione massima prevista del set di dati Shuffle simultaneo per tutti i job nel progetto. Prima di richiedere una quota Shuffle aggiuntiva, esegui la pipeline utilizzando Dataflow Shuffle e verifica l'utilizzo effettivo della quota Shuffle.

Per i job di flussi, puoi aumentare la velocità effettiva di Streaming Engine inviando una richiesta di assistenza all'assistenza Google Cloud Platform. Nella richiesta, specifica la quantità massima di dati che vuoi ridistribuire tra worker ogni minuto per ogni area geografica in cui viene eseguito il job.

Il servizio Dataflow utilizza anche vari componenti di Google Cloud, come BigQuery, Cloud Storage, Pub/Sub e Compute Engine. Questi e altri servizi Google Cloud utilizzano le quote per limitare il numero massimo di risorse che puoi utilizzare in un progetto. Quando utilizzi Dataflow, potresti dover modificare le impostazioni delle quote per questi servizi.

Dataflow Prime

Le quote e i limiti sono gli stessi per Dataflow e Dataflow Prime. Se disponi di quote per Dataflow, non hai bisogno di una quota aggiuntiva per eseguire i job utilizzando Dataflow Prime.

Limiti

Questa sezione descrive i limiti di produzione pratici per Dataflow.

Limite Importo
Numero massimo di worker per pipeline. 1000
Dimensione massima per una richiesta di creazione di job. Le descrizioni delle pipeline con molti passaggi e nomi molto dettagliati potrebbero raggiungere questo limite. 10 MB
Dimensione massima per una richiesta di lancio di un modello. 1 MB
Numero massimo di shard di input aggiuntivi. 20.000
Dimensione massima di un singolo elemento (tranne nei casi in cui si applicano condizioni più rigide, ad esempio Streaming Engine). 2 GB
Dimensione massima per il valore di un singolo elemento in Streaming Engine. 80 MB
Numero massimo di voci di log in un dato periodo di tempo, per worker. 15.000 messaggi ogni 30 secondi
Numero massimo di metriche personalizzate per progetto. 100
Periodo di tempo in cui verranno archiviati i consigli. 30 giorni
Limiti di Streaming Engine Importo
Byte massimi per i messaggi Pub/Sub. 7 MB
Dimensione massima di una chiave grande. I tasti di dimensioni superiori a 64 kB causano prestazioni inferiori. 2 MB
Dimensione massima per un input laterale. 80 MB
Lunghezza massima per i tag di stato utilizzati da TagValue e TagBag. 64 kB