Quote e limiti

Questo documento elenca le quotas e i quotas che si applicano a Dataflow. Per ulteriori informazioni sulle quote, consulta Quote di Virtual Private Cloud.

Una quota limita la quantità di una risorsa Google Cloud condivisa che un progetto Google Cloud può utilizzare, inclusi hardware, software e componenti di rete. Pertanto, le quote fanno parte di un sistema che:

  • Monitora l'utilizzo o il consumo dei prodotti e dei servizi Google Cloud.
  • Limita il consumo di queste risorse, per motivi che includono la garanzia di equità e la riduzione dei picchi di utilizzo.
  • Mantiene le configurazioni che applicano automaticamente le limitazioni prescritte.
  • Consente di richiedere o modificare la quota.

Nella maggior parte dei casi, quando viene superata una quota, il sistema blocca immediatamente l'accesso alla risorsa Google pertinente e l'attività che stai tentando di eseguire non riesce. Nella maggior parte dei casi, le quote vengono applicate a ogni progetto Google Cloud e vengono condivise tra tutte le applicazioni e gli indirizzi IP che utilizzano il progetto Google Cloud.

Per aumentare o diminuire la maggior parte delle quote, utilizza la console Google Cloud. Per ulteriori informazioni, consulta Richiedere una quota superiore.

Esistono anche dei limiti per le risorse Dataflow. Questi limiti non sono correlati al sistema delle quote. Se non diversamente indicato, i limiti non possono essere modificati.

Il servizio gestito Dataflow ha le quote e i limiti seguenti:

  • Ogni progetto Google Cloud può effettuare fino a 3.000.000 di richieste al minuto.
  • Ogni job Dataflow può utilizzare un massimo di 2000 istanze di Compute Engine. Senza specificare una zona di lavoro, ogni job di flussi di dati che utilizza Streaming Engine o job batch che utilizza Dataflow Shuffle basato su servizi può utilizzare un massimo di 4000 istanze Compute Engine.
  • Ogni progetto Google Cloud può eseguire al massimo 25 job Dataflow simultanei per impostazione predefinita.
  • Ogni worker Dataflow ha un limite massimo di log che può restituire in un intervallo di tempo. Consulta la documentazione sul logging per conoscere il limite esatto.
  • Se attivi le quote a livello di organizzazione, ogni organizzazione può eseguire al massimo 125 job Dataflow simultanei per impostazione predefinita.
  • Ogni utente può effettuare fino a 15.000 richieste di monitoraggio al minuto.
  • Ogni utente può effettuare fino a 60 richieste di creazione di job al minuto.
  • Ogni utente può effettuare fino a 60 richieste di modelli di job al minuto.
  • Ogni utente può effettuare fino a 60 richieste di aggiornamento dei job al minuto.
  • Ogni progetto Google Cloud riceve i seguenti slot shuffle in ogni area geografica:
    • asia-east1: 48 slot
    • asia-northeast1: 24 slot
    • asia-northeast3: 32 slot
    • asia-south1: 64 slot
    • asia-southeast1: 64 slot
    • australia-southeast1: 24 slot
    • europe-west1: 640 slot
    • europe-west2: 32 slot
    • europe-west3: 40 slot
    • europe-west4: 512 slot
    • northamerica-northeast1: 512 slot
    • us-central1: 640 slot
    • us-east1: 640 slot
    • us-east4: 64 slot
    • us-west1: 384 slot
    • us-west2: 24 slot
    • us-west3: 24 slot
    • altre aree: 16 slot
    16 slot sono sufficienti per eseguire lo shuffling di circa 10 TB di dati contemporaneamente.
  • I job batch di Dataflow verranno annullati dopo 30 giorni.

Quote di Compute Engine

Quando esegui la pipeline sul servizio Dataflow, quest'ultimo crea le istanze di Compute Engine per eseguire il codice della pipeline.

La quota di Compute Engine viene specificata per area geografica. Controlla la quota di Compute Engine del progetto e, se necessario, richiedi le seguenti modifiche:

  • CPU: i tipi di macchina predefiniti per Dataflow sono n1-standard-1 per la modalità batch, n1-standard-2 per i job che utilizzano Streaming Engine e n1-standard-4 per i job che non utilizzano Streaming Engine. FlexRS utilizza macchine n1-standard-2 per impostazione predefinita. Con la versione beta, FlexRS utilizza un 90% di VM prerilasciabili e un 10% di VM standard. Compute Engine calcola il numero di CPU sommando il conteggio totale delle CPU di ciascuna istanza. Ad esempio, l'esecuzione di 10 istanze n1-standard-4 corrisponde a un conteggio totale di 40 CPU. Vedi Tipi di macchine di Compute Engine per una mappatura dei tipi di macchine in base al conteggio delle CPU.
  • Indirizzi IP in uso: il numero di indirizzi IP in uso nel progetto deve essere sufficiente per poter gestire il numero desiderato di istanze. Per utilizzare 10 istanze di Compute Engine, sono necessari 10 indirizzi IP in uso.
  • Persistent Disk: Dataflow collega Persistent Disk a ciascuna istanza.
    • Le dimensioni predefinite del disco sono di 250 GB per le pipeline in modalità batch e 400 GB per le pipeline in modalità flusso. Nel caso di 10 istanze, per impostazione predefinita sono necessari 2500 GB di Persistent Disk per un job batch.
    • Le dimensioni predefinite del disco sono di 25 GB per le pipeline batch di Dataflow Shuffle.
    • Le dimensioni predefinite del disco sono di 30 GB per le pipeline in modalità flusso di Streaming Engine.
    • Il servizio Dataflow è attualmente limitato a 15 dischi permanenti per istanza worker durante l'esecuzione di un job di flussi di dati. Ogni disco permanente è locale di una singola macchina virtuale di Compute Engine. Un rapporto 1:1 tra worker e dischi è l'allocazione minima delle risorse.
    • L'utilizzo di Compute Engine si basa sul numero medio di worker, mentre l'utilizzo di Persistent Disk si basa sul valore esatto di --maxNumWorkers. I dischi permanenti vengono ridistribuiti in modo che ogni worker abbia lo stesso numero di dischi collegati.
  • Gruppi di istanze gestite a livello di regione: Dataflow esegue il deployment delle istanze di Compute Engine come gruppo di istanze gestite a livello di regione. Assicurati che sia disponibile la seguente quota correlata:
    • Un singolo gruppo di istanze per job Dataflow
    • Un singolo modello di istanza per job Dataflow
    • Un gruppo di istanze gestite a livello di regione per job Dataflow

Quote aggiuntive

A seconda dei tipi di origini e sink che utilizzi, potresti aver bisogno di quote aggiuntive.

  1. Pub/Sub: se stai utilizzando Pub/Sub, potresti aver bisogno di una quota aggiuntiva. Quando pianifichi la quota, ricorda che l'elaborazione di 1 messaggio da Pub/Sub comporta 3 operazioni. Se utilizzi timestamp personalizzati, devi raddoppiare il numero previsto di operazioni poiché Cloud Dataflow creerà una sottoscrizione separata per tracciare i timestamp personalizzati.
  2. BigQuery: se stai utilizzando l'API di flusso per BigQuery, vengono applicati limiti di quota e altre restrizioni.

Trovare e aumentare le quote

Puoi controllare l'utilizzo corrente della quota specifica di Dataflow in questo modo:

  1. Nella console Google Cloud, vai ad API e servizi.
    Vai su API e Servizi
  2. Per verificare l'attuale utilizzo delle quote degli slot Shuffle, nella scheda Quote, individua la riga Slot per shuffle della tabella e, nella colonna Grafico di utilizzo, fai clic su Mostra grafico di utilizzo.

Se vuoi aumentare la quota di job, contatta l'assistenza Google Cloud e aumenteremo il limite a un valore più adatto alle tue esigenze. La quota predefinita è di 25 job Dataflow simultanei per il tuo progetto o 125 job Dataflow simultanei per la tua organizzazione.

Inoltre, puoi aumentare la quota degli slot Shuffle per i job batch inviando una richiesta di assistenza e specificando la dimensione massima prevista del set di dati Shuffle simultaneo per tutti i job nel progetto. Prima di richiedere una quota Shuffle aggiuntiva, esegui la pipeline utilizzando Dataflow Shuffle e verifica l'utilizzo effettivo della quota Shuffle.

Per i job di flussi, puoi aumentare la velocità effettiva di Streaming Engine inviando una richiesta di assistenza all'assistenza Google Cloud Platform. Nella richiesta, specifica la quantità massima di dati che vuoi ridistribuire tra worker ogni minuto per ogni area geografica in cui viene eseguito il job.

Il servizio Dataflow utilizza inoltre vari componenti di Google Cloud, come BigQuery, Cloud Storage, Pub/Sub e Compute Engine. Questi e altri servizi Google Cloud utilizzano le quote per limitare il numero massimo di risorse che è possibile utilizzare in un progetto. Quando utilizzi Dataflow, potrebbe essere necessario modificare le impostazioni delle quote per questi servizi.

Dataflow Prime

Le quote e i limiti sono gli stessi per Dataflow e Dataflow Prime. Se disponi di quote per Dataflow, non hai bisogno di una quota aggiuntiva per eseguire i job utilizzando Dataflow Prime.

Limiti

Questa sezione descrive i limiti di produzione pratici per Dataflow.

Limite Importo
Numero massimo di worker per pipeline. 1000
Dimensione massima per una richiesta di creazione job. Le descrizioni delle pipeline con molti passaggi e nomi molto dettagliati possono raggiungere questo limite. 10 MB
Dimensione massima per una richiesta di lancio di un modello. 1 MB
Numero massimo di shard di input aggiuntivi. 20.000
Dimensione massima di un singolo elemento (tranne nel caso in cui si applichino condizioni più rigide, ad esempio Streaming Engine). 2 GB
Dimensione massima della chiave nelle pipeline in modalità batch. 1,5 MB
Numero massimo di voci di log in un dato periodo di tempo, per worker. 15.000 messaggi ogni 30 secondi
Numero massimo di metriche personalizzate per progetto. 100
Periodo di tempo in cui verranno archiviati i consigli. 30 giorni
Limiti di Streaming Engine Importo
Byte massimi per i messaggi Pub/Sub. 7 MB
Dimensioni massime del valore di un singolo elemento. 80 MB
Dimensione massima di una chiave grande. Le chiavi superiori a 64 kB causano una riduzione delle prestazioni. 2 MB
Dimensione massima di un input laterale. 80 MB
Lunghezza massima dei tag di stato utilizzati da TagValue e TagBag. 64 kB