Quote e limiti

Questo documento elenca le quote e i limiti che si applicano e Dataflow.

Una quota limita la quantità di risorse Google Cloud condivise È possibile usare un progetto Google Cloud, inclusi hardware, software e rete componenti. Di conseguenza, le quote fanno parte di un sistema che seguenti:

  • Monitora l'utilizzo o il consumo dei prodotti Google Cloud e i servizi di machine learning.
  • Limita il tuo consumo di queste risorse, per motivi che includono: garantendo l'equità e riducendo i picchi di utilizzo.
  • Mantiene configurazioni che applicano automaticamente le limitazioni prescritte.
  • Fornisce un mezzo per richiedere o apportare modifiche alla quota.

Nella maggior parte dei casi, quando viene superata una quota, il sistema blocca immediatamente alla risorsa Google pertinente e all'attività che vuoi non riesce a eseguire l'esecuzione. Nella maggior parte dei casi, le quote vengono applicate a ogni progetto Google Cloud e vengono condivisi tra tutte le applicazioni e gli indirizzi IP che utilizzano progetto Google Cloud.

Per aumentare o diminuire la maggior parte delle quote, utilizza la console Google Cloud. Per maggiori informazioni, consulta Richiedere una quota superiore.

Esistono anche dei limiti per le risorse Dataflow. Questi non sono correlati al sistema delle quote. I limiti non possono essere modificati se non diversamente specificato.

Il servizio gestito Dataflow prevede le quote e i limiti seguenti:

  • Ogni progetto Google Cloud può effettuare fino a 3.000.000 di richieste al minuto.
  • Ogni job Dataflow può utilizzare un massimo di 2000 istanze di Compute Engine. Senza specificare una zona di lavoro, ogni job di flussi di dati utilizzando Streaming Engine job batch mediante Dataflow basato su servizi Shuffle può utilizzare un massimo di 4000 istanze di Compute Engine.
  • Ogni progetto Google Cloud può eseguire al massimo 25 job Dataflow simultanei per impostazione predefinita.
  • Ogni worker Dataflow ha un limite massimo di log che può restituire in un intervallo di tempo. Consulta la documentazione sul logging per conoscere il limite esatto.
  • Se attivi le quote a livello di organizzazione, ogni organizzazione può essere eseguita al massimo 125 in contemporanea Job Dataflow per impostazione predefinita.
  • Ogni utente può effettuare fino a 15.000 richieste di monitoraggio al minuto.
  • Ogni utente può effettuare fino a 60 richieste di creazione di job al minuto.
  • Ogni utente può effettuare fino a 60 richieste di modelli di job al minuto.
  • Ogni utente può effettuare fino a 60 richieste di aggiornamento dei job al minuto.
  • Ogni progetto Google Cloud riceve i seguenti slot shuffle in ogni area geografica:
    • asia-east1: 48 slot
    • asia-northeast1: 24 slot
    • asia-northeast3: 32 slot
    • asia-south1: 64 slot
    • asia-southeast1: 64 slot
    • australia-southeast1: 24 slot
    • europe-west1: 640 slot
    • europe-west2: 32 slot
    • europe-west3: 40 slot
    • europe-west4: 512 slot
    • northamerica-northeast1: 512 slot
    • us-central1: 640 slot
    • us-east1: 640 slot
    • us-east4: 64 slot
    • us-west1: 384 slot
    • us-west2: 24 slot
    • us-west3: 24 slot
    • altre aree: 16 slot
    16 slot sono sufficienti per in ordine casuale 10 TB di dati contemporaneamente.
  • I job batch di Dataflow verranno annullati dopo 10 giorni.

Quote di Compute Engine

Quando esegui la pipeline sul servizio Dataflow, quest'ultimo crea le istanze di Compute Engine per eseguire il codice della pipeline.

La quota di Compute Engine viene specificata per area geografica. Controlla la quota di Compute Engine del progetto e, se necessario, richiedi le seguenti modifiche:

  • CPU: nelle seguenti regioni, i tipi di macchina predefiniti per Dataflow sono n1-standard-1 per il batch, n1-standard-2 per i job che utilizzano Streaming Engine, n1-standard-4 per i job di flussi di dati che non utilizzano Streaming Engine, e n1-standard-2 per i job che utilizzano la pianificazione flessibile delle risorse (FlexRS). FlexRS utilizza il 90% di VM prerilasciabili e il 10% di VM normali.
    • asia-east1
    • asia-east2
    • asia-northeast1
    • asia-northeast2
    • asia-northeast3
    • asia-south1
    • asia-south2
    • asia-southeast1
    • asia-southeast2
    • australia-southeast1
    • australia-southeast2
    • europe-central2
    • europe-north1
    • europe-west1
    • europe-west2
    • europe-west3
    • europe-west4
    • europe-west5
    • europe-west6
    • northamerica-northeast1
    • northamerica-northeast2
    • southamerica-east1
    • us-central1
    • us-central2
    • us-east1
    • us-east4
    • us-west1
    • us-west2
    • us-west3
    • us-west4

    Per le altre regioni, i tipi di macchina predefiniti sono e2-standard-2 per i batch, e2-standard-2 per i job che utilizzano Streaming Engine, e2-standard-4 per i job di flussi che non utilizzano Streaming Engine e e2-standard-2 per i job che usare FlexRS.

    Compute Engine calcola il numero di CPU sommando la CPU totale di ogni istanza conteggio. Ad esempio, l'esecuzione di 10 istanze n1-standard-4 corrisponde a un conteggio totale di 40 CPU. Per un mappatura dei tipi di macchina al conteggio delle CPU, consulta Tipi di macchine di Compute Engine.

  • Indirizzi IP in uso: il numero di indirizzi IP in uso nel progetto deve essere sufficiente per poter gestire il numero desiderato di istanze. Per utilizzare 10 istanze di Compute Engine, sono necessari 10 indirizzi IP in uso.
  • Persistent Disk: Dataflow collega Persistent Disk a ciascuna istanza.
    • Le dimensioni predefinite del disco sono di 250 GB per la versione batch e di 400 GB per la versione in batch pipeline di flusso. Nel caso di 10 istanze, per impostazione predefinita sono necessari 2500 GB di Persistent Disk per un job batch.
    • Le dimensioni predefinite del disco sono di 25 GB per le pipeline batch di Dataflow Shuffle.
    • Le dimensioni predefinite del disco sono di 30 GB per le pipeline in modalità flusso di Streaming Engine.
    • Il servizio Dataflow è attualmente limitato a 15 dischi permanenti per istanza worker quando di un job in modalità flusso. Ogni disco permanente è locale in una macchina virtuale. Un rapporto 1:1 tra worker e dischi è l'allocazione minima delle risorse.
    • L'utilizzo di Compute Engine si basa sul numero medio di worker, mentre l'utilizzo di Persistent Disk l'utilizzo si basa sul valore esatto di --maxNumWorkers. I dischi permanenti sono vengono ridistribuiti in modo che ogni worker abbia lo stesso numero di dischi collegati.
  • Gruppi di istanze gestite a livello di regione: Dataflow esegue il deployment di Compute Engine come gruppo di istanze gestite a livello di regione. Assicurati che sia disponibile la seguente quota correlata:
    • Un singolo gruppo di istanze per job Dataflow
    • Un singolo modello di istanza per job Dataflow
    • Un gruppo di istanze gestite a livello di regione per job Dataflow
  • Se i gruppi di istanze gestite risultano mancanti per un job di flussi di dati per più di 7 giorni, il job viene annullato.
  • Se i gruppi di istanze gestite risultano mancanti per un job batch per più di un'ora, il job viene annullato.

Quote aggiuntive

A seconda dei tipi di origini e sink che utilizzi, potresti aver bisogno di quote aggiuntive.

  1. Pub/Sub: se stai utilizzando Pub/Sub, potresti aver bisogno di una quota aggiuntiva. Quando pianifichi la quota, ricorda che l'elaborazione di 1 messaggio da Pub/Sub comporta 3 operazioni. Se utilizzi timestamp personalizzati, devi raddoppiare il numero previsto di operazioni poiché Cloud Dataflow creerà una sottoscrizione separata per tracciare i timestamp personalizzati.
  2. BigQuery: se stai utilizzando l'API di flusso per BigQuery, vengono applicati limiti di quota e altre restrizioni.

Trovare e aumentare le quote

Puoi controllare l'utilizzo corrente della quota specifica di Dataflow in questo modo:

  1. Nella console Google Cloud, vai al menu API e Google Cloud.
    Vai su API e Servizi
  2. Per controllare il tuo attuale utilizzo delle quote degli slot Shuffle, nella scheda Quote, individua la Distribuisci casualmente gli slot nella tabella e fai clic sulla colonna Grafico di utilizzo Mostra grafico di utilizzo.

Se vuoi aumentare la quota dei job, contatta Assistenza Google Cloud e aumenteremo il limite a un valore che più adatta alle tue esigenze. La quota predefinita è 25 simultanei Job Dataflow per il tuo progetto o 125 job simultanei Job Dataflow per la tua organizzazione.

Inoltre, puoi aumentare la quota degli slot Shuffle per i job batch inviando una richiesta di assistenza e specificando la dimensione massima prevista del set di dati Shuffle simultaneo per tutti i job nel progetto. Prima di richiedere una quota Shuffle aggiuntiva, esegui la pipeline utilizzando Dataflow Shuffle e verifica l'utilizzo effettivo della quota Shuffle.

Per i job di flussi, puoi aumentare la velocità effettiva di Streaming Engine inviando una richiesta di assistenza all'assistenza Google Cloud Platform. Nella richiesta, specifica la quantità massima di dati che vuoi ridistribuire tra worker ogni minuto per ogni area geografica in cui viene eseguito il job.

Il servizio Dataflow utilizza anche vari componenti di Google Cloud, ad esempio BigQuery, Cloud Storage, Pub/Sub e Compute Engine. Queste e altre funzionalità di Google Cloud utilizzano le quote per limitare il numero massimo di risorse che puoi utilizzare all'interno di un progetto. Quando utilizzi Dataflow, potresti dover regolare le impostazioni delle quote per questi servizi.

Dataflow Prime

Le quote e i limiti sono gli stessi per Dataflow e Dataflow Prime. Se disponi quote per Dataflow, non hai bisogno di una quota aggiuntiva per eseguire i tuoi job usando Dataflow Prime.

Limiti

Questa sezione descrive i limiti di produzione pratici per Dataflow.

Limite Importo
Numero massimo di worker per pipeline. 2000
Dimensione massima per una richiesta di creazione job. Le descrizioni di pipeline con molti passaggi e nomi eccessivamente dettagliati potrebbero raggiungere questo limite. 10 MB
Dimensioni massime per una richiesta di lancio di un modello. 1 MB
Numero massimo di shard di input aggiuntivi. 20.000
Dimensioni massime di un singolo elemento (tranne nei casi in cui condizioni più rigide ad esempio Streaming Engine). 2 GB
Dimensione massima della chiave nelle pipeline in modalità batch. 1,5 MB
Numero massimo di voci di log in un dato periodo di tempo, per worker. 15.000 messaggi ogni 30 secondi
Numero massimo di metriche personalizzate per progetto. 100
Periodo di tempo in cui consigli saranno archiviati. 30 giorni
Limiti di Streaming Engine Importo
Byte massimi per i messaggi Pub/Sub. 7 MB
Dimensioni massime del valore di un singolo elemento. 80 MB
Dimensione massima di una chiave grande. Le chiavi superiori a 64 kB causano una riduzione delle prestazioni. 2 MB
Dimensioni massime di un input laterale. 80 MB
Lunghezza massima dei tag di stato utilizzati da TagValue e TagBag. 64 kB