Quote e limiti

Quote

Il servizio gestito Dataflow ha i seguenti limiti di quota:

  • Ogni utente può effettuare fino a 3.000.000 di richieste al minuto.
  • Ogni job Dataflow può utilizzare un massimo di 1000 istanze di Compute Engine.
  • Ogni progetto Google Cloud può eseguire 25 job Dataflow simultanei.
  • Se attivi le quote a livello di organizzazione, ogni organizzazione può eseguire 125 job Dataflow simultanei.
  • Ogni utente può effettuare fino a 15.000 richieste di monitoraggio al minuto.
  • Ogni progetto Google Cloud riceve i seguenti slot shuffle in ogni area geografica:
    • asia-east1: 48 slot
    • europe-west1: 160 slot
    • europe-west4: 128 slot
    • us-central1: 160 slot
    • us-east1: 48 slot
    • us-west1: 48 slot
    • altre aree: 16 slot
    160 slot sono sufficienti per eseguire lo shuffle di circa 100 TB di dati contemporaneamente.
  • Per ogni area geografica cloud, ogni progetto Google Cloud riceve 60 GB al minuto di velocità effettiva di Streaming Engine per l'invio di dati tra istanze Compute Engine e Streaming Engine.

Puoi controllare l'utilizzo corrente della quota specifica di Dataflow in questo modo:

  1. In Google Cloud Console, vai su API e servizi.
    Vai su API e Servizi
  2. Fai clic su Dashboard.
  3. Fai clic su API Dataflow.
  4. Fai clic su Quote.
    Ad esempio, per controllare il tuo attuale utilizzo delle quote degli slot Shuffle, troverai il grafico degli slot Shuffle nella pagina Quote.
    Slot Shuffle nella pagina Quote.

Il servizio Dataflow utilizza vari componenti di Google Cloud, come BigQuery, Cloud Storage, Pub/Sub, e Compute Engine. Questi e altri servizi Google Cloud utilizzano le quote per limitare il numero massimo di risorse che è possibile utilizzare in un progetto. Quando utilizzi Dataflow, potresti dover modificare le impostazioni delle quote per questi servizi.

Quote di Compute Engine

Quando esegui la pipeline sul servizio Dataflow, quest'ultimo crea le istanze di Compute Engine per eseguire il codice della pipeline.

La quota di Compute Engine viene specificata per area geografica. Controlla la quota di Compute Engine del progetto e, se necessario, richiedi le seguenti modifiche:

  • CPU: i tipi di macchina predefiniti per Dataflow sono n1-standard-1 per la modalità batch, n1-standard-2 per i job che utilizzano Streaming Engine e n1-standard-4 per i job che non utilizzano Streaming Engine. FlexRS utilizza macchine n1-standard-2 per impostazione predefinita. Con la versione beta, FlexRS utilizza un 90% di VM prerilasciabili e un 10% di VM standard. Compute Engine calcola il numero di CPU sommando il conteggio totale delle CPU di ciascuna istanza. Ad esempio, l'esecuzione di 10 istanze n1-standard-4 corrisponde a un conteggio totale di 40 CPU. Vedi Tipi di macchine di Compute Engine per una mappatura dei tipi di macchine in base al conteggio delle CPU.
  • Indirizzi IP in uso: il numero di indirizzi IP in uso nel progetto deve essere sufficiente per poter gestire il numero desiderato di istanze. Per utilizzare 10 istanze di Compute Engine, sono necessari 10 indirizzi IP in uso.
  • Persistent Disk: Dataflow collega Persistent Disk a ciascuna istanza.
    • Le dimensioni predefinite del disco sono di 250 GB per le pipeline in modalità batch e 420 GB per le pipeline in modalità flusso. Nel caso di 10 istanze, per impostazione predefinita sono necessari 2500 GB di Persistent Disk per un job batch.
    • Le dimensioni predefinite del disco sono di 25 GB per le pipeline batch di Dataflow Shuffle.
    • Le dimensioni predefinite del disco sono di 30 GB per le pipeline in modalità flusso di Streaming Engine.
  • Gruppi di istanze gestite: Dataflow esegue il deployment delle istanze di Compute Engine come gruppo di istanze gestite. Assicurati che sia disponibile la seguente quota correlata:
    • Un singolo gruppo di istanze per job Dataflow
    • Un singolo gruppo di istanze gestite per job Dataflow
    • Un singolo modello di istanza per job Dataflow

Quote aggiuntive

A seconda dei tipi di origini e sink che utilizzi, potresti aver bisogno di quote aggiuntive.

  1. Pub/Sub: se stai utilizzando Pub/Sub, potresti aver bisogno di una quota aggiuntiva. Quando pianifichi la quota, ricorda che l'elaborazione di 1 messaggio da Pub/Sub comporta 3 operazioni. Se utilizzi timestamp personalizzati, devi raddoppiare il numero previsto di operazioni poiché Cloud Dataflow creerà una sottoscrizione separata per tracciare i timestamp personalizzati.
  2. BigQuery: se stai utilizzando l'API di flusso per BigQuery, vengono applicati limiti di quota e altre restrizioni.

Limiti

Questa sezione descrive i limiti di produzione pratici per Dataflow.

Limite Importo
Numero massimo di worker per pipeline. 1000
Dimensione massima per una richiesta di creazione job. Le descrizioni di pipeline con molti passaggi e nomi eccessivamente dettagliati potrebbero raggiungere questo limite. 10 MB
Numero massimo di shard di input aggiuntivi. 20.000
Dimensioni minime per il valore di un singolo elemento in Streaming Engine. 100 MB
Numero massimo di voci di log in un dato periodo di tempo, per worker. 15.000 messaggi ogni 30 secondi