Quote e limiti

Quote

Il servizio gestito Dataflow ha i seguenti limiti di quota:

  • Ogni utente può effettuare fino a 3.000.000 di richieste al minuto.
  • Ogni job Dataflow può utilizzare un massimo di 1000 istanze di Cloud Storage.
  • Ogni progetto Google Cloud può eseguire 100 job Dataflow simultanei.
  • Se attivi le quote a livello di organizzazione, ogni organizzazione può eseguire 125 job simultanei di Dataflow.
  • Ogni utente può effettuare fino a 15.000 richieste di monitoraggio al minuto.
  • Ogni progetto di Google Cloud riceve 160 slot Shuffle, sufficienti per eseguire lo shuffle di circa 100 TB di dati contemporaneamente.
  • Ogni progetto di Google Cloud riceve 60 GB al minuto per ogni area geografica cloud di velocità effettiva di Streaming Engine per inviare dati tra istanze Compute Engine e Streaming Engine.

Puoi controllare l'utilizzo corrente della quota specifica di Dataflow in questo modo:

  1. In Google Cloud Console, vai su API e servizi.
    Vai su API e Servizi
  2. Fai clic su Dashboard.
  3. Fai clic su API Dataflow.
  4. Fai clic su Quote.
    Ad esempio, per controllare il tuo attuale utilizzo delle quote degli slot Shuffle, troverai il grafico degli slot Shuffle nella pagina Quote.
    Slot Shuffle nella pagina Quote.

Il servizio Dataflow utilizza vari componenti di Google Cloud, come BigQuery, Cloud Storage, Pub/Sub, e Compute Engine. Questi e altri servizi Google Cloud utilizzano le quote per limitare il numero massimo di risorse che è possibile utilizzare in un progetto. Quando utilizzi Dataflow, potresti dover modificare le impostazioni delle quote per questi servizi.

Quote di Compute Engine

Quando esegui la pipeline sul servizio Dataflow, quest'ultimo crea le istanze di Compute Engine per eseguire il codice della pipeline.

La quota di Compute Engine viene specificata per area geografica. Controlla la quota di Compute Engine del progetto e, se necessario, richiedi le seguenti modifiche:

  • CPU: i tipi di macchina predefiniti per Dataflow sono n1-standard-1 per la modalità batch e n1-standard-4 per la modalità di flusso. FlexRS utilizza macchine n1-standard-2 per impostazione predefinita. Con la versione beta, FlexRS utilizza un 90% di VM prerilasciabili e un 10% di VM standard. Compute Engine calcola il numero di CPU sommando il conteggio totale delle CPU di ciascuna istanza. Ad esempio, l'esecuzione di 10 istanze n1-standard-4 corrisponde a un conteggio totale di 40 CPU. Vedi Tipi di macchine di Compute Engine per una mappatura dei tipi di macchine al conteggio delle CPU.
  • Indirizzi IP in uso: il numero di indirizzi IP in uso nel progetto deve essere sufficiente per poter gestire il numero desiderato di istanze. Per utilizzare 10 istanze di Compute Engine, sono necessari 10 indirizzi IP in uso.
  • Persistent Disk: Dataflow collega Persistent Disk a ciascuna istanza.
    • Le dimensioni predefinite del disco sono di 250 GB per pipeline in modalità batch e 420 GB per le pipeline in modalità di flusso. Nel caso di 10 istanze, per impostazione predefinita sono necessari 2500 GB di Persistent Disk per un job batch.
    • Le dimensioni predefinite del disco sono di 25 GB per le pipeline batch di Dataflow Shuffle.
    • Le dimensioni predefinite del disco sono di 30 GB per le pipeline in modalità flusso di Streaming Engine.
  • Gruppi di istanze gestite: Dataflow distribuisce le istanze di Compute Engine come gruppo di istanze gestite. Assicurati che sia disponibile la seguente quota correlata:
    • Un singolo gruppo di istanze per job Dataflow
    • Un singolo gruppo di istanze gestite per job Dataflow
    • Un singolo modello di istanza per job Dataflow

Quote aggiuntive

A seconda del tipi di origini e sink che utilizzi, potresti aver bisogno di quote aggiuntive.

  1. Pub/Sub: se stai utilizzando Pub/Sub, potresti avere bisogno di una quota aggiuntiva. Quando pianifichi la quota, ricorda che l'elaborazione di un messaggio da Cloud Pub/Sub comporta tre operazioni. Se utilizzi timestamp personalizzati, devi raddoppiare il numero previsto di operazioni poiché Cloud Dataflow creerà un abbonamento separato per tracciare i timestamp personalizzati.
  2. BigQuery: se stai utilizzando l'API di flusso per BigQuery, vengono applicati limiti di quota e altre restrizioni.

Limiti

Questa sezione descrive i limiti di produzione pratici per Dataflow.

Limite Importo
Numero massimo di nodi di lavoro per pipeline. 1000
Dimensione massima per una richiesta di creazione job. Le descrizioni di pipeline con molti passaggi e nomi eccessivamente dettagliati potrebbero raggiungere questo limite. 10 MB
Numero massimo di shard di input aggiuntivi. 20.000
Dimensioni minime per il valore di un singolo elemento in Streaming Engine. 100 MB
Hai trovato utile questa pagina? Facci sapere cosa ne pensi:

Invia feedback per...

Hai bisogno di assistenza? Visita la nostra pagina di assistenza.