Usa Dataflow Shuffle per job batch

Dataflow Shuffle è l'operazione di base alla base Trasformazioni di Dataflow come GroupByKey, CoGroupByKey e Combine. Le partizioni e i gruppi dell'operazione Dataflow Shuffle i dati per chiave in modo scalabile, efficiente e a tolleranza di errore. La La funzionalità Dataflow Shuffle, disponibile solo per le pipeline batch, sposta l'operazione di shuffle dalle VM worker alla Backend del servizio Dataflow.

I job batch utilizzano Dataflow Shuffle per impostazione predefinita.

Vantaggi di Dataflow Shuffle

Dataflow Shuffle basato su servizi offre i seguenti vantaggi:

  • Tempi di esecuzione più rapidi delle pipeline batch per la maggior parte dei job della pipeline di testo.
  • Riduzione delle risorse di archiviazione di CPU, memoria e Persistent Disk consumate sulle VM worker.
  • Migliore scalabilità automatica orizzontale perché Le VM non contengono dati di shuffling e possono quindi essere sottoposte a scale down in anticipo.
  • Migliore tolleranza agli errori; una VM non integro con Dataflow Lo shuffling dei dati non provoca l'errore dell'intero job, come accadrebbe in caso contrario che utilizzano la funzionalità.

La maggior parte della riduzione delle risorse worker deriva dal trasferimento da parte del lavoro di shuffling al servizio Dataflow. Per questo motivo, esiste un charge associato all'uso di Dataflow Riproduzione casuale. I tempi di esecuzione possono variare da esecuzione a esecuzione. Se esegui la corsa una pipeline con scadenze importanti, ti consigliamo di assegnare di margine prima della scadenza.

Usa Dataflow Shuffle

Questa funzionalità è disponibile in tutte le regioni in cui è supportato Dataflow. Per visualizzare le località disponibili, consulta Località di Dataflow. Se utilizzi Dataflow Shuffle, i worker deve essere sottoposto a deployment nella stessa regione del job Dataflow.

Se utilizzi Dataflow Shuffle per la tua pipeline, non specificare zone opzioni pipeline. Specifica invece region e imposta il valore su uno delle regioni disponibili. Dataflow: e seleziona automaticamente la zona nella regione specificata. Se specifichi zone e impostarla su una zona al di fuori delle regioni disponibili, Dataflow segnala un errore. Se imposti una combinazione incompatibile di region e zone, il job non può utilizzare Dataflow Shuffle.

Potrebbero esserci differenze di rendimento tra le regioni.

Le dimensioni predefinite del disco di avvio per ogni job batch sono 25 GB. Per alcuni job batch, potrebbe essere necessario modificare le dimensioni del disco. Considera quanto segue:

  • Una VM worker utilizza parte dei 25 GB di spazio su disco per il sistema operativo, file binari, log e container. I job che utilizzano una quantità significativa di disco se superi la capacità rimanente del disco potrebbe non riuscire quando utilizzi Dataflow Shuffle.
  • I job che utilizzano una quantità elevata di I/O del disco potrebbero essere lenti a causa delle prestazioni un disco di piccole dimensioni. Per ulteriori informazioni sulle differenze di prestazioni tra i dischi dimensioni, consulta Prestazioni del disco permanente di Compute Engine.

Per specificare una dimensione del disco più grande per un job Dataflow Shuffle, puoi utilizza la --disk_size_gb .