La scalabilità automatica orizzontale consente a Dataflow di scegliere il numero appropriato di istanze worker per il tuo job, aggiungendo o rimuovendo i worker in base alle esigenze. Dataflow si adatta in base all'utilizzo medio della CPU dei worker e al parallelismo di una pipeline. Il parallelismo di una pipeline è una stima del numero di thread necessari per elaborare i dati in modo più efficiente in qualsiasi momento.
La scalabilità automatica orizzontale è supportata sia nelle pipeline in batch che in streaming.
Scalabilità automatica batch
La scalabilità automatica orizzontale è abilitata per impostazione predefinita in tutte le pipeline batch. Dataflow sceglie automaticamente il numero di worker in base alla quantità totale di lavoro stimata in ogni fase della pipeline. Questa stima dipende dalle dimensioni dell'input e dal throughput corrente. Ogni 30 secondi, Dataflow rivaluta la quantità di lavoro in base all'avanzamento dell'esecuzione. Man mano che la quantità totale di lavoro stimata aumenta o diminuisce, Dataflow aumenta o diminuisce dinamicamente il numero di worker.
Il numero di worker è sublineare rispetto alla quantità di lavoro. Ad esempio, un job con il doppio del lavoro ha meno del doppio dei lavoratori.
Se si verifica una delle seguenti condizioni, Dataflow mantiene o riduce il numero di worker per risparmiare risorse inattive:
- L'utilizzo medio della CPU dei worker è inferiore al 5%.
- Il parallelismo è limitato a causa di attività non parallelizzabili, ad esempio dati non suddividibili causati da file compressi o moduli I/O che non si suddividono.
- Il grado di parallelismo è fisso, ad esempio quando si scrive in file esistenti in Cloud Storage.
Per impostare un limite superiore al numero di worker, imposta l'opzione della pipeline --maxNumWorkers
.
Il valore predefinito è 2,000
.
Per impostare un limite inferiore per il numero di worker, imposta l'opzione di servizio --min_num_workers
.
Questi flag sono facoltativi.
Scalabilità automatica di streaming
Per i job di streaming, la scalabilità automatica orizzontale consente a Dataflow di modificare in modo adattivo il numero di worker in risposta alle variazioni del carico e dell'utilizzo delle risorse.
La scalabilità automatica orizzontale è abilitata per impostazione predefinita per i job di streaming che utilizzano Streaming Engine. Per attivare la scalabilità automatica orizzontale per i job in streaming che non utilizzano Streaming Engine, imposta le seguenti opzioni della pipeline all'avvio della pipeline:
Java
--autoscalingAlgorithm=THROUGHPUT_BASED
--maxNumWorkers=MAX_WORKERS
Sostituisci MAX_WORKERS con il numero massimo di istanze worker.
Python
--autoscaling_algorithm=THROUGHPUT_BASED
--max_num_workers=MAX_WORKERS
Sostituisci MAX_WORKERS con il numero massimo di istanze worker.
Vai
--autoscaling_algorithm=THROUGHPUT_BASED
--max_num_workers=MAX_WORKERS
Sostituisci MAX_WORKERS con il numero massimo di istanze worker.
Per impostare un limite inferiore per il numero di worker, imposta l'opzione di servizio --min_num_workers
.
Quando imposti questo valore, la scalabilità automatica orizzontale non scala al di sotto del numero di worker specificato. Questo flag è facoltativo.
Disattivare la scalabilità automatica orizzontale
Per disattivare la scalabilità automatica orizzontale, imposta la seguente opzione della pipeline quando esegui il job.
Java
--autoscalingAlgorithm=NONE
Se disattivi la scalabilità automatica orizzontale, Dataflow imposta il numero di worker in base all'opzione --numWorkers
.
Python
--autoscaling_algorithm=NONE
Se disattivi la scalabilità automatica orizzontale, Dataflow imposta il numero di worker in base all'opzione --num_workers
.
Vai
--autoscaling_algorithm=NONE
Se disattivi la scalabilità automatica orizzontale, Dataflow imposta il numero di worker in base all'opzione --num_workers
.
Origini personalizzate
Se crei un'origine dati personalizzata, puoi potenzialmente migliorare il rendimento implementando metodi che forniscono più informazioni all'algoritmo di scalabilità automatica orizzontale:
Java
Origini con limiti
- Nella sottoclasse
BoundedSource
, implementa il metodogetEstimatedSizeBytes
. Il servizio Dataflow utilizzagetEstimatedSizeBytes
per calcolare il numero iniziale di worker da utilizzare per la pipeline. - Nella sottoclasse
BoundedReader
, implementa il metodogetFractionConsumed
. Il servizio Dataflow utilizzagetFractionConsumed
per monitorare l'avanzamento della lettura e convergere sul numero corretto di worker da utilizzare durante una lettura.
Origini illimitate
L'origine deve informare il servizio Dataflow del backlog.
Il backlog è una stima dell'input in byte che non è stato ancora elaborato dall'origine. Per informare il servizio del backlog, implementa uno dei seguenti metodi nel tuo UnboundedReader
.
getSplitBacklogBytes()
: backlog per la suddivisione corrente dell'origine. Il servizio aggrega il backlog in tutte le suddivisioni.getTotalBacklogBytes()
: il backlog globale in tutte le suddivisioni. In alcuni casi il backlog non è disponibile per ogni suddivisione e può essere calcolato solo su tutte le suddivisioni. Solo la prima suddivisione (ID suddivisione "0") deve fornire il backlog totale.
Il repository Apache Beam contiene diversi
esempi
di origini personalizzate che implementano la classe UnboundedReader
.
Python
Origini con limiti
- Nella sottoclasse
BoundedSource
, implementa il metodoestimate_size
. Il servizio Dataflow utilizzaestimate_size
per calcolare il numero iniziale di worker da utilizzare per la pipeline. - Nella sottoclasse
RangeTracker
, implementa il metodofraction_consumed
. Il servizio Dataflow utilizzafraction_consumed
per monitorare l'avanzamento della lettura e convergere sul numero corretto di worker da utilizzare durante una lettura.
Vai
Origini con limiti
- In
RangeTracker
, implementa il metodoGetProgress()
. Il servizio Dataflow utilizzaGetProgress
per monitorare l'avanzamento della lettura e convergere sul numero corretto di worker da utilizzare durante una lettura.
Limitazioni
- Nei job che eseguono Dataflow Prime, la scalabilità automatica orizzontale viene disattivata durante e fino a 10 minuti dopo la scalabilità automatica verticale. Per ulteriori informazioni, consulta Effetto sulla scalabilità automatica orizzontale.
- Per le pipeline che non utilizzano Dataflow Shuffle, Dataflow potrebbe non essere in grado di fare lo scale down efficacemente il numero di worker perché i worker potrebbero aver rimescolato i dati archiviati su dischi locali.
- La trasformazione
PeriodicImpulse
è supportata con l'autoscaling in streaming nelle versioni dell'SDK Apache Beam 2.60.0 e successive. Se la tua pipeline utilizza
PeriodicImpulse
con una versione precedente dell'SDK, i worker di Dataflow non fare lo scale down come previsto.
Passaggi successivi
- Ottimizzare la scalabilità automatica orizzontale per le pipeline di streaming
- Monitorare la scalabilità automatica di Dataflow
- Risolvere i problemi di scalabilità automatica di Dataflow