Scalabilità automatica orizzontale

La scalabilità automatica orizzontale consente a Dataflow di scegliere il numero appropriato di istanze worker per il tuo job, aggiungendo o rimuovendo i worker in base alle esigenze. Dataflow si adatta in base all'utilizzo medio della CPU dei worker e al parallelismo di una pipeline. Il parallelismo di una pipeline è una stima del numero di thread necessari per elaborare i dati in modo più efficiente in qualsiasi momento.

La scalabilità automatica orizzontale è supportata sia nelle pipeline in batch che in streaming.

Scalabilità automatica batch

L'autoscaling orizzontale è abilitato per impostazione predefinita in tutte le pipeline batch. Dataflow sceglie automaticamente il numero di worker in base alla quantità totale di lavoro stimata in ogni fase della pipeline. Questa stima dipende dalle dimensioni dell'input e dal throughput corrente. Ogni 30 secondi, Dataflow rivaluta la quantità di lavoro in base all'avanzamento dell'esecuzione. Man mano che la quantità totale di lavoro stimata aumenta o diminuisce, Dataflow aumenta o diminuisce dinamicamente il numero di worker.

Il numero di worker è inferiore alla quantità di lavoro. Ad esempio, un job con il doppio del lavoro ha meno del doppio dei lavoratori.

Se si verifica una delle seguenti condizioni, Dataflow mantiene o riduce il numero di worker per risparmiare risorse inattive:

  • L'utilizzo medio della CPU dei worker è inferiore al 5%.
  • Il parallelismo è limitato a causa di attività non parallelizzabili, ad esempio dati non suddividibili causati da file compressi o moduli I/O che non si suddividono.
  • Il grado di parallelismo è fisso, ad esempio quando si scrive in file esistenti in Cloud Storage.

Per impostare un limite superiore al numero di worker, imposta l'opzione della pipeline --maxNumWorkers. Il valore predefinito è 2,000. Per impostare un limite inferiore per il numero di worker, imposta l'opzione di servizio --min_num_workers. Questi flag sono facoltativi.

Scalabilità automatica di streaming

Per i job di streaming, la scalabilità automatica orizzontale consente a Dataflow di modificare in modo adattivo il numero di worker in risposta alle variazioni del carico e dell'utilizzo delle risorse.

La scalabilità automatica orizzontale è abilitata per impostazione predefinita per i job di streaming che utilizzano Streaming Engine. Per attivare la scalabilità automatica orizzontale per i job in streaming che non utilizzano Streaming Engine, imposta le seguenti opzioni della pipeline all'avvio della pipeline:

Java

--autoscalingAlgorithm=THROUGHPUT_BASED
--maxNumWorkers=MAX_WORKERS

Sostituisci MAX_WORKERS con il numero massimo di istanze worker.

Python

--autoscaling_algorithm=THROUGHPUT_BASED
--max_num_workers=MAX_WORKERS

Sostituisci MAX_WORKERS con il numero massimo di istanze worker.

Vai

--autoscaling_algorithm=THROUGHPUT_BASED
--max_num_workers=MAX_WORKERS

Sostituisci MAX_WORKERS con il numero massimo di istanze worker.

Per impostare un limite inferiore per il numero di worker, imposta l'opzione di servizio --min_num_workers. Quando imposti questo valore, la scalabilità automatica orizzontale non scala al di sotto del numero di worker specificato. Questo flag è facoltativo.

Disattivare la scalabilità automatica orizzontale

Per disattivare la scalabilità automatica orizzontale, imposta la seguente opzione della pipeline quando esegui il job.

Java

--autoscalingAlgorithm=NONE

Se disattivi la scalabilità automatica orizzontale, Dataflow imposta il numero di worker in base all'opzione --numWorkers.

Python

--autoscaling_algorithm=NONE

Se disattivi la scalabilità automatica orizzontale, Dataflow imposta il numero di worker in base all'opzione --num_workers.

Vai

--autoscaling_algorithm=NONE

Se disattivi la scalabilità automatica orizzontale, Dataflow imposta il numero di worker in base all'opzione --num_workers.

Origini personalizzate

Se crei un'origine dati personalizzata, puoi potenzialmente migliorare il rendimento implementando metodi che forniscono più informazioni all'algoritmo di scalabilità automatica orizzontale:

Java

Origini con limiti

  • Nella sottoclasse BoundedSource, implementa il metodo getEstimatedSizeBytes. Il servizio Dataflow utilizza getEstimatedSizeBytes per calcolare il numero iniziale di worker da utilizzare per la pipeline.
  • Nella sottoclasse BoundedReader, implementa il metodo getFractionConsumed. Il servizio Dataflow utilizza getFractionConsumed per monitorare l'avanzamento della lettura e convergere sul numero corretto di worker da utilizzare durante una lettura.

Origini illimitate

L'origine deve informare il servizio Dataflow del backlog. Il backlog è una stima dell'input in byte che non è stato ancora elaborato dall'origine. Per informare il servizio del backlog, implementa uno dei seguenti metodi nel tuo UnboundedReader.

  • getSplitBacklogBytes(): backlog per la suddivisione corrente dell'origine. Il servizio aggrega il backlog in tutte le suddivisioni.
  • getTotalBacklogBytes(): il backlog globale in tutte le suddivisioni. In alcuni casi il backlog non è disponibile per ogni suddivisione e può essere calcolato solo su tutte le suddivisioni. Solo la prima suddivisione (ID suddivisione "0") deve fornire il backlog totale.

Il repository Apache Beam contiene diversi esempi di origini personalizzate che implementano la classe UnboundedReader.

Python

Origini con limiti

  • Nella sottoclasse BoundedSource, implementa il metodo estimate_size. Il servizio Dataflow utilizza estimate_size per calcolare il numero iniziale di worker da utilizzare per la pipeline.
  • Nella sottoclasse RangeTracker, implementa il metodo fraction_consumed. Il servizio Dataflow utilizza fraction_consumed per monitorare l'avanzamento della lettura e convergere sul numero corretto di worker da utilizzare durante una lettura.

Vai

Origini con limiti

  • In RangeTracker, implementa il metodo GetProgress(). Il servizio Dataflow utilizza GetProgress per monitorare l'avanzamento della lettura e convergere sul numero corretto di worker da utilizzare durante una lettura.

Limitazioni

  • Nei job che eseguono Dataflow Prime, la scalabilità automatica orizzontale viene disattivata durante e fino a 10 minuti dopo la scalabilità automatica verticale. Per ulteriori informazioni, consulta Effetto sulla scalabilità automatica orizzontale.
  • Per le pipeline che non utilizzano Dataflow Shuffle, Dataflow potrebbe non essere in grado di fare lo scale down efficacemente il numero di worker perché i worker potrebbero aver rimescolato i dati archiviati su dischi locali.
  • La trasformazione PeriodicImpulse è supportata con l'autoscaling in streaming nelle versioni dell'SDK Apache Beam 2.60.0 e successive. Se la tua pipeline utilizza PeriodicImpulse con una versione precedente dell'SDK, i worker di Dataflow non fare lo scale down come previsto.

Passaggi successivi