Utilizzo di container personalizzati in Dataflow

Puoi personalizzare l'ambiente di runtime del codice utente nelle pipeline di Dataflow fornendo un'immagine container personalizzata. I container personalizzati sono supportati per le pipeline che utilizzano Dataflow Runner v2.

Quando Dataflow avvia le VM worker, utilizza immagini container Docker per avviare processi SDK containerizzati sui worker. Per impostazione predefinita, una pipeline utilizza un'immagine Apache Beam predefinita. Tuttavia, puoi fornire un'immagine container personalizzata per il tuo job Dataflow. Quando specifichi un'immagine container personalizzata, Dataflow avvia i worker che eseguono il pull dell'immagine specificata.

Potresti utilizzare un container personalizzato per i seguenti motivi:

Preinstalla le dipendenze della pipeline per ridurre i tempi di avvio dei worker.
Preinstalla le dipendenze della pipeline che non sono disponibili nei repository pubblici.
Preinstalla le dipendenze della pipeline quando l'accesso ai repository pubblici è disattivato. L'accesso potrebbe essere disattivato per motivi di sicurezza.
Pre-stage di file di grandi dimensioni per ridurre i tempi di avvio dei worker.
Avvia il software di terze parti in background.
Personalizzare l'ambiente di esecuzione.

Per ulteriori informazioni sui container personalizzati in Apache Beam, consulta la guida ai container personalizzati di Apache Beam. Per esempi di pipeline Python che utilizzano container personalizzati, consulta Container personalizzati Dataflow.

Utilizzo di container personalizzati in Dataflow

Passaggi successivi