Questa pagina descrive i diversi modi per creare pipeline per Dataflow e i vantaggi di ciascun metodo.
Modelli forniti da Google
Google fornisce modelli open source per decine di pipeline Dataflow predefinite. Puoi eseguire questi modelli dalla consoleGoogle Cloud o dalla riga di comando. Alcuni modelli supportano l'aggiunta di una funzione definita dall'utente dall'utente, in modo da poter trasformare i dati prima di scriverli nella destinazione di output.
Se esiste un modello che corrisponde al tuo scenario, prendi in considerazione l'utilizzo di un modello. Per un elenco completo, consulta Modelli forniti da Google.
Builder di job
Job Builder è una UI visiva per creare ed eseguire pipeline Dataflow nella console Google Cloud , senza scrivere codice. Nel builder di job, crei una pipeline selezionando origini, sink e trasformazioni e collegandoli per formare un grafico. Il builder dei job ti consente anche di salvare e caricare le pipeline come file YAML.
Considera lo strumento di creazione dei lavori per i seguenti scenari:
- Crea pipeline personalizzate quando un modello fornito da Google non corrisponde al tuo scenario.
- Crea pipeline senza scrivere codice.
- Crea pipeline con più origini o sink.
- Crea prototipi rapidi.
Per saperne di più, vedi Panoramica della UI di Job Builder.
Lo strumento per la creazione dei job supporta un sottoinsieme delle origini e dei sink disponibili in Apache Beam. Se hai bisogno di una trasformazione non supportata nel generatore di job, prova un modello fornito da Google o utilizza l'SDK Apache Beam.
SDK Apache Beam
Le pipeline Dataflow sono basate sull'SDK Apache Beam open source. Utilizzando l'SDK per scrivere la pipeline, ottieni tutta la potenza di Apache Beam per i tuoi carichi di lavoro. Le pipeline possono essere scritte in Java, Python o Go.
Se non riesci a realizzare lo scenario con un modello fornito da Google o utilizzando lo strumento di creazione dei job, valuta la possibilità di utilizzare l'SDK Apache Beam. Ad esempio:
- Pipeline più complesse che richiedono l'intero set di funzionalità di Apache Beam.
- Pipeline di streaming che richiedono strategie più sofisticate per la gestione dei dati in ritardo, ad esempio il rielaborazione.
Per maggiori informazioni, vedi Utilizzare Apache Beam per creare pipeline.
Notebook
Puoi eseguire il codice Python di Apache Beam in un notebook JupyterLab. Questi notebook sono resi disponibili tramite Vertex AI Workbench, un servizio che ospita VM notebook con i più recenti framework di data science e machine learning preinstallati. Con i notebook, non devi configurare un ambiente di sviluppo e puoi iterare rapidamente il codice della pipeline. Notebooks vengono eseguiti in un ambiente di test, ma puoi esportare il codice per l'utilizzo in produzione.
Per saperne di più, consulta Sviluppa notebook Apache Beam.