Dataflow è basato sul progetto open source Apache Beam. Puoi utilizzare l'SDK Apache Beam per creare pipeline per Dataflow. Questo documento elenca alcune risorse per iniziare a programmare Apache Beam.
Installa l'SDK Apache Beam: mostra come installare l'SDK Apache Beam in modo da poter eseguire le pipeline sul servizio Dataflow.
Guida alla programmazione Apache Beam: fornisce indicazioni sull'utilizzo delle classi dell'SDK Apache Beam per creare e testare la pipeline.
Tour di Apache Beam: una guida di apprendimento che puoi utilizzare per acquisire familiarità con Apache Beam. Le unità di apprendimento sono accompagnate da esempi di codice che puoi eseguire e modificare.
parco giochi Apache Beam: un ambiente interattivo per provare le trasformazioni e gli esempi di Apache Beam senza dover installare Apache Beam nel tuo ambiente.
Sul sito web di Apache Beam, puoi anche trovare informazioni su come progettare, creare e testare la tua pipeline:
Progetta la pipeline: mostra come determinare la struttura della pipeline, come scegliere quali trasformazioni applicare ai dati e come determinare i metodi di input e output.
Crea la pipeline: illustra i meccanismi per l'utilizzo delle classi negli SDK Apache Beam e i passaggi necessari per creare una pipeline.
Testare la pipeline: presenta le best practice per testare le pipeline.
Puoi utilizzare i seguenti esempi da GitHub di Apache Beam per iniziare a creare una pipeline in modalità flusso:
- Estrazione di flussi di dati (Java)
- Conteggio parole in modalità flusso (Python) e
streaming_wordcap
(Vai).