Dataflow si basa su modelli open source progetto Apache Beam. Puoi usare l'SDK Apache Beam per creare pipeline per Dataflow. Questo documento elenca alcune risorse per iniziare a utilizzare Apache Beam per la programmazione.
Installa l'SDK Apache Beam: Mostra come installare l'SDK Apache Beam per poter eseguire di pipeline di addestramento sul servizio Dataflow.
Guida alla programmazione di Apache Beam: Fornisce indicazioni per l'utilizzo delle classi dell'SDK Apache Beam per la creazione e il test della tua pipeline.
Tour di Apache Beam: Una guida di apprendimento che puoi utilizzare per acquisire familiarità con Apache Beam. Le unità di apprendimento sono accompagnate da esempi di codice che puoi eseguire e modificare.
parco giochi Apache Beam: Un ambiente interattivo per provare le trasformazioni e gli esempi di Apache Beam senza dover installare Apache Beam nel tuo ambiente.
Sul sito web di Apache Beam, puoi anche trovare informazioni su come progetta, crea e testa la pipeline:
Progetta la pipeline: Mostra come determinare la struttura della pipeline e come scegliere quale trasformazioni da applicare ai dati e come determinare i valori di input e output di machine learning.
Crea la tua pipeline: Spiega i meccanismi di utilizzo delle classi negli SDK Apache Beam e i passaggi necessari per creare una pipeline.
Testa la pipeline: Presenta le best practice per testare le pipeline.
Puoi usare i seguenti esempi da GitHub di Apache Beam per iniziare per creare una pipeline in modalità flusso:
- Estrazione di flussi di parole (Java)
- Conteggio parole in streaming (Python) e
streaming_wordcap
(Vai).