Dataflow basiert auf dem Open-Source-Projekt Apache Beam. Sie können das Apache Beam SDK verwenden, um Pipelines für Dataflow zu erstellen. In diesem Dokument werden einige Ressourcen für den Einstieg in die Apache Beam-Programmierung aufgeführt.
Apache Beam SDK installieren: Erläutert, wie Sie das Apache Beam SDK installieren, damit Sie Ihre Pipelines im Dataflow-Dienst ausführen können.
Apache Beam-Programmierhandbuch: Enthält Anleitungen zum Verwenden der Apache Beam SDK-Klassen zum Erstellen und Testen Ihrer Pipeline.
Tour zu Apache Beam: Ein Lernleitfaden, mit dem Sie sich mit Apache Beam vertraut machen können. Lerneinheiten begleitet von Codebeispielen, die Sie ausführen und ändern können.
Apache Beam Playground: Eine interaktive Umgebung zum Testen von Apache Beam-Transformationen und -Beispielen, ohne Apache Beam in Ihrer Umgebung installieren zu müssen.
Auf der Apache Beam-Website finden Sie auch Informationen zum Entwerfen, Erstellen und Testen Ihrer Pipeline:
Die Entwicklung von Pipelines – zeigt, wie Sie die Struktur Ihrer Pipeline festlegen, wie Sie aussuchen, welche Transformationen auf Ihre Daten angewendet werden sollten und wie Sie Ihre Eingabe- und Ausgabemethoden bestimmen.
Pipeline erstellen: Erläutert die Funktionsweise der Verwendung der Klassen in den Apache Beam SDKs und die nötigen Schritte zur Erstellung einer Pipeline.
Pipeline testen: Stellt Best Practices zum Testen von Pipelines vor.
Sie können die folgenden Beispiele aus dem Apache Beam GitHub verwenden, um mit dem Erstellen einer Streaming-Pipeline zu beginnen:
- Streaming-Wortextraktion (Java)
- Streaming-Wortzählung (Python) und
streaming_wordcap
(Go).