Apache Beam zum Erstellen von Pipelines verwenden

Dataflow basiert auf dem Open-Source-Projekt Apache Beam. Sie können das Apache Beam SDK verwenden, um Pipelines für Dataflow zu erstellen. In diesem Dokument werden einige Ressourcen für den Einstieg in die Apache Beam-Programmierung aufgeführt.

  • Apache Beam SDK installieren: Erläutert, wie Sie das Apache Beam SDK installieren, damit Sie Ihre Pipelines im Dataflow-Dienst ausführen können.

  • Apache Beam-Programmierhandbuch: Enthält Anleitungen zum Verwenden der Apache Beam SDK-Klassen zum Erstellen und Testen Ihrer Pipeline.

  • Tour zu Apache Beam: Ein Lernleitfaden, mit dem Sie sich mit Apache Beam vertraut machen können. Lerneinheiten begleitet von Codebeispielen, die Sie ausführen und ändern können.

  • Apache Beam Playground: Eine interaktive Umgebung zum Testen von Apache Beam-Transformationen und -Beispielen, ohne Apache Beam in Ihrer Umgebung installieren zu müssen.

Auf der Apache Beam-Website finden Sie auch Informationen zum Entwerfen, Erstellen und Testen Ihrer Pipeline:

  • Die Entwicklung von Pipelines – zeigt, wie Sie die Struktur Ihrer Pipeline festlegen, wie Sie aussuchen, welche Transformationen auf Ihre Daten angewendet werden sollten und wie Sie Ihre Eingabe- und Ausgabemethoden bestimmen.

  • Pipeline erstellen: Erläutert die Funktionsweise der Verwendung der Klassen in den Apache Beam SDKs und die nötigen Schritte zur Erstellung einer Pipeline.

  • Pipeline testen: Stellt Best Practices zum Testen von Pipelines vor.

Sie können die folgenden Beispiele aus dem Apache Beam GitHub verwenden, um mit dem Erstellen einer Streaming-Pipeline zu beginnen: