Apache Beam SDK installieren

Auf dieser Seite erfahren Sie, wie Sie das Apache Beam SDK installieren, damit Sie Ihre Pipelines im Dataflow-Dienst ausführen können.

SDK-Releases installieren

Das Apache Beam SDK ist ein Open-Source-Programmiermodell für Datenpipelines. Sie definieren diese Pipelines mit einem Apache Beam-Programm und können einen Runner wie Dataflow zum Ausführen Ihrer Pipeline auswählen.

Java

Die neueste Releaseversion des Apache Beam SDK für Java ist 2.55.1. In der Releasemitteilung finden Sie Informationen zu den Änderungen, die im Release enthalten sind.

Verwenden Sie eines der freigegebenen Artefakte aus dem Maven Central Repository, damit Sie das Apache Beam SDK für Java über Maven abrufen können.

Fügen Sie der Datei pom.xml für das SDK-Artefakt Abhängigkeiten und Tools zur Abhängigkeitsverwaltung hinzu. Weitere Informationen finden Sie unter Pipelineabhängigkeiten in Dataflow verwalten.

Weitere Informationen zum Apache Beam SDK für Java-Abhängigkeiten finden Sie unter Apache Beam SDK für Java-Abhängigkeiten und Beam-Abhängigkeiten in Java verwalten in der Apache Beam-Dokumentation.

Python

Die neueste Releaseversion des Apache Beam SDK für Python ist 2.55.1. In der Releasemitteilung finden Sie Informationen zu den Änderungen, die im Release enthalten sind.

Verwenden Sie zum Abrufen des Apache Beam SDKs für Python eines der freigegebenen Pakete aus dem Python-Paketindex.

Führen Sie den folgenden Befehl aus, um das Python-Rad zu installieren:

pip install wheel

Installieren Sie die neueste Version des Apache Beam SDKs für Python. Führen Sie hierzu den folgenden Befehl in einer virtuellen Umgebung aus:

pip install 'apache-beam[gcp]'

Je nach Verbindung kann die Installation einige Zeit in Anspruch nehmen.

Verwenden Sie zum Aktualisieren einer vorhandenen Apache Beam-Installation das Flag --upgrade:

pip install --upgrade 'apache-beam[gcp]'

Go

Die neueste Releaseversion des Apache Beam SDK für Go ist 2.55.1. In der Releasemitteilung finden Sie Informationen zu den Änderungen, die im Release enthalten sind.

Führen Sie den folgenden Befehl aus, um die neueste Version des Apache Beam SDK für Go zu installieren:

go get -u github.com/apache/beam/sdks/v2/go/pkg/beam

Entwicklungsumgebung einrichten

Informationen zur Einrichtung Ihres Google Cloud-Projekts und Ihrer Entwicklungsumgebung für die Verwendung von Dataflow finden Sie in einer der Kurzanleitungen.

Quellcode und Beispiele

Der Apache Beam-Quellcode ist im Apache Beam-Repository auf GitHub verfügbar.

Java

Codebeispiele sind im Apache Beam Beispiel-Repository auf GitHub verfügbar.

Python

Codebeispiele sind im Apache Beam Beispiel-Repository auf GitHub verfügbar.

Einfach loslegen (Go)

Codebeispiele sind im Apache Beam Beispiel-Repository auf GitHub verfügbar.

Dataflow SDK-Version ermitteln

Die Einzelheiten der Installation hängen von Ihrer Entwicklungsumgebung ab. Wenn Sie Maven nutzen, können mehrere Versionen des Dataflow SDK in einem oder mehreren lokalen Maven-Repositories "installiert" sein.

Java

Wenn Sie herausfinden möchten, welche Version des Dataflow SDK eine bestimmte Pipeline ausführt, können Sie bei der Ausführung mit DataflowPipelineRunner oder BlockingDataflowPipelineRunner die Konsolenausgabe ansehen. Die Konsole liefert so Informationen zur Dataflow-SDK-Version:

Python

Wenn Sie herausfinden möchten, welche Version des Dataflow SDK eine bestimmte Pipeline ausführt, können Sie bei der Ausführung mit DataflowRunner die Konsolenausgabe ansehen. Die Konsole liefert so Informationen zur Dataflow-SDK-Version:

Einfach loslegen (Go)

Wenn Sie herausfinden möchten, welche Version des Dataflow SDK eine bestimmte Pipeline ausführt, können Sie bei der Ausführung mit DataflowRunner die Konsolenausgabe ansehen. Die Konsole liefert so Informationen zur Dataflow-SDK-Version:

  INFO: Executing pipeline on the Dataflow Service, ...
  Dataflow SDK version: <version>

Nächste Schritte