Apache Beam SDK installieren

Auf dieser Seite wird beschrieben, wie Sie das Apache Beam SDK installieren, damit Sie Ihre Pipelines im Dataflow-Dienst ausführen können.

Hinweis zur zukünftigen Einstellung des Dataflow SDK: Das Dataflow SDK 2.5.0 ist der letzte Dataflow SDK-Release, der von den Apache Beam SDK-Releases getrennt ist. Der Dataflow-Dienst unterstützt die offiziellen Apache Beam SDK-Releases vollständig. Auf der Supportseite für Dataflow finden Sie Informationen zum Supportstatus verschiedener SDKs.

SDK-Versionen installieren

Das Apache Beam SDK ist ein Open-Source-Programmiermodell für Datenpipelines. Sie definieren diese Pipelines mit einem Apache Beam-Programm und können einen Runner wie Dataflow zum Ausführen Ihrer Pipeline auswählen. Informationen zur Einrichtung Ihres Google Cloud-Projekts und Ihrer Entwicklungsumgebung für die Verwendung von Dataflow finden Sie in einer der Kurzanleitungen.

Java

Die neueste Releaseversion des Apache Beam SDK für Java ist 2.27.0. In der Releasemitteilung finden Sie Informationen zu den Änderungen, die im Release enthalten sind.

Verwenden Sie eines der freigegebenen Artefakte aus dem Maven Central Repository, damit Sie das Apache Beam SDK für Java über Maven abrufen können.

So fügen Sie in der Datei pom.xml eine Abhängigkeit für das SDK-Artefakt hinzu:

  <dependency>
  <groupId>org.apache.beam</groupId>
  <artifactId>beam-sdks-java-core</artifactId>
  <version>2.27.0</version>
  </dependency>
  

Python

Die neueste Releaseversion des Apache Beam SDK für Python ist 2.27.0. In der Releasemitteilung finden Sie Informationen zu den Änderungen, die im Release enthalten sind.

Verwenden Sie zum Abrufen des Apache Beam SDKs für Python eines der freigegebenen Pakete aus dem Python-Paketindex.

Installieren Sie die neueste Version des Apache Beam SDKs für Python. Führen Sie hierzu den folgenden Befehl in einer virtuellen Umgebung aus:

pip install apache-beam[gcp]

Verwenden Sie zum Aktualisieren einer vorhandenen Apache Beam-Installation das Flag --upgrade:

pip install --upgrade apache-beam[gcp]

Seit dem 7. Oktober 2020 unterstützt Dataflow nicht mehr Python 2-Pipelines. Weitere Informationen finden Sie auf der Seite Python 2-Support in Google Cloud.

Quellcode und Beispiele

Der Apache Beam-Quellcode ist im Apache Beam-Repository auf GitHub verfügbar.

Java

Codebeispiele sind im Apache Beam Examples-Repository auf GitHub verfügbar.

Python

Codebeispiele sind im Apache Beam Examples-Repository auf GitHub verfügbar.

Weitere Tools

Java

Dataflow lässt sich in das gcloud-Befehlszeilentool des Cloud SDK einbinden. Eine Anleitung zum Installieren der Dataflow-Befehlszeile finden Sie unter Dataflow-Befehlszeile verwenden.

Python

Dataflow lässt sich in das gcloud-Befehlszeilentool des Cloud SDK einbinden. Unter Dataflow-Befehlszeilenschnittstelle verwenden finden Sie Anleitungen zur Installation der Dataflow-Befehlszeilenschnittstelle.