Apache Beam SDK installieren

Auf dieser Seite wird beschrieben, wie Sie das Apache Beam SDK installieren, damit Sie Ihre Pipelines im Dataflow-Dienst ausführen können.

Hinweis zur zukünftigen Einstellung des Dataflow SDK: Das Dataflow SDK 2.5.0 ist der letzte Dataflow SDK-Release, der von den Apache Beam SDK-Releases getrennt ist. Der Dataflow-Dienst unterstützt die offiziellen Apache Beam SDK-Releases vollständig. Auf der Supportseite für Dataflow finden Sie Informationen zum Supportstatus verschiedener SDKs.

SDK-Versionen installieren

Das Apache Beam SDK ist ein Open-Source-Programmiermodell für Datenpipelines. Sie definieren diese Pipelines mit einem Apache Beam-Programm und können einen Runner wie Dataflow zum Ausführen Ihrer Pipeline auswählen. Informationen zur Einrichtung Ihres Google Cloud-Projekts und Ihrer Entwicklungsumgebung für die Verwendung von Dataflow finden Sie in einer der Kurzanleitungen.

Java

Die neueste freigegebene Version des Apache Beam SDK für Java ist 2.20.0. In der Releasemitteilung finden Sie Informationen zu den Änderungen, die im Release enthalten sind.

Verwenden Sie eines der freigegebenen Artefakte aus dem Maven Central Repository, damit Sie das Apache Beam SDK für Java über Maven abrufen können.

Fügen Sie in die Datei pom.xml eine Abhängigkeit ein und geben Sie für das SDK-Artefakt auf folgende Weise einen Versionsbereich an:

  <dependency>
  <groupId>org.apache.beam</groupId>
  <artifactId>beam-sdks-java-core</artifactId>
  <version>[2.20.0, 2.99)</version>
  </dependency>
  

Python

Die neueste freigegebene Version des Apache Beam SDK für Python ist 2.20.0. In der Releasemitteilung finden Sie Informationen zu den Änderungen, die im Release enthalten sind.

Ab 7. Oktober 2020 werden Pipelines mit Python 2 von Dataflow nicht mehr unterstützt. Weitere Informationen finden Sie auf der Seite Python 2-Support in Google Cloud.

Verwenden Sie zum Abrufen des Apache Beam SDKs für Python eines der freigegebenen Pakete aus dem Python-Paketindex.

Installieren Sie die neueste Version des Apache Beam SDKs für Python. Führen Sie hierzu den folgenden Befehl in einer virtuellen Umgebung aus:

pip install apache-beam[gcp]

Verwenden Sie zum Aktualisieren einer vorhandenen Apache Beam-Installation das Flag --upgrade:

pip install --upgrade apache-beam[gcp]

Quellcode und Beispiele

Der Apache Beam-Quellcode ist im Apache Beam-Repository auf GitHub verfügbar.

Java

Codebeispiele sind im Apache Beam Examples-Repository auf GitHub verfügbar.

Python

Codebeispiele sind im Apache Beam Examples-Repository auf GitHub verfügbar.

Weitere Tools

Java

Dataflow lässt sich in das gcloud-Befehlszeilentool des Cloud SDK einbinden. Eine Anleitung zum Installieren der Dataflow-Befehlszeile finden Sie unter Dataflow-Befehlszeile verwenden.

Python

Dataflow lässt sich in das gcloud-Befehlszeilentool des Cloud SDK einbinden. Unter Dataflow-Befehlszeilenschnittstelle verwenden finden Sie Anleitungen zur Installation der Dataflow-Befehlszeilenschnittstelle.