Apache Beam SDK installieren

Auf dieser Seite erfahren Sie, wie Sie das Apache Beam SDK installieren, damit Sie Ihre Pipelines im Dataflow-Dienst ausführen können.

SDK-Versionen installieren

Das Apache Beam SDK ist ein Open-Source-Programmiermodell für Datenpipelines. Sie definieren diese Pipelines mit einem Apache Beam-Programm und können einen Runner wie Dataflow zum Ausführen Ihrer Pipeline auswählen. Informationen zur Einrichtung Ihres Google Cloud-Projekts und Ihrer Entwicklungsumgebung für die Verwendung von Dataflow finden Sie in einer der Kurzanleitungen.

Java

Die neueste Releaseversion des Apache Beam SDK für Java ist 2.32.0. In der Releasemitteilung finden Sie Informationen zu den Änderungen, die im Release enthalten sind.

Verwenden Sie eines der freigegebenen Artefakte aus dem Maven Central Repository, damit Sie das Apache Beam SDK für Java über Maven abrufen können.

So fügen Sie in der Datei pom.xml eine Abhängigkeit für das SDK-Artefakt hinzu:

<dependency>
  <groupId>org.apache.beam</groupId>
  <artifactId>beam-sdks-java-core</artifactId>
  <version>2.32.0</version>
</dependency>
<dependency>
  <groupId>org.apache.beam</groupId>
  <artifactId>beam-runners-google-cloud-dataflow-java</artifactId>
  <version>2.32.0</version>
</dependency>
<dependency>
  <groupId>org.apache.beam</groupId>
  <artifactId>beam-sdks-java-io-google-cloud-platform</artifactId>
  <version>2.32.0</version>
</dependency>

Python

Die neueste Releaseversion des Apache Beam SDK für Python ist 2.32.0. In der Releasemitteilung finden Sie Informationen zu den Änderungen, die im Release enthalten sind.

Verwenden Sie zum Abrufen des Apache Beam SDKs für Python eines der freigegebenen Pakete aus dem Python-Paketindex.

Führen Sie den folgenden Befehl aus, um das Python-Rad zu installieren:

pip install wheel

Installieren Sie die neueste Version des Apache Beam SDKs für Python. Führen Sie hierzu den folgenden Befehl in einer virtuellen Umgebung aus:

pip install 'apache-beam[gcp]'

Je nach Verbindung kann die Installation einige Zeit in Anspruch nehmen.

Verwenden Sie zum Aktualisieren einer vorhandenen Apache Beam-Installation das Flag --upgrade:

pip install --upgrade 'apache-beam[gcp]'

Quellcode und Beispiele

Der Apache Beam-Quellcode ist im Apache Beam-Repository auf GitHub verfügbar.

Java

Codebeispiele sind im Apache Beam Examples-Repository auf GitHub verfügbar.

Python

Codebeispiele sind im Apache Beam Examples-Repository auf GitHub verfügbar.

Weitere Tools

Dataflow lässt sich in das gcloud-Befehlszeilentool des Cloud SDK einbinden. Eine Anleitung zum Installieren der Dataflow-Befehlszeile finden Sie unter Dataflow-Befehlszeile verwenden.