Auf dieser Seite erfahren Sie, wie Sie das Apache Beam SDK installieren, damit Sie Ihre Pipelines im Dataflow-Dienst ausführen können.
SDK-Releases installieren
Das Apache Beam SDK ist ein Open-Source-Programmiermodell für Datenpipelines. Sie definieren diese Pipelines mit einem Apache Beam-Programm und können einen Runner wie Dataflow zum Ausführen Ihrer Pipeline auswählen.
Java
Die neueste Releaseversion des Apache Beam SDK für Java ist 2.58.1. In der Releasemitteilung finden Sie Informationen zu den Änderungen, die im Release enthalten sind.
Verwenden Sie eines der freigegebenen Artefakte aus dem Maven Central Repository, damit Sie das Apache Beam SDK für Java über Maven abrufen können.
Fügen Sie der Datei pom.xml
für das SDK-Artefakt Abhängigkeiten und Tools zur Abhängigkeitsverwaltung hinzu. Weitere Informationen finden Sie unter Pipelineabhängigkeiten in Dataflow verwalten.
Weitere Informationen zum Apache Beam SDK für Java-Abhängigkeiten finden Sie unter Apache Beam SDK für Java-Abhängigkeiten und Beam-Abhängigkeiten in Java verwalten in der Apache Beam-Dokumentation.
Python
Die neueste Releaseversion des Apache Beam SDK für Python ist 2.58.1. In der Releasemitteilung finden Sie Informationen zu den Änderungen, die im Release enthalten sind.
Verwenden Sie zum Abrufen des Apache Beam SDKs für Python eines der freigegebenen Pakete aus dem Python-Paketindex.
Führen Sie den folgenden Befehl aus, um das Python-Rad zu installieren:
pip install wheel
Installieren Sie die neueste Version des Apache Beam SDKs für Python. Führen Sie hierzu den folgenden Befehl in einer virtuellen Umgebung aus:
pip install 'apache-beam[gcp]'
Je nach Verbindung kann die Installation einige Zeit in Anspruch nehmen.
Verwenden Sie zum Aktualisieren einer vorhandenen Apache Beam-Installation das Flag --upgrade
:
pip install --upgrade 'apache-beam[gcp]'
Go
Die neueste Releaseversion des Apache Beam SDK für Go ist 2.58.1. In der Releasemitteilung finden Sie Informationen zu den Änderungen, die im Release enthalten sind.
Führen Sie den folgenden Befehl aus, um die neueste Version des Apache Beam SDK für Go zu installieren:
go get -u github.com/apache/beam/sdks/v2/go/pkg/beam
Entwicklungsumgebung einrichten
Informationen zur Einrichtung Ihres Google Cloud-Projekts und Ihrer Entwicklungsumgebung für die Verwendung von Dataflow finden Sie in einer der Kurzanleitungen.
- Dataflow-Pipeline mit Java erstellen
- Dataflow-Pipeline mit Python erstellen
- Dataflow-Pipeline mit Go erstellen
- Streaming-Pipeline mit einer Dataflow-Vorlage erstellen
Quellcode und Beispiele
Der Apache Beam-Quellcode ist im Apache Beam-Repository auf GitHub verfügbar.
Java
Codebeispiele sind im Apache Beam Beispiel-Repository auf GitHub verfügbar.
Python
Codebeispiele sind im Apache Beam Beispiel-Repository auf GitHub verfügbar.
Go
Codebeispiele sind im Apache Beam Beispiel-Repository auf GitHub verfügbar.
Dataflow SDK-Version ermitteln
Die Einzelheiten der Installation hängen von Ihrer Entwicklungsumgebung ab. Wenn Sie Maven nutzen, können mehrere Versionen des Dataflow SDK in einem oder mehreren lokalen Maven-Repositories "installiert" sein.
Java
Wenn Sie herausfinden möchten, welche Version des Dataflow SDK eine bestimmte Pipeline ausführt, können Sie bei der Ausführung mit DataflowPipelineRunner
oder BlockingDataflowPipelineRunner
die Konsolenausgabe ansehen. Die Konsole liefert so Informationen zur Dataflow-SDK-Version:
Python
Wenn Sie herausfinden möchten, welche Version des Dataflow SDK eine bestimmte Pipeline ausführt, können Sie bei der Ausführung mit DataflowRunner
die Konsolenausgabe ansehen. Die Konsole liefert so Informationen zur Dataflow-SDK-Version:
Go
Wenn Sie herausfinden möchten, welche Version des Dataflow SDK eine bestimmte Pipeline ausführt, können Sie bei der Ausführung mit DataflowRunner
die Konsolenausgabe ansehen. Die Konsole liefert so Informationen zur Dataflow-SDK-Version:
INFO: Executing pipeline on the Dataflow Service, ... Dataflow SDK version: <version>
Nächste Schritte
- Dataflow lässt sich in das Google Cloud CLI einbinden. Eine Anleitung zum Installieren der Dataflow-Befehlszeile finden Sie unter Dataflow-Befehlszeile verwenden.
- Informationen dazu, welche Apache Beam-Funktionen Dataflow unterstützt, finden Sie in der Apache Beam-Funktionsmatrix.