Apache Beam SDK のインストール

このページでは、Dataflow サービスでパイプラインを実行できるように Apache Beam SDK をインストールする方法について説明します。

SDK リリースのインストール

Apache Beam SDK は、データ パイプライン用のオープンソースのプログラミング モデルです。Apache Beam プログラムでこのようなパイプラインを定義し、パイプラインを実行する Dataflow などのランナーを選択できます。Dataflow を使用するための Google Cloud のプロジェクトと開発環境の設定については、クイックスタートをご覧ください。

Java

Apache Beam SDK for Java の最新リリース バージョンは 2.29.0 です。このリリースにおける変更点については、リリースのお知らせをご覧ください。

Maven を使用して Apache Beam SDK for Java を入手するには、Maven Central Repository のリリース済みアーティファクトのいずれかを使用します。

次のように、SDK アーティファクトの pom.xml ファイルに依存関係を追加します。

<dependency>
  <groupId>org.apache.beam</groupId>
  <artifactId>beam-sdks-java-core</artifactId>
  <version>2.29.0</version>
</dependency>
<dependency>
  <groupId>org.apache.beam</groupId>
  <artifactId>beam-runners-google-cloud-dataflow-java</artifactId>
  <version>2.29.0</version>
</dependency>
<dependency>
  <groupId>org.apache.beam</groupId>
  <artifactId>beam-sdks-java-io-google-cloud-platform</artifactId>
  <version>2.29.0</version>
</dependency>

Python

Apache Beam SDK for Python の最新リリース バージョンは 2.29.0 です。このリリースにおける変更点については、リリースのお知らせをご覧ください。

Apache Beam SDK for Python を入手するには、Python Package Index のリリース済みパッケージのいずれかを使用します。

次のコマンドを実行して、Python wheel をインストールします。

pip install wheel

仮想環境から次のコマンドを実行して、最新バージョンの Apache Beam SDK for Python をインストールします。

pip install 'apache-beam[gcp]'

接続状況によっては、インストールに時間がかかることがあります。

インストール済みの apache-beam をアップグレードするには、--upgrade フラグを使用します。

pip install --upgrade 'apache-beam[gcp]'

ソースコードとサンプル

Apache Beam のソースコードは、GitHub の Apache Beam リポジトリで入手できます。

Java

コードサンプルは GitHub の Apache Beam サンプルのリポジトリで入手できます。

Python

コードサンプルは GitHub の Apache Beam サンプルのリポジトリで入手できます。

追加ツール

Cloud Dataflow は、Cloud SDK の gcloud コマンドライン ツールと統合されています。Dataflow コマンドライン インターフェースのインストール手順については、Dataflow コマンドライン インターフェースの使用をご覧ください。