Apache Beam SDK をインストール

このページでは、Dataflow サービスでパイプラインを実行できるように Apache Beam SDK をインストールする方法について説明します。

SDK リリースをインストールする

Apache Beam SDK は、データ パイプライン用のオープンソースのプログラミング モデルです。Apache Beam プログラムでこのようなパイプラインを定義し、パイプラインを実行する Dataflow などのランナーを選択できます。

Java

Apache Beam SDK for Java の最新リリース バージョンは 2.57.0 です。このリリースにおける変更点については、リリースのお知らせをご覧ください。

Maven を使用して Apache Beam SDK for Java を入手するには、Maven Central Repository のリリース済みアーティファクトのいずれかを使用します。

SDK アーティファクトの pom.xml ファイルに依存関係と依存関係の管理ツールを追加します。詳細については、Dataflow でパイプラインの依存関係を管理するをご覧ください。

Apache Beam SDK for Java の依存関係の詳細については、Apache Beam SDK for Java の依存関係Java での Beam の依存関係の管理をご覧ください。

Python

Apache Beam SDK for Python の最新リリース バージョンは 2.57.0 です。このリリースにおける変更点については、リリースのお知らせをご覧ください。

Apache Beam SDK for Python を入手するには、Python Package Index のリリース済みパッケージのいずれかを使用します。

次のコマンドを実行して、Python wheel をインストールします。

pip install wheel

仮想環境から次のコマンドを実行して、最新バージョンの Apache Beam SDK for Python をインストールします。

pip install 'apache-beam[gcp]'

接続状況によっては、インストールに時間がかかることがあります。

インストール済みの apache-beam をアップグレードするには、--upgrade フラグを使用します。

pip install --upgrade 'apache-beam[gcp]'

Go

Apache Beam SDK for Go の最新リリース バージョンは 2.57.0 です。このリリースにおける変更点については、リリースのお知らせをご覧ください。

最新バージョンの Apache Beam SDK for Go をインストールするには、次のコマンドを実行します。

go get -u github.com/apache/beam/sdks/v2/go/pkg/beam

開発環境を設定する

Dataflow を使用するための Google Cloud のプロジェクトと開発環境の設定については、次のいずれかのクイックスタートをご覧ください。

ソースコードとサンプル

Apache Beam のソースコードは、GitHub の Apache Beam リポジトリで入手できます。

Java

コードサンプルは GitHub の Apache Beam サンプル ディレクトリで入手できます。

Python

コードサンプルは GitHub の Apache Beam サンプル ディレクトリで入手できます。

Go

コードサンプルは GitHub の Apache Beam サンプル ディレクトリで入手できます。

Dataflow SDK のバージョンを確認する

インストールの詳細は開発環境によって異なります。Maven を使用している場合は、1 つ以上のローカル Maven レポジトリに複数のバージョンの Dataflow SDK を "インストール" できます。

Java

特定のパイプラインで実行している Dataflow SDK のバージョンを確認するには、DataflowPipelineRunner または BlockingDataflowPipelineRunner で実行中のコンソールの出力を調べます。コンソールには、Dataflow SDK のバージョン情報を含む次のようなメッセージが含まれます。

Python

特定のパイプラインで実行している Dataflow SDK のバージョンを確認するには、DataflowRunner で実行中のコンソールの出力を調べます。コンソールには、Dataflow SDK のバージョン情報を含む次のようなメッセージが含まれます。

Go

特定のパイプラインで実行している Dataflow SDK のバージョンを確認するには、DataflowRunner で実行中のコンソールの出力を調べます。コンソールには、Dataflow SDK のバージョン情報を含む次のようなメッセージが含まれます。

  INFO: Executing pipeline on the Dataflow Service, ...
  Dataflow SDK version: <version>

次のステップ