このページでは、Dataflow サービスでパイプラインを実行できるように Apache Beam SDK をインストールする方法について説明します。
SDK リリースをインストールする
Apache Beam SDK は、データ パイプライン用のオープンソースのプログラミング モデルです。Apache Beam プログラムでこのようなパイプラインを定義し、パイプラインを実行する Dataflow などのランナーを選択できます。
Java
Apache Beam SDK for Java の最新リリース バージョンは 2.57.0 です。このリリースにおける変更点については、リリースのお知らせをご覧ください。
Maven を使用して Apache Beam SDK for Java を入手するには、Maven Central Repository のリリース済みアーティファクトのいずれかを使用します。
SDK アーティファクトの pom.xml
ファイルに依存関係と依存関係の管理ツールを追加します。詳細については、Dataflow でパイプラインの依存関係を管理するをご覧ください。
Apache Beam SDK for Java の依存関係の詳細については、Apache Beam SDK for Java の依存関係と Java での Beam の依存関係の管理をご覧ください。
Python
Apache Beam SDK for Python の最新リリース バージョンは 2.57.0 です。このリリースにおける変更点については、リリースのお知らせをご覧ください。
Apache Beam SDK for Python を入手するには、Python Package Index のリリース済みパッケージのいずれかを使用します。
次のコマンドを実行して、Python wheel をインストールします。
pip install wheel
仮想環境から次のコマンドを実行して、最新バージョンの Apache Beam SDK for Python をインストールします。
pip install 'apache-beam[gcp]'
接続状況によっては、インストールに時間がかかることがあります。
インストール済みの apache-beam をアップグレードするには、--upgrade
フラグを使用します。
pip install --upgrade 'apache-beam[gcp]'
Go
Apache Beam SDK for Go の最新リリース バージョンは 2.57.0 です。このリリースにおける変更点については、リリースのお知らせをご覧ください。
最新バージョンの Apache Beam SDK for Go をインストールするには、次のコマンドを実行します。
go get -u github.com/apache/beam/sdks/v2/go/pkg/beam
開発環境を設定する
Dataflow を使用するための Google Cloud のプロジェクトと開発環境の設定については、次のいずれかのクイックスタートをご覧ください。
- Java を使用して Dataflow パイプラインを作成する
- Python を使用して Dataflow パイプラインを作成する
- Go を使用して Dataflow パイプラインを作成する
- Dataflow テンプレートを使用してストリーミング パイプラインを作成する
ソースコードとサンプル
Apache Beam のソースコードは、GitHub の Apache Beam リポジトリで入手できます。
Java
コードサンプルは GitHub の Apache Beam サンプル ディレクトリで入手できます。
Python
コードサンプルは GitHub の Apache Beam サンプル ディレクトリで入手できます。
Go
コードサンプルは GitHub の Apache Beam サンプル ディレクトリで入手できます。
Dataflow SDK のバージョンを確認する
インストールの詳細は開発環境によって異なります。Maven を使用している場合は、1 つ以上のローカル Maven レポジトリに複数のバージョンの Dataflow SDK を "インストール" できます。
Java
特定のパイプラインで実行している Dataflow SDK のバージョンを確認するには、DataflowPipelineRunner
または BlockingDataflowPipelineRunner
で実行中のコンソールの出力を調べます。コンソールには、Dataflow SDK のバージョン情報を含む次のようなメッセージが含まれます。
Python
特定のパイプラインで実行している Dataflow SDK のバージョンを確認するには、DataflowRunner
で実行中のコンソールの出力を調べます。コンソールには、Dataflow SDK のバージョン情報を含む次のようなメッセージが含まれます。
Go
特定のパイプラインで実行している Dataflow SDK のバージョンを確認するには、DataflowRunner
で実行中のコンソールの出力を調べます。コンソールには、Dataflow SDK のバージョン情報を含む次のようなメッセージが含まれます。
INFO: Executing pipeline on the Dataflow Service, ... Dataflow SDK version: <version>
次のステップ
- Dataflow は Google Cloud CLI と統合されています。Dataflow コマンドライン インターフェースのインストール手順については、Dataflow コマンドライン インターフェースの使用をご覧ください。
- Dataflow がサポートする Apache Beam の機能については、Apache Beam の機能マトリックスをご覧ください。