Apache Beam SDK のインストール

このページでは、Apache Beam SDKをインストールして Dataflow サービスでパイプラインを実行する方法を説明します。

Dataflow SDK 非推奨のお知らせ: Dataflow SDK 2.5.0 は、Apache Beam SDK リリースとは別個にリリースされる最後の Dataflow SDK リリースとなります。CDataflow サービスでは、正式な Apache Beam SDK のリリースがフルサポートの対象となります。また、Dataflow サービスでは、バージョン 2.0.0 以降のリリース済み Apache Beam SDK もサポートされます。各種 SDK のサポート状況については、Dataflow のサポートページをご覧ください。

SDK リリースのインストール

Apache Beam SDK は、データ パイプライン用のオープンソースのプログラミング モデルです。Apache Beam プログラムでこのようなパイプラインを定義し、パイプラインを実行する Dataflow などのランナーを選択できます。Dataflow を使用するための Google Cloudのプロジェクトと開発環境の設定については、クイックスタートをご覧ください。

Java

Apache Beam SDK for Java の最新リリース バージョンは 2.19.0 です。このリリースにおける変更点については、リリースのお知らせをご覧ください。

Maven を使用して Apache Beam SDK for Java を入手するには、Maven Central Repository のリリース済みアーティファクトのいずれかを使用します。

pom.xml ファイルで依存関係を追加し、SDK アーティファクトのバージョン範囲を次のように指定します。

      <dependency>
      <groupId>org.apache.beam</groupId>
      <artifactId>beam-sdks-java-core</artifactId>
      <version>[2.19.0, 2.99)</version>
      </dependency>
      

Python

Apache Beam SDK for Python の最新リリース バージョンは 2.19.0 です。このリリースにおける変更点については、リリースのお知らせをご覧ください。

2020 年 10 月 7 日、Dataflow は Python 2 を使用したパイプラインのサポートを終了します。詳細については、Google Cloud での Python 2 の サポートをご覧ください。

Apache Beam SDK for Python を入手するには、Python Package Index のリリース済みパッケージのいずれかを使用します。

仮想環境から次のコマンドを実行して、最新バージョンの Apache Beam SDK for Python をインストールします。

pip install apache-beam[gcp]

インストール済みの apache-beam をアップグレードするには、--upgrade フラグを使用します。

pip install --upgrade apache-beam[gcp]

ソースコードとサンプル

Apache Beam のソースコードは、GitHub の Apache Beam リポジトリで入手できます。

Java

コードサンプルは GitHub の Apache Beam サンプルのリポジトリで入手できます。

Python

コードサンプルは GitHub の Apache Beam サンプルのリポジトリで入手できます。

追加ツール

Java

Cloud Dataflow は、Cloud SDK の gcloud コマンドライン ツールと統合されています。Dataflow コマンドライン インターフェースのインストール手順については、Dataflow コマンドライン インターフェースの使用を参照してください。

Tools for Eclipse には、Eclipse IDE を使用して Dataflow プロジェクトとパイプラインを作成するためのプラグインが用意されています。Tools for Eclipse プラグインのインストール手順については、Java と Eclipse を使用したクイックスタートをご覧ください。

Python

Cloud Dataflow は、Cloud SDK の gcloud コマンドライン ツールと統合されています。Dataflow コマンドライン インターフェースのインストール手順については、Dataflow コマンドライン インターフェースを使用するをご覧ください。