Eclipse での Cloud Dataflow の設定

このページでは、Dataflow プロジェクトを作成し、Eclipse 内からパイプラインの例を実行する方法について説明します。

Dataflow Eclipse プラグインは、Dataflow SDK ディストリビューションのバージョン 2.0.0~2.5.0 でのみ動作します。Dataflow Eclipse プラグインは、Apache Beam SDK ディストリビューションでは動作しません。

始める前に

  1. Google Cloud アカウントにログインします。Google Cloud を初めて使用する場合は、アカウントを作成して、実際のシナリオでの Google プロダクトのパフォーマンスを評価してください。新規のお客様には、ワークロードの実行、テスト、デプロイができる無料クレジット $300 分を差し上げます。
  2. Google Cloud Console の [プロジェクト セレクタ] ページで、Google Cloud プロジェクトを選択または作成します。

    プロジェクト セレクタに移動

  3. Cloud プロジェクトに対して課金が有効になっていることを確認します。プロジェクトに対して課金が有効になっていることを確認する方法を学習する

  4. Cloud Dataflow、Compute Engine、Stackdriver Logging、Google Cloud Storage、Google Cloud Storage JSON、BigQuery、Cloud Pub/Sub、Cloud Datastore、Cloud Resource Manager API を有効にします。

    API を有効にする

  5. Cloud SDK をインストールして初期化します。
  6. Eclipse IDE バージョン 4.7 以降がインストールされていることを確認します。
  7. Java Development Kit(JDK)バージョン 1.8 以降がインストールされていることを確認します。
  8. 最新バージョンの Cloud Tools for Eclipse プラグインがインストールされていることを確認します。
    1. まだインストールしていない場合は、Cloud Tools for Eclipse のクイックスタートに従ってプラグインをインストールします。
    2. または、[Help] -> [Check for Updates] を選択してプラグインを最新バージョンに更新します。

Eclipse での Dataflow プロジェクトの作成

新しいプロジェクトを作成するには、[New Project] ウィザードを使用して、自分のアプリケーションの開始点として使用できるテンプレート アプリケーションを生成します。

アプリケーションをお持ちでない場合は、WordCount サンプル アプリケーションを実行して、残りの手順を完了できます。

  1. [File] -> [New] -> [Project] を選択します。
  2. [Google Cloud Platform] ディレクトリで [Cloud Dataflow Java Project] を選択します。
  3. 作成するプロジェクトのタイプを選択するためのウィザード。General、Eclipse Modeling Framework、EJB、Java、および Java EE のディレクトリがあります。また、展開された Google Cloud ディレクトリもあり、App Engine Flexible Java Project、App Engine Standard Java Project、Cloud Dataflow Java Project の作成オプションが表示されています。
  4. [Group ID] を入力します。
  5. [Artifact ID] を入力します。
  6. [Project Template] を選択します。WordCount サンプルの場合は、[Example pipelines] を選択します。
  7. [Project Dataflow Version] を選択します。WordCount サンプルの場合は、[2.5.0] を選択します。
  8. [Package] の名前を入力します。WordCount サンプルの場合は、「com.google.cloud.dataflow.examples」と入力します。
  9. 新しい Dataflow プロジェクトを作成するためのウィザード。グループ ID、アーティファクト ID、プロジェクト テンプレート、Dataflow バージョン、パッケージ名、ワークスペースの場所、名前テンプレートを入力するためのフィールドを示しています。戻る、次へ進む、操作をキャンセルする、終了するためのボタンがあります。
  10. [Next] をクリックします。

実行オプションの構成

[Set Default Cloud Tools for Eclipse Run Options] ダイアログが表示されます。

  1. Google Cloud プロジェクトに関連付けられているアカウントを選択するか、新しいアカウントを追加します。新しいアカウントを追加するには:
    1. [Account] プルダウン メニューで [Add a new account...] を選択します。
    2. 新しいブラウザ ウィンドウが開くので、ログイン プロセスを行います。
  2. Google Cloud Platform のプロジェクト IDを入力します。
  3. [Cloud Storage Staging Location] を選択するか、新しいステージング場所を作成します。ステージング場所を作成するには:
    1. [Cloud Storage Staging Location] に一意の名前を入力します。ロケーション名にはバケット名とフォルダを含める必要があります。指定したフォルダ内の Cloud Storage バケットにオブジェクトが作成されています。バケットの名前空間はグローバルであり一般公開されるため、バケット名に機密情報を含めないでください。
    2. [バケットを作成] をクリックします。
    3. Google Cloud アカウント、Google Cloud Platform ID、Cloud Storage のステージング場所を入力するためのダイアログ。[Create] ボタンを使用すると、新しいステージング場所を作成できます。戻る、次のウィンドウに進む、操作をキャンセルする、または操作を終了するためのボタンがあります。
  4. [Browse] をクリックして、サービス アカウントキーに移動します。
  5. [完了] をクリックします。

Dataflow サービスで WordCount サンプル パイプラインを実行する

Cloud Tools for Eclipse プロジェクトを作成したら、Dataflow サービスで実行されるパイプラインを作成できます。たとえば、WordCount というサンプル パイプラインを実行できます。

  1. [Run] -> [Run Configurations] を選択します。
  2. 左側のメニューで [Dataflow Pipeline] を選択します。
  3. [New Launch Configuration] をクリックします。
  4. Dataflow パイプラインの実行構成を選択するためのダイアログ。オプションには、Apache Tomcat、App Engine Local Server、Dataflow Pipeline、Eclipse Application、Eclipse Data Tools などがあります。[New Launch Configuration] ボタンの上にマウスポインタがあり、そのボタンに対する [New Launch Configuration] ツールチップが表示されています。
  5. [Main] タブをクリックします。
  6. [Browse] をクリックして、Dataflow プロジェクトを選択します。
  7. [Search] をクリックして、[WordCount Main Type] を選択します。
  8. [Pipeline Arguments] タブをクリックします。
  9. [DataflowRunner] ランナーを選択します。
  10. [Arguments] タブをクリックします。
  11. [Program arguments] フィールドで、[output] を [Cloud Storage Staging Location] に設定します。ステージング場所はフォルダにする必要があります。バケットのルート ディレクトリからパイプライン ジョブをステージングすることはできません。
  12. [Arguments] タブが選択されているダイアログ。[Program arguments] フィールドでは、書き込み可能なステージング場所に --output オプションが設定されています。
  13. [実行] をクリックします。
  14. ジョブが終了すると、Eclipse コンソールに表示された出力の中に、次の行を確認できます。
    Submitted job: <job_id>

クリーンアップ

このクイックスタートで使用したリソースについて、Google Cloud アカウントに課金されないようにするには、次の手順を行います。

  1. Cloud Storage browser で Cloud Storage ブラウザを開きます。
  2. 作成したバケットの横にあるチェックボックスをオンにします。
  3. [削除] をクリックします。
  4. [削除] をクリックして、バケットとそのコンテンツを完全に削除します。

次のステップ