Java と Eclipse を使用したクイックスタート

このページでは、Cloud Dataflow プロジェクトを作成し、サンプルのパイプラインを Eclipse 内から実行する方法について説明します。

Cloud Tools for Eclipse プラグインは、Cloud Dataflow SDK ディストリビューションのバージョン 2.0.0~2.5.0 でのみ動作します。Cloud Dataflow Eclipse プラグインは、Apache Beam SDK ディストリビューションでは動作しません。

新機能または更新された機能、バグ修正、既知の問題、非推奨になった機能に関するお知らせについては、Cloud Tools for Eclipse プラグインのリリースノートをご覧ください。

始める前に

  1. Google アカウントにログインします。

    Google アカウントをまだお持ちでない場合は、新しいアカウントを登録します。

  2. GCP プロジェクトを選択または作成します。

    プロジェクト セレクタのページに移動

  3. Google Cloud Platform プロジェクトに対して課金が有効になっていることを確認します。 詳しくは、課金を有効にする方法をご覧ください。

  4. Cloud Dataflow、Compute Engine、Stackdriver Logging、Google Cloud Storage、Google Cloud Storage JSON、BigQuery、Cloud Pub/Sub、Cloud Datastore、Cloud Resource Manager API を有効にします。

    APIを有効にする

  5. Cloud SDK をインストールして初期化します。
  6. Eclipse IDE バージョン 4.7 以降がインストールされていることを確認します。
  7. Java Development Kit(JDK)バージョン 1.8 以降がインストールされていることを確認します。
  8. Cloud Dataflow プラグインの最新バージョンがインストールされていることを確認します。
    1. まだインストールしていない場合は、Cloud Dataflow のクイックスタートに従ってプラグインをインストールします。
    2. または、[Help] -> [Check for Updates] を選択してプラグインを最新バージョンに更新します。

Eclipse での Cloud Dataflow プロジェクトの作成

新しいプロジェクトを作成するには、[New Project] ウィザードを使用して、自分のアプリケーションの開始点として使用できるテンプレート アプリケーションを生成します。

アプリケーションをお持ちでない場合は、WordCount サンプル アプリケーションを実行して、残りの手順を完了できます。

  1. [File] -> [New] -> [Project] を選択します。
  2. [Google Cloud Platform] ディレクトリで [Cloud Dataflow Java Project] を選択します。
  3. 作成するプロジェクトのタイプを選択するためのウィザード。General、Eclipse Modeling Framework、EJB、Java、および Java EE のディレクトリがあります。また、展開された Google Cloud Platform ディレクトリもあり、App Engine Flexible Java Project、App Engine Standard Java Project、Cloud Dataflow Java Project の作成オプションが表示されています。
  4. [Group ID] を入力します。
  5. [Artifact ID] を入力します。
  6. [Project Template] を選択します。WordCount サンプルの場合は、[Example pipelines] を選択します。
  7. [Project Dataflow Version] を選択します。WordCount サンプルの場合は、[2.5.0] を選択します。
  8. [Package] の名前を入力します。WordCount サンプルの場合は、「com.google.cloud.dataflow.examples」と入力します。
  9. 新しい Dataflow プロジェクトを作成するためのウィザード。グループ ID、アーティファクト ID、プロジェクト テンプレート、Dataflow バージョン、パッケージ名、ワークスペースの場所、名前テンプレートを入力するためのフィールドを示しています。戻る、次へ進む、操作をキャンセルする、終了するためのボタンがあります。
  10. [Next] をクリックします。

実行オプションの構成

[Set Default Cloud Dataflow Run Options] ダイアログが表示されます。

  1. Google Cloud Platform プロジェクトに関連付けられているアカウントを選択するか、新しいアカウントを追加します。新しいアカウントを追加するには:
    1. [Account] プルダウン メニューで [Add a new account...] を選択します。
    2. 新しいブラウザ ウィンドウが開くので、ログイン プロセスを完了します。
  2. [Cloud Platform Project ID] を入力します。
  3. [Cloud Storage Staging Location] を選択するか、新しいステージング場所を作成します。新しいステージング場所を作成する手順は次のとおりです。
    1. [Cloud Storage Staging Location] に一意の名前を入力します。場所名にはバケット名とフォルダを含める必要があります。指定したフォルダ内の Cloud Storage バケットにオブジェクトが作成されています。バケットの名前空間はグローバルであり、一般公開されるため、バケット名に機密情報を含めないでください。
    2. [バケットを作成] をクリックします。
    3. GCP アカウント、Cloud Platform ID、Cloud Storage Staging Location を入力するためのダイアログ。[Create] ボタンを使用すると、新しいステージング場所を作成できます。戻る、次のウィンドウに進む、操作をキャンセルする、または操作を終了するためのボタンがあります。
  4. [Browse] をクリックして、サービス アカウントキーに移動します。
  5. [Finish] をクリックします。

Cloud Dataflow サービス上で WordCount というサンプル パイプラインを実行する

Cloud Dataflow プロジェクトを作成したら、続いて Cloud Dataflow サービスで実行するパイプラインを作成できます。たとえば、WordCount というサンプル パイプラインを実行できます。

  1. [Run] -> [Run Configurations] を選択します。
  2. 左側のメニューで [Dataflow Pipeline] を選択します。
  3. [New Launch Configuration] をクリックします。
  4. Dataflow パイプラインの実行構成を選択するためのダイアログ。オプションには、Apache Tomcat、App Engine Local Server、Dataflow Pipeline、Eclipse Application、Eclipse Data Tools などがあります。[New Launch Configuration] ボタンの上にマウスポインタがあり、そのボタンに対する [New Launch Configuration] ツールチップが表示されています。
  5. [Main] タブをクリックします。
  6. [Browse] をクリックして、Cloud Dataflow プロジェクトを選択します。
  7. [Search] をクリックして、[WordCount Main Type] を選択します。
  8. [Pipeline Arguments] タブをクリックします。
  9. [DataflowRunner] ランナーを選択します。
  10. [Arguments] タブをクリックします。
  11. [Program arguments] フィールドで、[output] を [Cloud Storage Staging Location] に設定します。ステージング場所はフォルダにする必要があります。バケットのルート ディレクトリからパイプライン ジョブをステージングすることはできません。
  12. [Arguments] タブが選択されているダイアログ。[Program arguments] フィールドでは、書き込み可能なステージング場所に --output オプションが設定されています。
  13. [実行] をクリックします。
  14. ジョブが終了すると、Eclipse コンソールに表示された出力の中に、次の行を確認できます。
    Submitted job: <job_id>

クリーンアップ

このクイックスタートで使用したリソースについて GCP アカウントに課金されないようにする手順は次のとおりです。

  1. Google Cloud Platform Console で Cloud Storage ブラウザを開きます。
  2. 作成したバケットの横にあるチェックボックスをオンにします。
  3. [削除] をクリックします。
  4. [削除] をクリックして、バケットとそのコンテンツを完全に削除します。

次のステップ

このページは役立ちましたか?評価をお願いいたします。

フィードバックを送信...

ご不明な点がありましたら、Google のサポートページをご覧ください。