在 Eclipse 中設定 Cloud Dataflow

本頁面說明如何建立 Cloud Dataflow 專案並在 Eclipse 執行範例管道。

Cloud Dataflow Eclipse 外掛程式僅適用於 Cloud Dataflow SDK 2.0.0 至 2.5.0 發行版本。Cloud Dataflow Eclipse 外掛程式不適用於 Apache Beam SDK 發佈版。

事前準備

  1. 登入您的 Google 帳戶。

    如果您沒有帳戶,請申請新帳戶

  2. 選取或建立 Google Cloud Platform 專案。

    前往「Manage resources」(管理資源) 頁面

  3. 請確認您已啟用 Google Cloud Platform 專案的計費功能。

    瞭解如何啟用計費功能

  4. 啟用Cloud Dataflow, Compute Engine, Stackdriver Logging, Google Cloud Storage, Google Cloud Storage JSON, BigQuery, Cloud Pub/Sub, Cloud Datastore, and Cloud Resource Manager API。

    啟用 API

  5. 安裝並初始化 Cloud SDK
  6. 確定您已安裝 Eclipse IDE 4.6 以上版本。
  7. 確定您已安裝 Java Development Kit (JDK) 1.7 以上版本。
  8. 確定您已安裝最新版本的 Cloud Tools for Eclipse 外掛程式。
    1. 如果尚未安裝,請按照 Cloud Tools for Eclipse 快速入門的說明來安裝外掛程式。
    2. 或依序選取 [說明] -> [檢查更新],將外掛程式更新為最新版本。

在 Eclipse 中建立 Cloud Dataflow 專案

如要建立新專案,請使用「New Project」精靈來產生範本應用程式,可用來做為應用程式的基礎。

如果您沒有應用程式,請執行 WordCount 範例應用程式來完成其餘程序。

  1. 依序選取 [File] -> [New] -> [Project]
  2. 在「Google Cloud Platform」目錄中,選取 [Cloud Dataflow Java Project]
  3. 用於選取正在建立的專案類型的精靈。畫面具有以下目錄:General、Eclipse Modeling Framework、EJB、Java 和 Java EE,此外也有 Google Cloud Platform 目錄,展開後會顯示建立 App Engine Flexible Java Project、App Engine Standard Java Project 和 Cloud Dataflow Java Project 的選項。
  4. 輸入「Group ID」
  5. 輸入「Artifact ID」
  6. 選取「Project Template」。在 WordCount 範例中,請選取 [Example pipelines]
  7. 選取「Project Dataflow Version」。在 WordCount 範例中,請選取 [2.5.0]
  8. 輸入「Package」名稱。在 WordCount 範例中,請輸入「com.google.cloud.dataflow.examples」
  9. 建立新 Dataflow 專案的精靈。提供用來輸入 Group ID、Artifact ID、Project Template、Dataflow Version、Package Name、Workspace Location 和 Name Template 的欄位。顯示用來返回、前往下一步、取消作業和結束的按鈕。
  10. 按一下 [Next]。

設定執行選項

現在應會看見「Set Default Cloud Tools for Eclipse Run Options」對話方塊。

  1. 選取 Google Cloud Platform 專案相關聯的帳戶,或是新增帳戶。如要新增帳戶:
    1. 在「Account」下拉式選單中,選取 [Add a new account...]
    2. 新的瀏覽器視窗會隨即開啟以完成登入程序。
  2. 輸入您的「Cloud Platform Project ID」
  3. 選取「Cloud Storage Staging Location」或建立新的暫存位置。如要建立新的暫存位置:
    1. 針對「Cloud Storage Staging Location」輸入唯一的名稱。位置名稱必須包含值區名稱和資料夾。物件會建立在 Cloud Storage 值區中的指定資料夾。請勿在值區名稱中加入任何機密資訊,因為值區命名空間屬於全域性質,並且會公開顯示。
    2. 按一下 [Create Bucket]
    3. 可輸入 GCP 帳戶、Cloud Platform ID 和 Cloud Storage 暫存位置的對話方塊。可建立新暫存位置的「Create」按鈕。用來返回、前往下一個視窗、取消作業或結束作業的按鈕。
  4. 按一下 [Browse],即可瀏覽服務帳戶金鑰。
  5. 按一下 [Finish]。

在 Cloud Dataflow 服務上執行 WordCount 範例管道

建立 Cloud Tools for Eclipse 專案後,即可建立要在 Cloud Dataflow 服務上執行的管道。也可以執行 WordCount 範例管道當做範例。

  1. 依序選取 [Run] -> [Run Configurations]
  2. 在左側選單中,選取 [Dataflow Pipeline]
  3. 按一下 [New Launch Configuration]
  4. 可選取 Dataflow 管道執行設定的對話方塊。選項包括 Apache Tomcat、App Engine Local Server、Dataflow Pipeline、Eclipse Application、Eclipse Data Tools。滑鼠游標移至「New Launch Configuration」按鈕,並顯示該按鈕的「New Launch Configuration」工具提示。
  5. 按一下 [Main] 分頁標籤。
  6. 按一下 [Browse] 以選取 Cloud Dataflow 專案。
  7. 按一下 [Search...] 並選取 [WordCount Main Type]
  8. 按一下 [Pipeline Arguments] 分頁標籤。
  9. 選取 [DataflowRunner] 執行器。
  10. 按一下 [Arguments] 分頁標籤。
  11. 在「Program arguments」欄位中,將「output」設定為您的「Cloud Storage 暫存位置」
  12. 已選取「Arguments」分頁標籤的對話方塊。在「Program arguments」欄位中,將 --output 選項設為可寫入的暫存位置。
  13. 按一下 [Run]
  14. 當工作完成後,除了其他輸出內容以外,您應該也會在 Eclipse 主控台中看見下列程式碼:
    Submitted job: <job_id>

清除所用資源

如要避免系統向您的 GCP 帳戶收取您在本快速入門導覽課程中所用資源的相關費用:

  1. 開啟 Google Cloud Platform 主控台的 Cloud Storage 瀏覽器頁面。
  2. 找出您建立的值區,並選取旁邊的核取方塊。
  3. 按一下 [刪除]
  4. 按一下 [刪除] 以確認您要永久刪除值區和其內容。

後續步驟

本頁內容對您是否有任何幫助?請提供意見:

傳送您對下列選項的寶貴意見...

這個網頁
Cloud Tools for Eclipse
需要協助嗎?請前往我們的支援網頁