使用主控台的快速入門導覽課程

本頁顯示如何使用 Google Cloud Platform 主控台建立 Cloud Dataproc 叢集、在叢集中執行簡單的 Apache Spark 工作,然後修改叢集中的工作站數量。

您可以在使用 API Explorer 的快速入門導覽課程使用 gcloud 指令列工具的快速入門導覽課程中瞭解如何執行相同的工作。

事前準備

  1. 登入您的 Google 帳戶。

    如果您沒有帳戶,請申請新帳戶

  2. Select or create a Google Cloud Platform project.

    Go to the Manage resources page

  3. 請確認您已為專案啟用計費功能。

    瞭解如何啟用計費功能

  4. 啟用Cloud Dataproc API。

    啟用 API

建立叢集

  1. 前往 GCP 主控台的 Cloud Dataproc「Clusters」(叢集) 頁面。
  2. 按一下 [Create cluster] (建立叢集)。
  3. 在「Name」(名稱) 欄位中輸入 example-cluster
  4. 從「Region」(地區) 和「Zone」(區域) 下拉式選單選取叢集所在的地區和區域 (以下畫面顯示已選取 global 地區和 us-central1-a 區域)。global 地區是預設值。這是一個特殊的多地區端點,可以將執行個體部署到使用者指定的任何 Compute Engine 區域。您也可以指定不同的地區 (例如 us-east1europe-west1) 以隔離使用者指定地區內 Cloud Dataproc 使用的資源 (包括 VM 執行個體和 Cloud Storage) 及中繼資料儲存位置。如要進一步瞭解全球與地區端點之間的差異,請參閱地區端點一文。要瞭解如何選取地區,請參閱可用地區與區域一節。您也可以執行 gcloud compute regions list 指令以查看可用地區清單。
  5. 所有其他選項使用系統提供的預設值。

  6. 按一下 [Create] (建立) 以建立叢集。

新叢集會出現在叢集清單中。在叢集準備好可以使用之前,叢集狀態會列示為「Provisioning」(佈建中),之後狀態會變更為「Running」(執行中)。

提交工作

如要執行範例 Spark 工作:

  1. 在左側導覽窗格中選取 [Jobs] (工作),以切換至 Dataproc 的工作視圖。
  2. 按一下 [Submit job] (提交工作)。
  3. 從「Cluster」(叢集) 下拉式選單中選取新叢集 [example-cluster]
  4. 從「Job type」(工作類型) 下拉式選單中選取 [Spark]
  5. 在「Jar file」(Jar 檔案) 欄位中輸入 file:///usr/lib/spark/examples/jars/spark-examples.jar
  6. org.apache.spark.examples.SparkPi 輸入「Main class or jar」(主要類別或 jar) 欄位。
  7. 在「Arguments」(引數) 欄位輸入 1000 以設定工作數。
  1. 按一下 [Submit] (提交)

您的工作應該會出現在「Jobs」(工作) 清單中,該清單會顯示專案的工作及其叢集、類型與目前狀態。工作狀態顯示為「Running」(執行中),工作完成後,則顯示為「Succeeded」(成功)。如要查看已完成工作的輸出:

  1. 在「Jobs」(工作) 清單中按一下工作 ID。
  2. 選取 [Line Wrapping] (換行),就不需要捲動視窗。

您應該會看到工作已成功計算出 pi 的粗略值!

更新叢集

如要變更叢集中的工作站執行個體數:

  1. 在左側導覽窗格中選取 [Clusters] (叢集),回到 Cloud Dataproc 叢集視圖。
  2. 在「Clusters」(叢集) 清單中按一下 [example-cluster]。根據預設,頁面會顯示叢集的 CPU 使用量總覽。
  3. 按一下 [Configuration] (設定) 以顯示叢集目前的設定。
  4. 按一下 [Edit] (編輯)。您現在可以修改工作站節點的數量。
  5. 在「Worker nodes」(工作站節點數) 欄位中輸入 5
  6. 按一下 [Save] (儲存)

您的叢集現在已更新。您可以遵循相同的程序,將工作站節點數減至原始值。

清除所用資源

如要避免系統向您的 GCP 帳戶收取您在本快速入門導覽課程中所用資源的相關費用:

  1. 在 example-cluster 的「Cluster」(叢集) 頁面中,點選 [Delete] (刪除) 以刪除叢集。系統會提示您確認是否要刪除叢集。按一下 [OK] (確定)
  2. 您還必須執行下列指令,移除叢集建立的任何 Cloud Storage 值區:
    gsutil rm gs://bucket/subdir/**
    

後續步驟

本頁內容對您是否有任何幫助?請提供意見:

傳送您對下列選項的寶貴意見...

這個網頁
Cloud Dataproc 說明文件
需要協助嗎?請前往我們的支援網頁