Dataproc Hub 簡介

Dataproc Hub 可讓您運用 Vertex AI Workbench 和 Dataproc,使用 Jupyter 筆記本和 Hadoop 與 Spark 生態系統,大規模執行互動式機器學習和資料處理工作。

Dataproc Hub 筆記本是由管理員精選的單一使用者筆記本,在使用者專案中建立及執行的 Dataproc JupyterLab 叢集上執行。

  • Dataproc Hub 運用 JupyterHub 執行下列操作:

    • 啟用這項功能後,管理員就能為不同的資料和 ML 使用者群組建立精選的筆記本範本清單,確保整個機構的一致性。
    • 為資料和機器學習使用者提供符合軟硬體需求的預先設定環境,加快筆記本建立速度。
  • Dataproc Hub 為管理員和使用者提供不同的介面:

    • 管理員可使用 Google Cloud 控制台的「Dataproc」→「Workbench」→「User-Managed Notebooks」(使用者自行管理的筆記本) 頁面,建立 Dataproc Hub 執行個體。每個 Hub 執行個體都包含一組預先定義的筆記本環境,這些環境由 YAML 叢集設定檔定義。
    • 資料和機器學習使用者可透過Google Cloud 控制台的「Notebooks」→「Instances」UI,選取預先定義的筆記本環境,在 Dataproc 叢集上生成筆記本伺服器。
      • 沒有主控台存取權的使用者,可以透過管理員提供的 Dataproc Hub 執行個體網址,從網頁瀏覽器存取 Dataproc Hub 執行個體,進而生成 Dataproc 叢集。
  • Dataproc Hub 的用途:

    • 資料和 ML 使用者會依據軟硬體需求分組 (使用者可加入多個群組)
    • Dataproc 控制台存取權受限:使用者無法在 Google Cloud 控制台中存取 Dataproc
  • Dataproc Hub 功能:

    • 預先定義的使用者環境
    • 叢集和筆記本隔離:群組成員無法輕易存取其他群組成員的叢集和筆記本

瞭解詳情