如要充分運用 Dataproc,建議先瞭解其基本建構模塊。本指南說明 Dataproc 的核心概念和功能,以及這些功能帶來的優點。
以叢集為基礎的模式
這是使用 Dataproc 的標準基礎架構導向方式。您可以完全掌控專屬的虛擬機器,執行資料處理工作。
- 叢集:叢集是個人資料處理引擎,由 Google Cloud 虛擬機器組成。您可以建立叢集來執行 Apache Spark 和 Apache Hadoop 等開放原始碼架構。您可以完全掌控叢集大小、機器類型和設定。
- 工作:工作是特定工作,例如 PySpark 指令碼或 Hadoop 查詢。 您不必直接在叢集上執行工作,而是將工作提交至 Dataproc 服務,由該服務為您管理工作執行作業。您可以將多個工作提交至叢集。
- 工作流程範本:工作流程範本是可重複使用的定義,可協調一系列工作 (工作流程)。例如,您可以定義工作之間的相依關係,只在資料清理工作順利完成後,才執行機器學習工作。範本工作流程可以在現有叢集或臨時叢集上執行,臨時叢集是為執行工作流程而建立,並在工作流程完成後刪除。您可以使用範本,在需要時執行定義的工作流程。
- 自動調度資源政策:自動調度資源政策包含您定義的規則,可根據叢集工作負載在叢集中新增或移除工作人員機器,動態調整叢集成本和效能。
無伺服器模型
Serverless for Apache Spark 是新式 Dataproc 模型,可自動執行作業。您不必佈建、管理或調整基礎架構,就能執行作業:Serverless for Apache Spark 會為您處理這些細節。
- 批次:批次 (也稱為批次工作負載) 是 Dataproc 工作的無伺服器對應項目。您將程式碼 (例如 Spark 工作) 提交至服務。Serverless for Apache Spark 會視需要佈建必要資源、執行工作,然後拆散這些資源。您不必建立或管理叢集或工作資源,這項服務會為您完成這些工作。
- 互動式工作階段:互動式工作階段提供隨選即時環境,用於探索性資料分析,通常是在 Jupyter 筆記本中進行。互動式工作階段提供暫時性的無伺服器工作區,方便您執行查詢及開發程式碼,不必佈建及管理叢集和筆記本資源。
- 工作階段範本:工作階段範本是可重複使用的設定,可用於定義互動式工作階段。範本包含工作階段設定,例如 Spark 屬性和程式庫依附元件。您可以使用範本建立互動式工作階段環境,通常是在 Jupyter 筆記本中進行開發。
Metastore 服務
Dataproc 提供代管服務來處理中繼資料,也就是有關資料的資料。
- Metastore:Metastore 是資料結構定義的中央目錄,例如資料表和資料欄名稱,以及資料類型。中繼資料存放區可讓不同服務、叢集和作業瞭解資料結構。目錄通常會儲存在 Cloud Storage 中。
- 聯盟:中繼資料聯盟是一項進階功能,可讓您存取及查詢多個中繼存放區的資料,就像存取單一的統合中繼存放區一樣。
筆記本和開發環境
Dataproc 筆記本和 IDE 會連結至整合式開發環境,您可以在其中編寫及執行程式碼。
- BigQuery Studio 和 Workbench:這是整合式分析和筆記本環境。您可以在 Jupyter 筆記本等環境中編寫程式碼,並使用 Dataproc 叢集或無伺服器工作階段做為強大的後端引擎,在大型資料集上執行程式碼。
- Dataproc JupyterLab 外掛程式:這個官方 JupyterLab 擴充功能可做為筆記本環境中的 Dataproc 控制面板。您不必離開 Jupyter 介面,就能瀏覽、建立及管理叢集,並提交工作,簡化工作流程。瞭解詳情
- Dataproc Spark Connect Python 連接器:這個 Python 程式庫可簡化在 Dataproc 中使用 Spark Connect 的程序。這個程式庫會處理驗證和端點設定,讓您更輕鬆地將本機 Python 環境 (例如筆記本或 IDE) 連線至遠端 Dataproc 叢集,進行互動式開發。瞭解詳情
自訂環境
Dataproc 提供工具和元件,可自訂環境以符合特定需求。 Google Cloud 控制台的「公用程式」部分提供實用工具,可自訂 Dataproc 環境。