English
Deutsch
Español
Español – América Latina
Français
Indonesia
Italiano
Português
Português – Brasil
中文 – 简体
中文 – 繁體
日本語
한국어

控制台

聯絡我們免費試用

本頁面由 Cloud Translation API 翻譯而成。

瞭解 Dataproc 重要概念

如要充分運用 Dataproc，建議先瞭解其基本建構模塊。本指南說明 Dataproc 的核心概念和功能，以及這些功能帶來的優點。

以叢集為基礎的模式

這是使用 Dataproc 的標準基礎架構導向方式。您可以完全掌控專屬的虛擬機器，執行資料處理工作。

叢集：叢集是個人資料處理引擎，由 Google Cloud 虛擬機器組成。您可以建立叢集來執行 Apache Spark 和 Apache Hadoop 等開放原始碼架構。您可以完全掌控叢集大小、機器類型和設定。
工作：工作是特定工作，例如 PySpark 指令碼或 Hadoop 查詢。您不必直接在叢集上執行工作，而是將工作提交至 Dataproc 服務，由該服務為您管理工作執行作業。您可以將多個工作提交至叢集。
工作流程範本：工作流程範本是可重複使用的定義，可協調一系列工作 (工作流程)。例如，您可以定義工作之間的相依關係，只在資料清理工作順利完成後，才執行機器學習工作。範本工作流程可以在現有叢集或臨時叢集上執行，臨時叢集是為執行工作流程而建立，並在工作流程完成後刪除。您可以使用範本，在需要時執行定義的工作流程。
自動調度資源政策：自動調度資源政策包含您定義的規則，可根據叢集工作負載在叢集中新增或移除工作人員機器，動態調整叢集成本和效能。

無伺服器模型

Serverless for Apache Spark 是新式 Dataproc 模型，可自動執行作業。您不必佈建、管理或調整基礎架構，就能執行作業：Serverless for Apache Spark 會為您處理這些細節。

批次：批次 (也稱為批次工作負載) 是 Dataproc 工作的無伺服器對應項目。您將程式碼 (例如 Spark 工作) 提交至服務。Serverless for Apache Spark 會視需要佈建必要資源、執行工作，然後拆散這些資源。您不必建立或管理叢集或工作資源，這項服務會為您完成這些工作。
互動式工作階段：互動式工作階段提供隨選即時環境，用於探索性資料分析，通常是在 Jupyter 筆記本中進行。互動式工作階段提供暫時性的無伺服器工作區，方便您執行查詢及開發程式碼，不必佈建及管理叢集和筆記本資源。
工作階段範本：工作階段範本是可重複使用的設定，可用於定義互動式工作階段。範本包含工作階段設定，例如 Spark 屬性和程式庫依附元件。您可以使用範本建立互動式工作階段環境，通常是在 Jupyter 筆記本中進行開發。

Metastore 服務

Dataproc 提供代管服務來處理中繼資料，也就是有關資料的資料。

Metastore：Metastore 是資料結構定義的中央目錄，例如資料表和資料欄名稱，以及資料類型。中繼資料存放區可讓不同服務、叢集和作業瞭解資料結構。目錄通常會儲存在 Cloud Storage 中。
聯盟：中繼資料聯盟是一項進階功能，可讓您存取及查詢多個中繼存放區的資料，就像存取單一的統合中繼存放區一樣。

筆記本和開發環境

Dataproc 筆記本和 IDE 會連結至整合式開發環境，您可以在其中編寫及執行程式碼。

BigQuery Studio 和 Workbench：這是整合式分析和筆記本環境。您可以在 Jupyter 筆記本等環境中編寫程式碼，並使用 Dataproc 叢集或無伺服器工作階段做為強大的後端引擎，在大型資料集上執行程式碼。
Dataproc JupyterLab 外掛程式：這個官方 JupyterLab 擴充功能可做為筆記本環境中的 Dataproc 控制面板。您不必離開 Jupyter 介面，就能瀏覽、建立及管理叢集，並提交工作，簡化工作流程。瞭解詳情
Dataproc Spark Connect Python 連接器：這個 Python 程式庫可簡化在 Dataproc 中使用 Spark Connect 的程序。這個程式庫會處理驗證和端點設定，讓您更輕鬆地將本機 Python 環境 (例如筆記本或 IDE) 連線至遠端 Dataproc 叢集，進行互動式開發。瞭解詳情

自訂環境

Dataproc 提供工具和元件，可自訂環境以符合特定需求。 Google Cloud 控制台的「公用程式」部分提供實用工具，可自訂 Dataproc 環境。

除非另有註明，否則本頁面中的內容是採用創用 CC 姓名標示 4.0 授權，程式碼範例則為阿帕契 2.0 授權。詳情請參閱《Google Developers 網站政策》。Java 是 Oracle 和/或其關聯企業的註冊商標。

上次更新時間：2025-09-29 (世界標準時間)。