Dataproc 佈建工具屬性

Cloud Data Fusion 中的 Dataproc 佈建工具會呼叫 Dataproc API,在您的 Google Cloud專案中建立及刪除叢集。您可以在佈建工具的設定中設定叢集。

如要進一步瞭解 Cloud Data Fusion 版本與 Dataproc 版本之間的相容性,請參閱「版本相容性」。

屬性

屬性 說明
專案 ID Google Cloud 建立 Dataproc 叢集的專案。專案必須啟用 Dataproc API。
創作者服務帳戶金鑰

提供給佈建工具的服務帳戶金鑰必須具備存取 Dataproc 和 Compute Engine API 的權限。由於帳戶金鑰屬於敏感資料,建議您使用安全儲存空間提供帳戶金鑰。

建立安全金鑰後,您可以將其新增至命名空間或系統運算設定檔。如果是命名空間運算設定檔,請按一下 盾牌,然後選取安全金鑰。如果是系統運算設定檔,請在「Secure Account Key」欄位中輸入金鑰名稱。

區域 您可以託管資源的地理位置,例如 Dataproc 叢集的運算節點。
可用區 區域內的獨立部署範圍。
網路 Google Cloud 專案中的虛擬私有雲網路,會在建立 Dataproc 叢集時使用。
網路主機專案 ID 如果網路位於另一個 Google Cloud 專案,請輸入該專案的 ID。如果是共用虛擬私有雲,請輸入網路所在的主專案 ID。
子網路 建立叢集時要使用的子網路。必須位於指定網路和區域內。如果保留空白,系統會根據網路和區域選取子網路。
Runner 服務帳戶 用於執行程式的 Dataproc 虛擬機器 (VM) 服務帳戶名稱。如果留空,系統會使用預設的 Compute Engine 服務帳戶。
主控台數量

叢集中的主節點數量。這些節點包含 YARN Resource Manager、HDFS NameNode 和所有驅動程式。必須設為 13

預設值為 1

主機器類型

要使用的主機類型。請選取下列任一機器類型:

  • n1
  • n2
  • n2d
  • e2

在 Cloud Data Fusion 6.7.2 以上版本中,預設值為 e2

在 6.7.1 版中,預設值為 n2

在 6.7.0 以下版本中,預設值為 n1

主控台核心

分配給主節點的虛擬核心數。

預設值為 2

主記憶體 (GB)

分配給主節點的記憶體量 (以 GB 為單位)。

預設值為 8 GB

主磁碟大小 (GB)

分配給主節點的磁碟大小 (以 GB 為單位)。

預設值為 1000 GB

主磁碟類型

主節點的開機磁碟類型:

  • 標準永久磁碟
  • SSD 永久磁碟

預設為「標準永久磁碟」

工作站機器類型

要使用的 worker 機器類型。請選取下列任一機器類型:

  • n1
  • n2
  • n2d
  • e2

在 Cloud Data Fusion 6.7.2 以上版本中,預設值為 e2

在 6.7.1 版中,預設值為 n2

在 6.7.0 以下版本中,預設值為 n1

worker 核心

分配給工作站節點的虛擬核心數。

預設值為 2

工作者記憶體 (GB)

分配給工作站節點的記憶體量 (以 GB 為單位)。

預設值為 8 GB

工作站磁碟大小 (GB)

分配給工作站節點的磁碟大小 (以 GB 為單位)。

預設值為 1000 GB

worker 磁碟類型

工作站節點的開機磁碟類型:

  • 標準永久磁碟
  • SSD 永久磁碟

預設為「標準永久磁碟」

使用預先定義的自動調度資源 啟用預先定義的 Dataproc 自動調度資源功能
主要工作站數量

工作站節點包含 YARN NodeManager 和 HDFS DataNode。

預設值為 2

次要工作人員人數 次要工作站節點包含 YARN NodeManager,但不包含 HDFS DataNode。這通常會設為零,除非自動調整大小政策要求更高。
自動調度資源政策

自動調整大小政策 ID 或資源 URI 的路徑。

如要瞭解如何設定及使用 Dataproc 自動調度資源功能,以便自動動態調整叢集大小,以滿足工作負載需求,請參閱「何時使用自動調度資源」和「自動調度 Dataproc 叢集」。

中繼資料 叢集中執行的執行個體的其他中繼資料。通常可用於追蹤帳單和退款。詳情請參閱「叢集中繼資料」。
網路標記 指派網路標記,將防火牆規則套用至叢集的特定節點。網路標記開頭必須為小寫英文字母,而且只能包含小寫英文字母、數字和連字號。結尾則須為小寫英文字母或數字。
啟用安全啟動功能

在 Dataproc VM 上啟用安全啟動功能。

預設值為 False

啟用 vTPM

在 Dataproc VM 上啟用虛擬信任平台模組 (vTPM)。

預設值為 False

啟用完整性監控

在 Dataproc VM 上啟用虛擬 完整性監控功能。

預設值為 False

圖片版本 Dataproc 映像檔版本。如果留空,系統會自動選取一個。如果「自訂圖片 URI」屬性留空,系統會忽略這項屬性。
自訂圖片 URI Dataproc 映像檔 URI。如果留空,系統會從 圖片版本屬性推斷。
暫存值區 用於暫存工作依附元件和設定檔的 Cloud Storage 值區,以便在 Dataproc 中執行管道。
臨時值區

用於儲存暫時叢集和工作資料的 Cloud Storage 值區,例如 Dataproc 中的 Spark 歷程記錄檔。

這個屬性是在 Cloud Data Fusion 6.9.2 版中推出。

加密金鑰名稱 Dataproc 使用的客戶管理加密金鑰 (CMEK)。
OAuth 範圍

您可能需要要求的 OAuth 2.0 範圍,取決於所需的存取層級。一律包含 Google Cloud Platform Scope

這個屬性是在 Cloud Data Fusion 6.9.2 版中推出。

初始化動作 叢集初始化期間要執行的指令碼清單。初始化動作應放置在 Cloud Storage 中。
叢集屬性 叢集屬性會覆寫 Hadoop 服務的預設設定屬性。如要進一步瞭解適用的鍵/值組合,請參閱「叢集屬性」。
常見標籤

用於整理所建立的 Dataproc 叢集和工作。

您可以為每項資源加上標籤,然後依據標籤篩選資源。標籤的相關資訊會轉送到帳單系統,方便客戶依據標籤查看帳單費用明細

閒置時間上限

設定 Dataproc 在叢集閒置超過指定分鐘數時刪除叢集。叢集通常會在執行結束後立即刪除,但在極少數情況下,刪除作業可能會失敗。詳情請參閱刪除叢集的疑難排解

預設值為 30 分鐘。

略過叢集刪除作業

是否要在執行結束時略過叢集刪除作業。您必須手動刪除叢集。這項功能僅應用於偵錯失敗的執行作業。

預設值為 False

啟用 Stackdriver Logging 整合

啟用 Stackdriver Logging 整合功能。

預設值為 True

啟用 Stackdriver Monitoring 整合

啟用 Stackdriver 監控整合功能。

預設值為 True

啟用元件閘道

啟用元件閘道,以便存取叢集介面,例如 YARN ResourceManager 和 Spark HistoryServer。

預設值為 False

優先使用外部 IP

當系統在與叢集位於同一網路的 Google Cloud 上執行時,通常會使用內部 IP 位址與叢集通訊。如要一律使用外部 IP 位址,請將這個值設為 True

預設值為 False

建立意見調查延遲時間

建立叢集後,等待叢集建立完畢前,要等待的秒數。

預設值為 60 秒。

輪詢設定可控制建立及刪除叢集時的叢集狀態輪詢頻率。如果您有許多管道排定在同一時間執行,建議您變更這些設定。

建立意見調查的雜訊

建立叢集時,可增加的延遲時間上限 (以秒為單位)。當您有許多管道排定在同一時間執行時,可以使用這個屬性,避免在 Google Cloud 中同時發生許多 API 呼叫。

預設值為 20 秒。

刪除意見調查延遲時間

刪除叢集後,等待幾秒鐘才開始輪詢,查看叢集是否已刪除。

預設值為 30 秒。

輪詢間隔

叢集狀態輪詢之間的等待秒數。

預設值為 2

對應至 JSON 屬性的 Dataproc 設定檔網頁介面屬性

Dataproc 設定檔 UI 屬性名稱 Dataproc 設定檔 JSON 屬性名稱
設定檔標籤 name
設定檔名稱 label
說明 description
專案 ID projectId
創作者服務帳戶金鑰 accountKey
區域 region
可用區 zone
網路 network
網路主機專案 ID networkHostProjectId
子網路 subnet
Runner 服務帳戶 serviceAccount
主控台數量 masterNumNodes
主機器類型 masterMachineType
主核心 masterCPUs
主記憶體 (GB) masterMemoryMB
主磁碟大小 (GB) masterDiskGB
主磁碟類型 masterDiskType
主要工作站數量 workerNumNodes
次要工作人員人數 secondaryWorkerNumNodes
工作站機器類型 workerMachineType
worker 核心 workerCPUs
工作者記憶體 (GB) workerMemoryMB
工作站磁碟大小 (GB) workerDiskGB
worker 磁碟類型 workerDiskType
中繼資料 clusterMetaData
網路標記 networkTags
啟用安全啟動功能 secureBootEnabled
啟用 vTPM vTpmEnabled
啟用完整性監控 integrityMonitoringEnabled
圖片版本 imageVersion
自訂圖片 URI customImageUri
Cloud Storage 值區 gcsBucket
加密金鑰名稱 encryptionKeyName
自動調度資源政策 autoScalingPolicy
初始化動作 initActions
叢集屬性 clusterProperties
標籤 clusterLabels
閒置時間上限 idleTTL
略過叢集刪除作業 skipDelete
啟用 Stackdriver Logging 整合 stackdriverLoggingEnabled
啟用 Stackdriver Monitoring 整合 stackdriverMonitoringEnabled
啟用元件閘道 componentGatewayEnabled
優先使用外部 IP preferExternalIP
建立意見調查延遲時間 pollCreateDelay
建立意見調查的雜訊 pollCreateJitter
刪除意見調查延遲時間 pollDeleteDelay
輪詢間隔 pollInterval

最佳做法

為管道建立靜態叢集時,請參閱叢集設定最佳做法

後續步驟