Cloud Data Fusion 中的 Dataproc 佈建工具會呼叫 Dataproc API,在您的 Google Cloud專案中建立及刪除叢集。您可以在佈建工具的設定中設定叢集。
如要進一步瞭解 Cloud Data Fusion 版本與 Dataproc 版本之間的相容性,請參閱「版本相容性」。
屬性
屬性 | 說明 |
---|---|
專案 ID | Google Cloud 建立 Dataproc 叢集的專案。專案必須啟用 Dataproc API。 |
創作者服務帳戶金鑰 | 提供給佈建工具的服務帳戶金鑰必須具備存取 Dataproc 和 Compute Engine API 的權限。由於帳戶金鑰屬於敏感資料,建議您使用安全儲存空間提供帳戶金鑰。 建立安全金鑰後,您可以將其新增至命名空間或系統運算設定檔。如果是命名空間運算設定檔,請按一下 盾牌,然後選取安全金鑰。如果是系統運算設定檔,請在「Secure Account Key」欄位中輸入金鑰名稱。 |
區域 | 您可以託管資源的地理位置,例如 Dataproc 叢集的運算節點。 |
可用區 | 區域內的獨立部署範圍。 |
網路 | Google Cloud 專案中的虛擬私有雲網路,會在建立 Dataproc 叢集時使用。 |
網路主機專案 ID | 如果網路位於另一個 Google Cloud 專案,請輸入該專案的 ID。如果是共用虛擬私有雲,請輸入網路所在的主專案 ID。 |
子網路 | 建立叢集時要使用的子網路。必須位於指定網路和區域內。如果保留空白,系統會根據網路和區域選取子網路。 |
Runner 服務帳戶 | 用於執行程式的 Dataproc 虛擬機器 (VM) 服務帳戶名稱。如果留空,系統會使用預設的 Compute Engine 服務帳戶。 |
主控台數量 | 叢集中的主節點數量。這些節點包含 YARN Resource Manager、HDFS NameNode 和所有驅動程式。必須設為 1 或 3。 預設值為 1。 |
主機器類型 | 要使用的主機類型。請選取下列任一機器類型:
在 Cloud Data Fusion 6.7.2 以上版本中,預設值為 e2。 在 6.7.1 版中,預設值為 n2。 在 6.7.0 以下版本中,預設值為 n1。 |
主控台核心 | 分配給主節點的虛擬核心數。 預設值為 2。 |
主記憶體 (GB) | 分配給主節點的記憶體量 (以 GB 為單位)。 預設值為 8 GB。 |
主磁碟大小 (GB) | 分配給主節點的磁碟大小 (以 GB 為單位)。 預設值為 1000 GB。 |
主磁碟類型 | 主節點的開機磁碟類型:
預設為「標準永久磁碟」。 |
工作站機器類型 | 要使用的 worker 機器類型。請選取下列任一機器類型:
在 Cloud Data Fusion 6.7.2 以上版本中,預設值為 e2。 在 6.7.1 版中,預設值為 n2。 在 6.7.0 以下版本中,預設值為 n1。 |
worker 核心 | 分配給工作站節點的虛擬核心數。 預設值為 2。 |
工作者記憶體 (GB) | 分配給工作站節點的記憶體量 (以 GB 為單位)。 預設值為 8 GB。 |
工作站磁碟大小 (GB) | 分配給工作站節點的磁碟大小 (以 GB 為單位)。 預設值為 1000 GB。 |
worker 磁碟類型 | 工作站節點的開機磁碟類型:
預設為「標準永久磁碟」。 |
使用預先定義的自動調度資源 | 啟用預先定義的 Dataproc 自動調度資源功能。 |
主要工作站數量 | 工作站節點包含 YARN NodeManager 和 HDFS DataNode。 預設值為 2。 |
次要工作人員人數 | 次要工作站節點包含 YARN NodeManager,但不包含 HDFS DataNode。這通常會設為零,除非自動調整大小政策要求更高。 |
自動調度資源政策 | 自動調整大小政策 ID 或資源 URI 的路徑。 如要瞭解如何設定及使用 Dataproc 自動調度資源功能,以便自動動態調整叢集大小,以滿足工作負載需求,請參閱「何時使用自動調度資源」和「自動調度 Dataproc 叢集」。 |
中繼資料 | 叢集中執行的執行個體的其他中繼資料。通常可用於追蹤帳單和退款。詳情請參閱「叢集中繼資料」。 |
網路標記 | 指派網路標記,將防火牆規則套用至叢集的特定節點。網路標記開頭必須為小寫英文字母,而且只能包含小寫英文字母、數字和連字號。結尾則須為小寫英文字母或數字。 |
啟用安全啟動功能 | 在 Dataproc VM 上啟用安全啟動功能。 預設值為 False。 |
啟用 vTPM | 在 Dataproc VM 上啟用虛擬信任平台模組 (vTPM)。 預設值為 False。 |
啟用完整性監控 | 在 Dataproc VM 上啟用虛擬 完整性監控功能。 預設值為 False。 |
圖片版本 | Dataproc 映像檔版本。如果留空,系統會自動選取一個。如果「自訂圖片 URI」屬性留空,系統會忽略這項屬性。 |
自訂圖片 URI | Dataproc 映像檔 URI。如果留空,系統會從 圖片版本屬性推斷。 |
暫存值區 | 用於暫存工作依附元件和設定檔的 Cloud Storage 值區,以便在 Dataproc 中執行管道。 |
臨時值區 | 用於儲存暫時叢集和工作資料的 Cloud Storage 值區,例如 Dataproc 中的 Spark 歷程記錄檔。 這個屬性是在 Cloud Data Fusion 6.9.2 版中推出。 |
加密金鑰名稱 | Dataproc 使用的客戶管理加密金鑰 (CMEK)。 |
OAuth 範圍 | 您可能需要要求的 OAuth 2.0 範圍,取決於所需的存取層級。一律包含 Google Cloud Platform Scope。 這個屬性是在 Cloud Data Fusion 6.9.2 版中推出。 |
初始化動作 | 叢集初始化期間要執行的指令碼清單。初始化動作應放置在 Cloud Storage 中。 |
叢集屬性 | 叢集屬性會覆寫 Hadoop 服務的預設設定屬性。如要進一步瞭解適用的鍵/值組合,請參閱「叢集屬性」。 |
常見標籤 | 用於整理所建立的 Dataproc 叢集和工作。 您可以為每項資源加上標籤,然後依據標籤篩選資源。標籤的相關資訊會轉送到帳單系統,方便客戶依據標籤查看帳單費用明細。 |
閒置時間上限 | 設定 Dataproc 在叢集閒置超過指定分鐘數時刪除叢集。叢集通常會在執行結束後立即刪除,但在極少數情況下,刪除作業可能會失敗。詳情請參閱刪除叢集的疑難排解。 預設值為 30 分鐘。 |
略過叢集刪除作業 | 是否要在執行結束時略過叢集刪除作業。您必須手動刪除叢集。這項功能僅應用於偵錯失敗的執行作業。 預設值為 False。 |
啟用 Stackdriver Logging 整合 | 啟用 Stackdriver Logging 整合功能。 預設值為 True。 |
啟用 Stackdriver Monitoring 整合 | 啟用 Stackdriver 監控整合功能。 預設值為 True。 |
啟用元件閘道 | 啟用元件閘道,以便存取叢集介面,例如 YARN ResourceManager 和 Spark HistoryServer。 預設值為 False。 |
優先使用外部 IP | 當系統在與叢集位於同一網路的 Google Cloud 上執行時,通常會使用內部 IP 位址與叢集通訊。如要一律使用外部 IP 位址,請將這個值設為 True。 預設值為 False。 |
建立意見調查延遲時間 | 建立叢集後,等待叢集建立完畢前,要等待的秒數。 預設值為 60 秒。 輪詢設定可控制建立及刪除叢集時的叢集狀態輪詢頻率。如果您有許多管道排定在同一時間執行,建議您變更這些設定。 |
建立意見調查的雜訊 | 建立叢集時,可增加的延遲時間上限 (以秒為單位)。當您有許多管道排定在同一時間執行時,可以使用這個屬性,避免在 Google Cloud 中同時發生許多 API 呼叫。 預設值為 20 秒。 |
刪除意見調查延遲時間 | 刪除叢集後,等待幾秒鐘才開始輪詢,查看叢集是否已刪除。 預設值為 30 秒。 |
輪詢間隔 | 叢集狀態輪詢之間的等待秒數。 預設值為 2。 |
對應至 JSON 屬性的 Dataproc 設定檔網頁介面屬性
Dataproc 設定檔 UI 屬性名稱 | Dataproc 設定檔 JSON 屬性名稱 |
---|---|
設定檔標籤 | name |
設定檔名稱 | label |
說明 | description |
專案 ID | projectId |
創作者服務帳戶金鑰 | accountKey |
區域 | region |
可用區 | zone |
網路 | network |
網路主機專案 ID | networkHostProjectId |
子網路 | subnet |
Runner 服務帳戶 | serviceAccount |
主控台數量 | masterNumNodes |
主機器類型 | masterMachineType |
主核心 | masterCPUs |
主記憶體 (GB) | masterMemoryMB |
主磁碟大小 (GB) | masterDiskGB |
主磁碟類型 | masterDiskType |
主要工作站數量 | workerNumNodes |
次要工作人員人數 | secondaryWorkerNumNodes |
工作站機器類型 | workerMachineType |
worker 核心 | workerCPUs |
工作者記憶體 (GB) | workerMemoryMB |
工作站磁碟大小 (GB) | workerDiskGB |
worker 磁碟類型 | workerDiskType |
中繼資料 | clusterMetaData |
網路標記 | networkTags |
啟用安全啟動功能 | secureBootEnabled |
啟用 vTPM | vTpmEnabled |
啟用完整性監控 | integrityMonitoringEnabled |
圖片版本 | imageVersion |
自訂圖片 URI | customImageUri |
Cloud Storage 值區 | gcsBucket |
加密金鑰名稱 | encryptionKeyName |
自動調度資源政策 | autoScalingPolicy |
初始化動作 | initActions |
叢集屬性 | clusterProperties |
標籤 | clusterLabels |
閒置時間上限 | idleTTL |
略過叢集刪除作業 | skipDelete |
啟用 Stackdriver Logging 整合 | stackdriverLoggingEnabled |
啟用 Stackdriver Monitoring 整合 | stackdriverMonitoringEnabled |
啟用元件閘道 | componentGatewayEnabled |
優先使用外部 IP | preferExternalIP |
建立意見調查延遲時間 | pollCreateDelay |
建立意見調查的雜訊 | pollCreateJitter |
刪除意見調查延遲時間 | pollDeleteDelay |
輪詢間隔 | pollInterval |
最佳做法
為管道建立靜態叢集時,請參閱叢集設定最佳做法。
後續步驟
- 進一步瞭解如何管理運算資源設定檔。