Dataproc 是一項全代管且具備高擴充性的服務,可執行開放原始碼分散式處理平台,例如 Apache Hadoop、Apache Spark、Apache Flink 和 Trino。您可以使用下列章節中討論的工具和檔案,調查、排解及監控 Dataproc 叢集和工作。
透過 Gemini Cloud Assist (預先發布版) 進行 AI 輔助調查
總覽
Gemini Cloud Assist Investigations 預先發布版功能會使用 Gemini 進階功能,協助建立及執行 Dataproc 叢集和作業。這項功能會分析失敗的叢集、失敗和執行緩慢的工作,找出根本原因並建議修正方式。這項功能會建立持續性分析,方便您查看、儲存及與支援團隊共用,以利協作並加快解決問題。 Google Cloud
功能
使用這項功能,透過 Google Cloud 控制台建立調查:
- 建立調查前,請先為問題新增自然語言情境說明。
- 分析失敗的叢集,以及執行緩慢和失敗的工作。
- 取得問題根本原因的深入分析資訊,以及建議的修正方式。
- 建立 Google Cloud 客服案件,並附上完整的調查背景資訊。
事前準備
如要開始使用調查功能,請在 Google Cloud 專案中啟用 Gemini Cloud Assist API。
建立調查
如要建立調查,請按照下列步驟操作:
前往 Google Cloud 控制台的「Cloud Assist Investigations」頁面。
按一下「建立」
。說明問題:說明叢集或工作問題。
選取時間範圍:證明問題發生的時間範圍 (預設為 30 分鐘)。
選取資源:
- 按一下
- 在「快速篩選器」欄位中輸入「dataproc」,
然後選取一或多個
dataproc.Batch
、dataproc.Job
或dataproc.Cluster
做為篩選器。 - 選取清單中的批次、工作或叢集進行調查。
「新增資源」。
- 在「快速篩選器」欄位中輸入「dataproc」,
然後選取一或多個
- 按一下
點選「建立」。
解讀調查結果
調查完成後,系統會開啟「調查詳細資料」頁面。 這個頁面包含完整的 Gemini 分析結果,並分為下列幾個部分:
- 問題:這個可收合的部分包含系統自動填寫的詳細資料,說明正在調查的工作。
- 相關觀察結果:這個部分會列出 Gemini 在分析記錄和指標時發現的重要資料點和異常狀況,並預設為收合狀態。
- 假設:這是主要部分,預設會展開。
並列出觀察到的問題可能根本原因。每個假設都包含:
- 總覽:可能原因的說明,例如「高隨機寫入時間和潛在工作偏斜」。
- 建議修正方式:可採取哪些步驟來解決潛在問題。
採取行動
查看假設和建議後,請按照下列步驟操作:
對工作設定或程式碼套用一或多項建議修正,然後重新執行工作。
按一下面板頂端的「喜歡」或「不喜歡」圖示,提供您對調查結果實用性的意見。
查看並提報調查
如要查看先前執行的調查結果,請在「Cloud Assist Investigations」(Cloud Assist 調查) 頁面點選調查名稱,開啟「Investigation details」(調查詳細資料) 頁面。
如需進一步協助,請開啟 Google Cloud 支援案件。支援工程師可透過這個程序,取得先前調查的完整脈絡,包括 Gemini 生成的觀察結果和假設。這樣一來,您就不必與支援團隊來回溝通,案件解決速度也會更快。
如要從調查建立支援案件,請按照下列步驟操作:
在「調查詳細資料」頁面中,按一下「要求支援」。
預覽狀態和價格
在公開預先發布期間,使用 Gemini Cloud Assist 調查功能不會產生任何費用。這項功能正式發布後,就會開始計費。
如要進一步瞭解正式發布後的定價,請參閱 Gemini Cloud Assist 定價。
開放原始碼網頁介面
許多 Dataproc 叢集開放原始碼元件 (例如 Apache Hadoop 和 Apache Spark) 都提供網路介面。這些介面可用於監控叢集資源和作業效能。舉例來說,您可以使用 YARN 資源管理員使用者介面,查看 Dataproc 叢集上的 YARN 應用程式資源分配情形。
永久記錄伺服器
叢集執行時,您可以使用在叢集上執行的開放原始碼網路介面,但刪除叢集時,這些介面也會終止。如要在刪除叢集後查看叢集和工作資料,可以建立永久記錄伺服器 (PHS)。
示例:您遇到想要分析的工作錯誤或速度變慢問題。您可以停止或刪除工作叢集,然後使用 PHS 查看及分析工作記錄資料。
建立 PHS 後,您可以在建立叢集或提交批次工作負載時,在 Dataproc 叢集或Google Cloud Serverless for Apache Spark 批次工作負載上啟用 PHS。PHS 可存取在多個叢集上執行的工作記錄資料,讓您監控專案中的工作,而不必監控在不同叢集上執行的個別 UI。
Dataproc 記錄檔
Dataproc 會收集叢集上執行的 Apache Hadoop、Spark、Hive、Zookeeper 和其他開放原始碼系統產生的記錄,並傳送至 Logging。這些記錄會依記錄來源分組,方便您選取及查看感興趣的記錄。舉例來說,叢集上產生的 YARN NodeManager 和 Spark Executor 記錄會分別標示。如要進一步瞭解 Dataproc 記錄內容和選項,請參閱「Dataproc 記錄」。
Cloud Logging
Logging 是全代管的即時記錄管理系統,可儲存從 Google Cloud 服務擷取的記錄,並提供搜尋、篩選及大規模分析記錄的工具。Dataproc 叢集會產生多個記錄,包括 Dataproc 服務代理程式記錄、叢集啟動記錄,以及 OSS 元件記錄 (例如 YARN NodeManager 記錄)。
根據預設,Dataproc 叢集和 Serverless for Apache Spark 批次工作負載都會啟用記錄功能。記錄檔會定期匯出至 Cloud Logging,並在叢集刪除或工作負載完成後保留。
Dataproc 指標
Dataproc 叢集和工作指標 (以 dataproc.googleapis.com/
為前置字元) 包含時間序列資料,可深入瞭解叢集效能,例如 CPU 使用率或工作狀態。Dataproc 自訂指標 (以 custom.googleapis.com/
為前置字元) 包括叢集上執行的開放原始碼系統發出的指標,例如 YARN running applications
指標。深入瞭解 Dataproc 指標,有助於有效率地設定叢集。設定以指標為準的快訊,有助於您快速發現並解決問題。
系統預設會收集 Dataproc 叢集和工作指標,且不收取費用。系統會向客戶收取自訂指標的收集費用。建立叢集時,您可以啟用自訂指標的收集作業。系統預設會對 Spark 批次工作負載啟用 Serverless for Apache Spark 的Spark 指標集合。
Cloud Monitoring
監控會使用叢集中繼資料和指標 (包括 HDFS、YARN、工作和作業指標),提供 Dataproc 叢集和工作的健康狀態、效能和可用性資訊。您可以使用 Monitoring 探索指標、新增圖表、建立資訊主頁及建立快訊。
Metrics Explorer
您可以使用 Metrics Explorer 查看 Dataproc 指標。Dataproc 叢集、工作和 Serverless for Apache Spark 批次指標會列在 Cloud Dataproc Cluster
、Cloud Dataproc Job
和 Cloud Dataproc Batch
資源下方。Dataproc 自訂指標會列在 VM Instances
資源的 Custom
類別下方。
圖表
您可以使用 Metrics Explorer 建立圖表,將 Dataproc 指標視覺化。
範例:您建立圖表,查看叢集上執行的有效 Yarn 應用程式數量,然後新增篩選器,依叢集名稱或區域選取要顯示的指標。
資訊主頁
您可以建構資訊主頁,使用多個專案和不同 Google Cloud 產品的指標監控 Dataproc 叢集和工作。您可以在 Google Cloud 主控台的「資訊主頁總覽」頁面中建立資訊主頁,方法是按一下「指標探索器」頁面中的圖表,然後建立並儲存該圖表。
快訊
您可以建立 Dataproc 指標快訊,及時掌握叢集或工作問題。
後續步驟
- 瞭解如何排解 Dataproc 錯誤訊息。
- 瞭解如何查看 Dataproc 叢集診斷資料。
- 請參閱 Dataproc 常見問題。