Dataproc 是一项具有高度可伸缩性的全托管式服务,用于运行 Apache Hadoop、Apache Spark、Apache Flink 和 Trino 等开源分布式处理平台。您可以使用以下部分中讨论的工具和文件对 Dataproc 集群和作业进行调查、问题排查和监控。
借助 Gemini Cloud Assist 进行依托 AI 技术的调查(预览版)
概览
Gemini Cloud Assist 调查预览版功能使用 Gemini 高级功能来帮助创建和运行 Dataproc 集群及作业。此功能会分析失败的集群以及失败和运行缓慢的作业,以找出根本原因并建议修复方法。它会创建持久性分析,您可以查看、保存并与 Google Cloud 支持团队共享该分析,以便于进行协作并加快问题解决速度。
功能
使用此功能可通过 Google Cloud 控制台创建调查:
- 在创建调查之前,先为问题添加自然语言上下文说明。
- 分析失败的集群以及运行缓慢和失败的作业。
- 获取有关问题根本原因的分析洞见以及建议的修复方法。
- 创建 Google Cloud 支持请求,并附上完整的调查上下文。
准备工作
如需开始使用调查功能,请在您的 Google Cloud 项目中启用 Gemini Cloud Assist API。
创建调查
如需创建调查,请执行以下操作:
在 Google Cloud 控制台中,前往 Cloud Assist 调查页面。
点击
创建。描述问题:提供集群或作业问题的说明。
选择时间范围:提供问题发生的时间范围(默认值为 30 分钟)。
选择资源:
- 点击
- 在快速过滤条件字段中,输入“dataproc”,然后选择
dataproc.Batch
、dataproc.Job
或dataproc.Cluster
中的一个或多个作为过滤条件。 - 选择列出的批次、作业或集群以进行调查。
添加资源。
- 在快速过滤条件字段中,输入“dataproc”,然后选择
- 点击
点击创建。
解读调查结果
调查完成后,系统会打开调查详情页面。此页面包含完整的 Gemini 分析,分为以下几个部分:
- 问题:一个折叠部分,其中包含所调查的作业的自动填充详细信息。
- 相关观察内容:一个折叠部分,其中列出了 Gemini 在分析日志和指标期间发现的关键数据点和异常值。
- 假设:这是主要部分,默认处于展开状态。它会显示所观察问题的潜在根本原因列表。每个假设都包含:
- 概览:对可能原因的说明,例如“Shuffle 写入时间过长,可能存在任务倾斜”。
- 建议的修复方法:可用于解决潜在问题的切实可行的步骤列表。
采取措施
查看假设和建议后:
将建议的一个或多个修复方法应用于作业配置或代码,然后重新运行作业。
如需针对调查的实用性提供反馈,请点击面板顶部的“我喜欢”或“不喜欢”图标。
查看和上报调查
如需查看之前运行的调查的结果,请点击 Cloud Assist 调查页面上的调查名称以打开调查详情页面。
如果您需要进一步的帮助,可以提交 Google Cloud 支持请求。此流程可为支持工程师提供之前执行的调查的完整上下文,包括 Gemini 生成的观察内容和假设。这种上下文共享可显著减少与支持团队之间所需的来回沟通,从而更快地解决支持请求。
如需基于调查创建支持请求,请执行以下操作:
在调查详情页面中,点击请求支持。
预览状态和价格
在公开预览版期间,使用 Gemini Cloud Assist 调查无需付费。此功能推出正式版 (GA) 后,将开始收费。
如需详细了解推出正式版后的价格,请参阅 Gemini Cloud Assist 价格。
开源网页界面
许多 Dataproc 集群开源组件(例如 Apache Hadoop 和 Apache Spark)都提供了网页界面。这些接口可用于监控集群资源和作业的性能。例如,您可以使用 YARN Resource Manager 界面查看 Dataproc 集群上的 YARN 应用资源分配情况。
Persistent History Server
在集群运行时,在集群上运行的开源网页界面可供使用,但在您删除集群时会终止。如需在集群删除后查看集群和作业数据,您可以创建 Persistent History Server (PHS)。
示例:您遇到了要分析的作业错误或速度变慢问题。您可以停止或删除作业集群,然后使用 PHS 查看和分析作业历史记录数据。
创建 PHS 后,您可以在创建 Dataproc 集群或提交Google Cloud Serverless for Apache Spark 批量工作负载时,在相应集群或批量工作负载上启用它。PHS 可以访问在多个集群上运行的作业的记录数据,让您能够监控项目中的作业,而不是监控在不同集群上运行的单独界面。
Dataproc 日志
Dataproc 会收集由 Apache Hadoop、Spark、Hive、Zookeeper 以及在集群上运行的其他开源系统生成的日志,并将这些日志发送到 Logging。这些日志会根据来源进行分组,您可以选择并查看感兴趣的日志。例如,在集群上生成的 YARN NodeManager 和 Spark Executor 日志会被分别标记。如需详细了解 Dataproc 日志内容和选项,请参阅 Dataproc 日志。
Cloud Logging
Logging 是一个全托管式实时日志管理系统。它为从 Google Cloud 服务提取的日志提供了存储空间,并提供了用于大规模搜索、过滤和分析日志的工具。Dataproc 集群会生成多个日志,包括 Dataproc 服务代理日志、集群启动日志和 OSS 组件日志,例如 YARN NodeManager 日志。
在 Dataproc 集群和 Serverless for Apache Spark 批量工作负载上,日志记录默认处于启用状态。日志会定期导出到 Logging,并在集群删除或工作负载完成后继续保留。
Dataproc 指标
Dataproc 集群和作业指标(前缀为 dataproc.googleapis.com/
)由时序数据组成,提供有关集群性能的见解,例如 CPU 利用率或作业状态。以 custom.googleapis.com/
为前缀的 Dataproc 自定义指标,包括集群上运行的开源系统生成的指标,例如 YARN running applications
指标。深入了解 Dataproc 指标可帮助您高效地配置集群。设置基于指标的提醒可帮助您快速识别问题并做出响应。
默认情况下,Dataproc 集群和作业指标是免费收集的。系统会向客户收取收集自定义指标的费用。您可以在创建集群时启用自定义指标收集。在 Spark 批量工作负载上,Serverless for Apache Spark Spark 指标的收集默认处于启用状态。
Cloud Monitoring
监控使用集群元数据和指标(包括 HDFS、YARN、作业和操作指标),以便了解 Dataproc 集群和作业的健康状况、性能和可用性。您可以使用 Monitoring 探索指标、添加图表、构建信息中心和创建提醒。
Metrics Explorer
您可以使用 Metrics Explorer 查看 Dataproc 指标。
Dataproc 集群、作业和 Serverless for Apache Spark 批量指标列在 Cloud Dataproc Cluster
、Cloud Dataproc Job
和 Cloud Dataproc Batch
资源下。Dataproc 自定义指标列在 VM Instances
资源的 Custom
类别下。
图表
您可以使用 Metrics Explorer 创建图表来直观呈现 Dataproc 指标。
示例:您创建了一个图表,用于查看在集群上运行的活跃 Yarn 应用的数量,然后添加过滤条件,按集群名称或区域选择可视化的指标。
信息中心
您可以构建信息中心,以使用来自多个项目和不同 Google Cloud 产品的指标来监控 Dataproc 集群和作业。您可以在 Google Cloud 控制台的信息中心概览页面中,通过 Metrics Explorer 页面点击、创建并保存图表,从而构建信息中心。
提醒
您可以创建 Dataproc 指标提醒,以便及时收到集群或作业问题的通知。
后续步骤
- 了解如何排查 Dataproc 错误消息。
- 了解如何查看 Dataproc 集群诊断数据。
- 请参阅 Dataproc 常见问题解答。