简介
Dataproc 是一项伸缩极强的全代管式服务,用于运行开源分布式处理平台,如 Apache Hadoop、Apache Spark、Apache Flink 和 Trino。您可以使用下面几部分中介绍的文件和工具对 Dataproc 集群和作业进行问题排查并监控。
开源网页界面
许多 Dataproc 集群开源组件(如 Apache Hadoop 和 Apache Spark)都提供了网页界面。这些接口可用于监控集群资源和作业性能。例如,您可以使用 YARN Resource Manager 界面查看 Dataproc 集群上的 YARN 应用资源分配情况。
Persistent History Server
在集群上运行的开源网页界面在集群运行时可用,但在您删除集群后它们会终止。如需在删除集群后查看集群和作业数据,您可以创建永久性历史记录服务器 (PHS)。
示例:您遇到想要分析的作业错误或运行速度减慢。您可以停止或删除作业集群,然后使用 PHS 查看和分析作业历史数据。
创建 PHS 后,在创建集群或提交批量工作负载时,您可以对 Dataproc 集群或 Dataproc 无服务器批量工作负载启用 PHS。PHS 可以访问在多个集群上运行的作业的历史记录数据,从而可以监控整个项目中的作业,而不是监控在不同集群上运行的单独界面。
Dataproc 日志
Dataproc 会收集由集群上运行的 Apache Hadoop、Spark、Hive、Zookeeper 和其他开源系统生成的日志,并将它们发送到 Logging。这些日志根据日志来源进行分组,以便您选择和查看感兴趣的日志:例如,在集群上生成的 YARN NodeManager 和 Spark Executor 日志会单独添加标签。如需详细了解 Dataproc 日志内容和选项,请参阅 Dataproc 日志。
Cloud Logging
Logging 是一个全代管式实时日志管理系统。它存储从 Google Cloud 服务和工具中提取的日志,以便大规模搜索、过滤和分析日志。Dataproc 集群会生成多个日志,包括 Dataproc 服务代理日志、集群启动日志和 OSS 组件日志(如 YARN NodeManager 日志)。
默认情况下,Dataproc 集群和 Dataproc Serverless 批量工作负载会启用 Logging。日志会定期导出到 Logging,在集群删除或工作负载完成后,日志会保留在 Logging 中。
Dataproc 指标
Dataproc 集群和作业指标(以 dataproc.googleapis.com/
为前缀)包含时间序列数据,可提供关于集群性能(例如 CPU 利用率或作业状态)的数据洞见。Dataproc 自定义指标以 custom.googleapis.com/
为前缀,包含集群上运行的开源系统发出的指标,例如 YARN running applications
指标。深入了解 Dataproc 指标可以帮助您高效地配置集群。设置基于指标的提醒可帮助您快速识别问题并做出响应。
默认情况下,系统会免费收集 Dataproc 集群和作业指标。 我们会向客户收取自定义指标的收集费用。您可以在创建集群时启用自定义指标收集。默认情况下,系统会对 Spark 批量工作负载启用 Dataproc Serverless Spark 指标集合。
Cloud Monitoring
Monitoring 使用集群元数据和指标(包括 HDFS、YARN、作业和操作指标)来深入了解 Dataproc 集群和作业的运行状况、性能和可用性。您可以使用 Monitoring 来探索指标、添加图表、构建信息中心和创建提醒。
Metrics Explorer
您可以使用 Metrics Explorer 查看 Dataproc 指标。Dataproc 集群、作业和无服务器批处理指标列在 Cloud Dataproc Cluster
、Cloud Dataproc Job
和 Cloud Dataproc Batch
资源下。Dataproc 自定义指标列在 VM Instances
资源的 Custom
类别下。
图表
您可以使用 Metrics Explorer 创建图表来直观呈现 Dataproc 指标。
示例:您可以创建一个图表来查看集群上运行的活跃 Yarn 应用的数量,然后添加过滤条件以按集群名称或区域选择可视化指标。
信息中心
您可以构建信息中心,使用多个项目和不同 Google Cloud 产品的指标来监控 Dataproc 集群和作业。您可以通过在 Metrics Explorer 页面中点击、创建并保存图表,从而在 Google Cloud 控制台的信息中心概览页面中构建信息中心。
提醒
您可以创建 Dataproc 指标提醒,及时接收集群或作业问题的通知。
如需深入了解
如需更多指导,请参阅