Dataproc 监控和问题排查工具

简介

Dataproc 是一项具有高度可伸缩性的全代管式服务,用于运行 Apache Hadoop、Apache Spark、Apache Flink 和 Trino 等开源分布式处理平台。您可以使用以下部分中介绍的文件和工具来排查问题并监控 Dataproc 集群和作业。

开源 Web 界面

许多 Dataproc 集群开源组件(例如 Apache Hadoop 和 Apache Spark)都提供了 Web 界面。这些接口可用于监控集群资源和作业性能。例如,您可以使用 YARN 资源管理器界面查看 Dataproc 集群上的 YARN 应用资源分配。

Persistent History Server

集群运行时,集群上运行的开源 Web 界面可供使用,但在您删除集群后,这些界面会终止。如需在删除集群后查看集群和作业数据,您可以创建 Persistent History Server (PHS)。

示例:您遇到了要分析的作业错误或运行缓慢问题。您可以停止或删除作业集群,然后使用 PHS 查看和分析作业历史记录数据。

创建 PHS 后,您可以在创建 Dataproc 集群或提交 Dataproc Serverless 批处理工作负载时,在 Dataproc 集群或 Dataproc Serverless 批处理工作负载上启用 PHS。PHS 可以访问在多个集群上运行的作业的历史数据,让您能够监控整个项目中的作业,而不是监控在不同集群上运行的单独界面。

Dataproc 日志

Dataproc 会收集在集群上运行的 Apache Hadoop、Spark、Hive、Zookeeper 和其他开源系统生成的日志,并将其发送到 Logging。这些日志会根据日志来源进行分组,以便您选择和查看感兴趣的日志:例如,在集群上生成的 YARN NodeManager 和 Spark Executor 日志会分别标记。如需详细了解 Dataproc 日志内容和选项,请参阅 Dataproc 日志

Cloud Logging

日志记录是一款全代管式实时日志管理系统。它为从服务提取的日志提供了存储空间,并提供了用于大规模搜索、过滤和分析日志的工具。 Google Cloud Dataproc 集群会生成多个日志,包括 Dataproc 服务代理日志、集群启动日志和 OSS 组件日志(例如 YARN NodeManager 日志)。

默认情况下,Dataproc 集群和 Dataproc Serverless 批处理工作负载上启用了日志记录。系统会定期将日志导出到 Logging,这些日志会在集群被删除或工作负载完成后保留在 Logging 中。

Dataproc 指标

Dataproc 集群和作业指标(前缀为 dataproc.googleapis.com/)由时间序列数据组成,可提供有关集群性能(例如 CPU 利用率或作业状态)的深入分析。Dataproc 自定义指标(前缀为 custom.googleapis.com/)包括在集群上运行的开源系统发出的指标,例如 YARN running applications 指标。深入了解 Dataproc 指标有助于您高效地配置集群。设置基于指标的提醒有助于您快速发现和响应问题。

默认情况下,系统会免费收集 Dataproc 集群和作业指标。系统会向客户收取自定义指标的收集费用。您可以在创建集群时启用自定义指标的收集。在 Spark 批处理工作负载上,Dataproc Serverless Spark 指标的收集功能默认处于启用状态。

Cloud Monitoring

监控功能使用集群元数据和指标(包括 HDFS、YARN、作业和操作指标),以便了解 Dataproc 集群和作业的运行状况、性能和可用性。您可以使用 Monitoring 探索指标、添加图表、构建信息中心和创建提醒。

Metrics Explorer

您可以使用 Metrics Explorer 查看 Dataproc 指标。Dataproc 集群、作业和无服务器批处理指标列在 Cloud Dataproc ClusterCloud Dataproc JobCloud Dataproc Batch 资源下。Dataproc 自定义指标列在 VM Instances 资源的 Custom 类别下。

图表

您可以使用 Metrics Explorer 创建图表来直观呈现 Dataproc 指标。

示例:您可以创建一个图表来查看集群上运行的有效 Yarn 应用数量,然后添加一个过滤条件,按集群名称或区域选择可视化指标。

信息中心

您可以构建信息中心,使用来自多个项目和不同 Google Cloud 产品的指标来监控 Dataproc 集群和作业。您可以在 Google Cloud 控制台中的信息中心概览页面中构建信息中心,具体方法是点击 Metrics Explorer 页面,创建图表,然后保存图表。

提醒

您可以创建 Dataproc 指标提醒,以便及时收到集群或作业问题的通知。

了解详情

如需获得更多指导,请参阅