Cloud Monitoring

Cloud Monitoring 可帮助您了解云应用的性能、正常运行时间和整体运行状况。Google Cloud 运维套件会收集并提取有关 Dataproc 集群的指标、事件和元数据,并通过信息中心和图表生成数据分析。

使用 Cloud Monitoring 集群指标监控 Dataproc 集群的性能表现和运行状况。

Cloud Monitoring 集群指标

Dataproc 集群上会自动启用 Dataproc 集群资源指标。使用 Monitoring 查看这些指标。

您可以通过 Google Cloud Console 或使用 Monitoring API 访问 Monitoring。

控制台

  1. 创建集群后,请转到 Cloud Console 中的 Monitoring 以查看集群监控数据。

    当您首次访问 Monitoring 时,它会创建一个工作区并将您的 Google Cloud 项目与该工作区相关联。如果您从未使用过 Monitoring,那么这个过程会自动进行。如果您已使用 Monitoring,那么系统会显示 Add your project to a Workspace 对话框。如需创建新的工作区,请从 New Workspace 列表中选择您的 Google Cloud 项目,然后点击 Add

    设置了工作区后,将显示 Monitoring 控制台。 此时,作为额外的设置步骤,您可以在项目中的虚拟机上安装 Monitoring 代理。您无需在 Dataproc 集群中的虚拟机上安装代理,因为创建 Dataproc 集群时系统会为您执行此步骤。

  2. 选择 Metrics Explorer,在“查找资源类型和指标”下拉列表中,选中“Cloud Dataproc 集群”资源(或在框中键入“cloud_dataproc_cluster”)。
  3. 再次点击输入框,然后从下拉列表中选择一个指标。 在下一个屏幕截图中,已选择“YARN memory size”。将鼠标悬停在指标名称上可显示指标的相关信息。

    您可以选择过滤条件,按指标标签分组,执行聚合,以及选择图表查看选项(请参阅 Monitoring 文档)。

API

您可以使用 Monitoring timeSeries.list API 来捕获和列出由 filter 表达式定义的指标。使用 API 页面上的试用此 API 模板发送 API 请求并显示响应。

示例:下面大致介绍了模板化请求以及针对以下 Monitoring timeSeries.list 参数返回的 JSON 响应:

  • name: projects/example-project-id
  • filter: metric.type="dataproc.googleapis.com/cluster/hdfs/storage_capacity"
  • interval.endTime: 2018-02-27T11:54:00.000-08:00
  • interval.startTime: 2018-02-20T00:00:00.000-08:00

构建自定义 Monitoring 信息中心

您可以构建自定义 Monitoring 信息中心,该信息中心用于显示选定的 Cloud Dataproc 集群指标的图表。

  1. 从 Monitoring Dashboards Overview 页面中选择 + CREATE DASHBOARD。为信息中心提供一个名称,然后点击右上方菜单中的 Add Chart 以打开 Add Chart 窗口。选择“Cloud Dataproc Cluster”作为资源类型。 选择一个或多个指标以及指标和图表属性。然后保存该图表。

  2. 您可以将其他图表添加到信息中心。保存信息中心后,其标题会显示在 Monitoring Dashboards Overview 页面中。您可以在信息中心显示页面中查看、更新和删除信息中心图表。

使用 Monitoring 提醒

您可以创建 Monitoring 提醒,以便在 Dataproc 集群或作业指标超过指定阈值时(例如,当 HDFS 可用容量较低时)收到通知。

创建提醒

  1. 在 Cloud Console 中打开 Monitoring Alerting。点击 + CREATE POLICY 以打开 Create new alerting policy 表单。通过添加提醒条件、政策触发条件、通知渠道和文档来定义提醒。

  2. 选择 ADD CONDITION 以打开提醒条件表单并选择 Metric 标签页。填写各个字段以定义提醒条件,然后点击 ADD。如果 Dataproc 集群 HDFS 容量低于指定的 930 GiB(二进制 GB)阈值(998,579,896,320 字节)达到 1 分钟,则会触发下面显示的示例警报条件。

  3. 添加提醒条件后,请完善提醒政策,只需设置通知渠道、政策触发条件、文档以及提醒政策名称。

查看提醒

每次指标阈值条件触发提醒时,Monitoring 都会创建一个突发事件和相应的事件。您可以在 Cloud Console 的 Monitoring Alerting 页面中查看突发事件。如果您在提醒政策中定义了通知机制(例如电子邮件或短信通知),Monitoring 还会发送事件通知。

后续步骤