使用 Node Problem Detector 监控系统运行状况

从 Milestone 77 开始,Container-Optimized OS 包含 Node Problem Detector 代理。您可以使用此功能来监控 COS 实例的系统运行状况。Node Problem Detector 负责监控实例运行状况,并将与运行状况相关的指标报告给 Cloud Monitoring,其中包括容量和错误指标,然后您可以使用 Google Cloud 的运维套件信息中心直观呈现这些指标。从默认配置收集的指标是免费的。Google 将使用汇总指标来了解节点问题并提高 Container-Optimized OS 的可靠性。

代理已预先配置了一组要导出的指标。目前不支持为内置代理自定义报告指标。Node Problem Detector 是一种开源软件。您可以在各自的源代码库中查看其源代码配置

启用运行状况监控

默认情况下,在启动时此功能处于停用状态。您可以使用 cloud-init启动脚本启用此功能。

cloud-init 示例介绍了配置 Container-Optimized OS 实例的基础知识。您可以使用 cloud-init 通过下面的 cloud-config 示例启用运行状况监控功能:

#cloud-config

bootcmd:
- systemctl start node-problem-detector

查看收集的指标

Node Problem Detector 会报告针对 Compute Engine 实例受监控的资源的指标列表。这些指标记录在 Monitoring 指标列表中,其前缀为 compute.googleapis.com/guest/。您可以使用 Monitoring Metrics Explorer 查看收集的指标:

  1. 在 Google Cloud Console 中,转到 Monitoring 或使用以下按钮:

    转至 Monitoring

  2. 在 Monitoring 导航窗格中,点击 Metrics Explorer

  3. 对于资源类型,选择 Compute Engine 虚拟机实例

  4. 选择一个指标,例如“Problem Count”。

  5. 您应该在右侧看到图表和统计信息。如需查看特定 Container-Optimized OS 实例的结果,请将过滤条件设置为 "instance_id=[INSTANCE_ID]",并将 [INSTANCE_ID] 替换为所需实例的 ID。

停用运行状况监控

默认情况下,在启动时此功能处于停用状态。如果您已经启用了该功能但现在想停用它,请在启动脚本cloud-config 中移除 systemctl start node-problem-detector 步骤,然后重新启动 Container-Optimized OS 实例。