在裸金属解决方案环境中进行监控

借助裸金属解决方案,您可以在靠近 Google Cloud 数据中心的地区扩展中运行专用工作负载。通过实现裸金属解决方案环境,您可以降低总体费用并降低与迁移到云这一流程相关的风险。

监控概览

我们的首要任务之一是为裸金属解决方案环境提供最高的可用性。因此,Google Cloud 和我们的合作伙伴会执行各种监控活动。以下是我们监控的裸金属解决方案环境中的基础架构设备列表:

计算基础架构

  • 服务器硬件

存储基础架构

  • 存储设备
  • SAN 交换机

网络基础架构

  • 路由器
  • 交换机
  • 互连基础架构

Google Cloud 还会跟踪数据中心环境,包括服务器房间温度和湿度。

我们不会监控操作系统、应用级活动和工作负载,以及进出裸金属解决方案服务器的网络流量。如需预览允许您使用 Cloud Operations 监控操作系统级活动的实用程序,请与 Google Cloud 销售部门联系。

监控工具

我们的合作伙伴使用符合信息技术基础架构库 (ITIL) 的商业级软件解决方案进行监控。Google Cloud 和我们的合作伙伴还使用 Google Cloud 服务(例如 Pub/Sub、Cloud Functions 和 Cloud Monitoring)来收集和处理此监控数据。我们的内部工单和通知系统直接使用这些服务。

Monitoring 数据

概括来讲,我们的监控数据来自以下来源:

  • SNMP 设陷
  • Syslog 消息
  • 来自专用管理软件的消息
  • 智能平台管理接口 (IPMI)

受监控设备的常见指标:

  • CPU 利用率
  • 网络接口:
    • 带宽利用率
    • 数据包舍弃
    • 错误

提醒

Google Cloud 针对裸金属解决方案环境的特定要求进行了广泛的标准化和验证活动。如果认证事件超出正常范围,则监控系统会触发提醒。

突发事件管理

Google Cloud 和我们的合作伙伴基础架构提供商全天候负责突发事件响应。网桥团队还会全天候提供服务,以便对每个支持服务工单进行初始分析,并采取必要的措施来缓解此问题。根据突发事件的严重程度,我们会部署适当的团队来解决突发事件。

Cloud Customer Care 与 Google Cloud 工程 SysOps 团队合作。他们可以为您提供更新,并协调您需要任何帮助的操作。Google Cloud 工程团队会根据需要与基础架构提供商合作伙伴或硬件供应商联系,帮助解决您的问题。

根本原因分析过程

如果突发事件具有广泛且严重的影响,Google 会提供突发事件报告,其中概述了突发事件的症状、影响、根本原因、补救措施以及未来的预防措施。与事后分析一样,我们会特别注意在了解问题和提高可靠性时所采取的步骤。

我们希望此监控功能摘要有助于您在将基础架构和应用迁移到云端时,对裸金属解决方案环境充满信心。