使用 Google Cloud 的 Agent for SAP 进行进程监控

本规划指南仅重点介绍 Google Cloud 的 Agent for SAP 的 Process Monitoring 指标收集功能。如需了解代理及其所有功能,请参阅 Google Cloud 的 Agent for SAP 规划指南

在 Linux 上,Google Cloud 的 Agent for SAP 可帮助您监控 SAP 应用中的进程及其运行时状态。您在 Compute Engine 虚拟机实例或裸金属解决方案服务器上安装该代理后,通过启用 Process Monitoring 指标收集可以实现此目的。

Process Monitoring 指标中收集的信息可帮助您排查与 SAP 系统相关的问题。如果出现问题,Cloud Customer Care 可以借助 Process Monitoring 指标帮助您更高效地解决问题。使用 Process Monitoring 指标收集的数据会提供 SAP HANA 高可用性集群配置的可观测性。

如需了解如何配置 Google Cloud 的 Agent for SAP 以收集 Process Monitoring 指标,请参阅配置 Process Monitoring 指标收集

Process Monitoring 指标的类型

在 Google Cloud 的 Agent for SAP 2.6 版中,代理收集的 Process Monitoring 指标如下所示:

  • 快速变化的指标:包括 sap/hana/availabilitysap/hana/ha/availabilitysap/nw/availability。这些指标按默认频率 5 秒收集。可以使用配置参数 process_metrics_frequency 更新此收集频率。
  • 缓慢变化的指标:快速变化的指标之外的 Process Monitoring 指标称为缓慢变化的指标。这些指标按默认频率 30 秒收集。可以使用配置参数 slow_process_metrics_frequency 更新此收集频率。

Cloud Monitoring 价格

Monitoring 将 Google Cloud 的 Agent for SAP 收集并发送到 Monitoring 的 Process Monitoring 指标归类为收费指标并按注入量计费。

代理查询 SAP 系统以收集 Process Monitoring 指标的频率会影响发送到 Monitoring 的指标量。

Process Monitoring 指标是快速变化的指标,默认情况下每 5 秒收集一次。

如需详细了解 Monitoring 价格,请参阅 Google Cloud Observability 价格

费用估算示例

如需查看使用 Google Cloud 的 Agent for SAP 收集 Process Monitoring 指标的费用估算示例,请参阅按提取的字节数对指标计费的价格示例

Process Monitoring 指标

下表介绍了 Google Cloud 的 Agent for SAP 收集的 Process Monitoring 指标。此表中的指标字符串必须以 workload.googleapis.com/ 为前缀。下表中的条目省略了此前缀。

指标 类别 说明
sap/hana/service SAP HANA 表示 SAP HANA 服务可用性的数字响应代码。
  • 0:服务未运行
  • 1:服务正在运行
sap/hana/ha/replication SAP HANA 表示 SAP HANA 系统复制的数字响应代码,基于 SAP 系统 ID、SAP 实例编号和 SAP 服务名称。
  • 0:出现错误。
  • 10:复制已关闭(独立模式)。
  • 12:复制正在进行中。当前节点为辅助节点。
  • 15:复制正在进行中。初始化或与主实例的同步已完成,辅助实例会持续复制。
sap/hana/availability SAP HANA 表示 SAP HANA 系统可用性的数字响应代码,基于 SAP 系统 ID 和 SAP 实例编号。
  • 0:一个或多个进程未处于活跃状态
  • 1:所有进程都处于活跃状态
sap/hana/ha/availability SAP HANA 表示 SAP HANA 系统高可用性状态的数字响应代码,基于 SAP 系统 ID 和 SAP 实例编号。
  • 0:未知状态
  • 1:当前节点是辅助节点
  • 2:主节点有错误
  • 3:主节点处于在线状态,但复制未完全正常运行
  • 4:主节点处于在线状态,并且复制正在运行
sap/hana/query/state SAP HANA 表示 SAP HANA 健康检查的数字响应代码,基于查询 select * from dummy。 值 0 表示成功。任何其他值都表示失败。
sap/hana/query/overalltime SAP HANA 仅在 query/state0 时报告。这是查询所花费的总时间,包括客户端时间和服务器端时间(以微秒为单位)。
sap/hana/query/servertime SAP HANA 仅在 query/state0 时报告。这是服务器处理查询所花费的时间(以微秒为单位)。
sap/cluster/failcounts SAP HANA Linux 高可用性资源的失败计数值。如果该资源不存在,则表示未注册失败计数。否则,集群监控 crm_mon 会报告失败操作次数。
sap/cluster/nodes Pacemaker 集群 表示 Linux 高可用性集群状态的数字响应代码。
  • -10:未知
  • -1:异常状态
  • 0:关停
  • 1:备用
  • 2:在线
sap/cluster/resources Pacemaker 集群 表示 Linux 高可用性集群资源是否已启动且正在运行的数字响应代码。
  • -10:未知
  • 0:失败
  • 1:已停止
  • 2:正在启动
  • 3:资源处于以下稳定状态之一:MasterSlaveStarted
sap/nw/availability SAP NetWeaver 表示 SAP NetWeaver 系统可用性的数字响应代码,基于 SAP 系统 ID、SAP 实例编号和 SAP 服务名称。
  • 0:未知状态
  • 1:当前节点处于活跃状态或已启动
sap/nw/service SAP NetWeaver 表示 SAP NetWeaver 服务可用性的数字响应代码,基于 SAP 系统 ID、SAP 实例编号和 SAP 服务名称。
  • 0:服务未运行
  • 1:服务正在运行
sap/nw/icm/rcode SAP NetWeaver 基于未经身份验证的 ICM 网址资源(本地调用)的 HTTP 1.1 协议的响应代码。
sap/nw/icm/rtime SAP NetWeaver 未经身份验证的 ICM 网址资源(本地调用)的响应时间(以毫秒为单位)。
sap/nw/ms/rcode SAP NetWeaver 基于未经身份验证的消息服务器网址资源(本地调用)的 HTTP 1.1 协议的响应代码。
sap/nw/ms/rtime SAP NetWeaver 未经身份验证的消息服务器网址资源(本地调用)的响应时间(以毫秒为单位)。
sap/nw/ms/wp SAP NetWeaver 消息服务器信息页面报告的 ABAP 工作进程 (NW ABAP) 或 Java 服务器节点 (NW Java) 的数量。
sap/nw/abap/proc/busy SAP NetWeaver 繁忙 ABAP 工作进程数(按类型,例如 DIA、ICM 和 DISP)。
sap/nw/abap/proc/count SAP NetWeaver 所有 ABAP 工作进程数(按类型,例如 DIA、ICM 和 DISP)。
sap/nw/abap/queue/current SAP NetWeaver ABAP 工作进程当前使用的 ABAP 队列数量(按工作进程类型分组,例如 DIAICMDISP)。
sap/nw/abap/queue/peak SAP NetWeaver ABAP 工作进程使用的 ABAP 队列的峰值数量(按工作进程类型分组,例如 DIAICMDISP)。
sap/nw/abap/sessions SAP NetWeaver ABAP 会话数(按会话类型)。
sap/nw/abap/rfc SAP NetWeaver ABAP RFC 连接数(按会话类型)。
sap/nw/enq/locks/usercountowner SAP NetWeaver SAP NetWeaver 系统中的排队锁定数。如果您的系统有许多打开的锁定条目,则可能会导致用户遇到性能问题。
sap/mntmode 其他 SAP 指标 相应 SAP 系统 ID (SID) 的维护模式,该模式已手动设置以指示系统有意地停机 (maintenancemode = TRUE)。此指标的值用于禁止对计划内维护期间不可用的系统发出提醒。

如需在特定 SID 正在进行计划内维护时通知代理,请运行以下命令:


google_cloud_sap_agent maintenance \
    --enable=TRUE or FALSE \
    --sid=SID
sap/service/is-failed 其他 SAP 指标 指示与 SAP 和集群服务相关的操作系统服务是否失败。退出代码 0 表示失败。
sap/service/is-disabled 其他 SAP 指标 pacemakercorosyncsapconfsaptunesapinit 服务未启用时,系统会填充此指标。
sap/hana/cpu/utilization 其他 SAP 指标 SAP HANA 进程每个进程的 CPU 利用率 (%)。
sap/nw/cpu/utilization 其他 SAP 指标 SAP NetWeaver 进程每个进程的 CPU 利用率 (%)。
sap/control/cpu/utilization 其他 SAP 指标 SAP 控制进程每个进程的 CPU 利用率 (%)。
sap/hana/memory/utilization 其他 SAP 指标 HANA 进程每个进程的内存利用率 (MB)。
sap/nw/memory/utilization 其他 SAP 指标 NetWeaver 进程每个进程的内存利用率 (MB)。
sap/control/memory/utilization 其他 SAP 指标 SAP 控制进程每个进程的内存利用率 (MB)。
sap/hana/iops/reads 其他 SAP 指标 SAP HANA 进程的每个进程的读取 IOPS。
sap/hana/iops/writes 其他 SAP 指标 SAP HANA 进程的每个进程的写入 IOPS。
sap/nw/iops/reads 其他 SAP 指标 SAP NetWeaver 进程的每个进程的读取 IOPS。
sap/nw/iops/writes 其他 SAP 指标 SAP NetWeaver 进程的每个进程的写入 IOPS。
sap/infra/migration Google Cloud 基础架构指标 指示虚拟机实例是否正在进行实时迁移
sap/networkstats/rtt 其他 SAP 指标 平均往返时间(以毫秒为单位)。

此指标包含与您的 SAP HANA 系统相关的 TCP 连接信息。系统会使用 ss 实用程序为 SAP HANA hdbnameserver 进程的套接字收集此指标。

sap/networkstats/rcv_rtt 其他 SAP 指标 远程客户端在数据未占用用户空间的情况下用尽当前通告的远程接收窗口 (RWIN) 所需的时间。该指标基于观察到的连接带宽并返回非零值。

此指标包含与您的 SAP HANA 系统相关的 TCP 连接信息。系统会使用 ss 实用程序为 SAP HANA hdbnameserver 进程的套接字收集此指标。

sap/networkstats/rto 其他 SAP 指标 TCP 重新传输超时(以毫秒为单位)。

此指标包含与您的 SAP HANA 系统相关的 TCP 连接信息。系统会使用 ss 实用程序为 SAP HANA hdbnameserver 进程的套接字收集此指标。

sap/networkstats/bytes_acked 其他 SAP 指标 已确认的字节数。

此指标包含与您的 SAP HANA 系统相关的 TCP 连接信息。系统会使用 ss 实用程序为 SAP HANA hdbnameserver 进程的套接字收集此指标。

sap/networkstats/bytes_received 其他 SAP 指标 收到的字节数。

此指标包含与您的 SAP HANA 系统相关的 TCP 连接信息。系统会使用 ss 实用程序为 SAP HANA hdbnameserver 进程的套接字收集此指标。

sap/networkstats/lastsnd 其他 SAP 指标 自发送最后一个数据包以来的时间(以毫秒为单位)。

此指标包含与您的 SAP HANA 系统相关的 TCP 连接信息。系统会使用 ss 实用程序为 SAP HANA hdbnameserver 进程的套接字收集此指标。

sap/networkstats/lastrcv 其他 SAP 指标 自收到最后一个数据包以来的时间(以毫秒为单位)。

此指标包含与您的 SAP HANA 系统相关的 TCP 连接信息。系统会使用 ss 实用程序为 SAP HANA hdbnameserver 进程的套接字收集此指标。

在 Monitoring 中查看指标

Google Cloud 提供了自定义信息中心,可帮助您直观呈现 Google Cloud 的 Agent for SAP 收集的 Process Monitoring 指标。请参阅 GitHub 上 GoogleCloudPlatform/monitoring-dashboard-samples 代码库中的 dashboards/google-cloud-agent-for-sap 目录。

如需了解这些信息中心(包括安装说明),请参阅查看收集的指标

如需了解如何在 Monitoring 中查找指标数据以及如何配置提醒通知,请参阅 Monitoring 中的指标