本文档介绍了如何解决您在 Workload Manager 中使用 SAP 工作负载可观测性服务时可能会遇到的问题。
可观测性信息中心未列出 SAP 系统 ID
配置 Google Cloud的 Agent for SAP 以实现可观测性,并向托管 SAP 系统不同元素(例如 Central Services、应用服务器和 SAP HANA 数据库)的所有虚拟机的服务账号授予所需权限后,系统 ID 会显示在 SAP 可观测性信息中心内。如果系统 ID 未列出,请检查代理配置和日志,如以下部分所述。
验证代理配置
您必须确保为 Google Cloud的 Agent for SAP 正确配置所有必需功能。
如需获取代理实例的特征状态,请运行以下命令:
sudo /usr/bin/google_cloud_sap_agent configure -showall
命令输出类似于以下内容:
host_metrics [ENABLED]
workload_evaluation [ENABLED]
process_metrics [ENABLED]
sap_discovery [ENABLED]
workload_discovery [ENABLED]
hana_monitoring [DISABLED] or hana_monitoring [ENABLED]
agent_metrics [DISABLED]
如果一个或多个功能被列为 [DISABLED]
,请配置代理并启用这些功能。
查看虚拟机实例日志
在虚拟机实例日志中,查看与 Agent for SAP 无法更新 SAP 系统信息相关的问题。如需查看日志,请执行以下操作:
- 选择虚拟机以打开详细信息页面。
- 点击可观测性标签页以显示有关虚拟机的信息。
选择所有日志,并按“错误”作为严重性对日志进行排序。
其中大多数错误都与关联到虚拟机的服务账号缺少权限有关。如需解决这些错误,请向服务账号授予所需权限。
使用 Cloud Logging 检查日志
您必须确保 Agent for SAP 能够正确发现您的 SAP 工作负载。如需查看托管代理的虚拟机实例的日志条目,请执行以下操作:
在 Google Cloud 控制台中,选择 Logging,然后选择 Logs Explorer:
在查询窗格中,选择显示查询,然后输入以下查询:
jsonPayload.@type:"SapDiscovery"
如果您无法从托管代理的虚拟机中看到任何信息,则表示代理可能未正确配置或运行。如需了解详情,请参阅配置 Agent for SAP。
可选:如需查看 Agent for SAP 上传 SAP 发现数据时与该进程相关的日志,请使用以下查询:
-jsonPayload.caller=~"third_party/sapagent/internal/system/clouddiscovery/cloud_discovery.go" -jsonPayload.caller=~"third_party/sapagent/internal/system/sapdiscovery"
健康状况显示为“未指定”
SAP 系统的未指定(灰色)运行状况可能有多个根本原因。此健康状况用于确定因缺少指标或设置而无法由 Workload Manager 正确评估的系统。导致此健康状态的最常见原因如下:
Google Cloud的 Agent for SAP 可能会停止或错误地报告所需的指标。如需了解详情,请参阅验证代理的安装情况。
如果 Agent for SAP 已启动并正常运行,并且系统状态为未指定,请检查 Process Monitoring 和 SAP HANA Monitoring 功能是否已在代理中正确启用和配置(具体取决于虚拟机上运行的 SAP 进程)。Central Services 和应用服务器需要启用 Process Monitoring,而 SAP HANA 数据库需要启用 Process Monitoring 和 SAP HANA Monitoring。
- 快速变化和缓慢变化的 Process Monitoring 指标的收集频率默认值分别为 5 秒和 30 秒。如果这些值高于默认值,您可能会看到健康状态为未指定。
在“系统概览”页面上,检查系统的架构和规模类型是否已正确识别。如果这两个参数中的任一参数或两个参数都不正确,则表明Google Cloud的 Agent for SAP 或上传到 Google Cloud的 SAP 数据存在基本问题。如需进一步分析,请与 Cloud Customer Care 团队联系。请参阅获取 Google Cloud的 Agent for SAP 支持。
由于指标
workload/sap/nw/instance/role
或workload/sap/hana/ha/availability
无法正常运行或缺失,系统无法正确识别与其相关的每个虚拟机的角色。在“应用和数据库”信息中心的虚拟机列表中查看已识别的 SAP 角色。每种架构类型都需要以下角色:
- 集中式架构:Central Services、应用服务器和 SAP HANA 主服务器。
- 分布式架构:Central Services、应用服务器和 SAP HANA 主服务器。
- 分布式且具有高可用性:Central Services、ERC、应用服务器、SAP HANA 主实例和 SAP HANA 辅助实例。
列表中的所有虚拟机都应分配有角色。
通过检查 Cloud Monitoring 中的指标或使用 timeSeries API 方法让 Agent for SAP 推送最新值,验证所需指标是否具有有效值。如果 Cloud Monitoring 中不存在该指标或该指标没有值,则健康状态会被标记为未指定,因为没有足够的数据来评估此类指标。
在分布式 HA 架构中,请运行以下命令,检查集群中是否有失败的操作,并执行清理操作:
RHEL
pcs resource cleanup RESOURCE_ID
SLES
crm resource cleanup RESOURCE_ID
将
RESOURCE_ID
替换为集群中失败资源的 ID。集群中的失败操作可能会影响指标
workload.googleapis.com/sap/cluster/nodes
和workload.googleapis.com/sap/cluster/resources
,并报告错误的值。检查 Google Cloud的 Agent for SAP 版本是否是最新的,以及您是否运行的是最新版本。较新版本的代理包含针对与可观测性指标相关的问题和 bug 的修复。指标不正确可能会导致系统的健康状态为未指定。
对于复制到辅助站点的 SAP HANA 数据库,请检查主站点和辅助站点之间是否存在有效的集群配置。