使用 Google Cloud 的 Agent for SAP 進行程序監控

本規劃指南專門介紹 Google Cloud's Agent for SAP 的程序監控指標收集功能。如要瞭解代理程式及其所有功能,請參閱 Google Cloud的 SAP 代理程式規劃指南

在 Linux 上, Google Cloud's Agent for SAP 可協助您監控 SAP 應用程式中的程序及其執行階段狀態。這項功能會收集程序監控指標,您可以在 Compute Engine 執行個體或 Bare Metal Solution 伺服器上安裝代理程式後啟用這項功能。

「程序監控」指標中收集的資訊有助於排解 SAP 系統相關問題。如果發生問題,Cloud Customer Care 可協助您運用程序監控指標,更有效率地解決問題。使用程序監控指標收集的資料,可提供 SAP HANA 高可用性叢集設定的可觀測性。

如要瞭解如何設定 Google Cloud的 Agent for SAP,以便收集程序監控指標,請參閱「設定程序監控指標收集作業」。

程序監控指標類型

從 2.6 版的 Google CloudAgent for SAP 開始,代理程式收集的「程序監控」指標會稱為:

  • 快速變動的指標:包括 /sap/hana/availability/sap/hana/ha/availability/sap/hana/ha/replication/sap/nw/availability。系統會以 5 秒的預設頻率收集這些指標。您可以使用設定參數 process_metrics_frequency 更新這項收集頻率。
  • 緩慢變更的指標:除了快速變更的指標外,其他程序監控指標都屬於緩慢變更的指標。系統會以預設頻率 (30 秒) 收集這些指標。您可以使用設定參數 slow_process_metrics_frequency 更新這項收集頻率。

Cloud Monitoring 定價

Google Cloud's Agent for SAP 收集並傳送至 Monitoring 的程序監控指標,會由 Monitoring 分類為計費指標,並依擷取量計費。

代理程式查詢 SAP 系統以收集程序監控指標的頻率,會影響傳送至 Monitoring 的指標量。

程序監控指標是快速變動的指標,預設每 5 秒收集一次。

如要進一步瞭解 Monitoring 定價,請參閱 Google Cloud Observability 定價

預估費用示例

如要查看使用Google Cloud的 SAP 代理程式收集程序監控指標的費用估算範例,請參閱「根據擷取的位元組數計費的指標計費示例」。

程序監控指標

下表說明 Google Cloud的 SAP 代理程式收集的程序監控指標。這個表格中的指標字串必須以 workload.googleapis.com 為前置字串。下表中的項目已省略這個前置字串。

指標 類別 說明
/sap/hana/service SAP HANA SAP HANA 服務可用性的數值回應代碼。
  • 0:服務未執行
  • 1:服務正在執行
/sap/hana/ha/replication SAP HANA SAP HANA 系統複製的數字回應代碼,根據 SAP 系統 ID、SAP 執行個體編號和 SAP 服務名稱而定。
  • 0:發生錯誤。
  • 10:沒有系統複製 (獨立模式)。
  • 11:連線發生錯誤。
  • 12:自主要系統上次重新啟動後,次要系統未連線至主要系統。
  • 13:正在進行初始資料移轉作業。處於這個狀態的次要系統完全無法使用。
  • 14:次要系統正在重新同步。例如暫時中斷連線或重新啟動次要系統後。
  • 15:初始化或與主要系統同步處理完成,次要系統會持續複製。SYNC 模式不會造成資料遺失。
/sap/hana/availability SAP HANA SAP HANA 系統可用性的數字回應代碼,以 SAP 系統 ID 和 SAP 執行個體編號為準。
  • 0:一或多個程序未處於活動狀態
  • 1:所有程序都處於啟用狀態
/sap/hana/ha/availability SAP HANA SAP HANA 系統高可用性狀態的數值回應代碼, 以 SAP 系統 ID 和 SAP 執行個體編號為準。
  • 0:狀態不明
  • 1:目前節點為次要節點
  • 2:主要節點發生錯誤
  • 3:主要節點已連線,但複製作業無法正常運作
  • 4:主要節點處於連線狀態,且正在執行複寫作業
/sap/hana/query/state SAP HANA 代表 SAP HANA 健康狀態的數字回應代碼,以查詢 select * from dummy 為依據。 值為 0 表示成功。如果傳送的是任何其他數值,則代表失敗。
/sap/hana/query/overalltime SAP HANA 只有在 query/state0 時,系統才會回報。這是查詢所花費的總時間,包括用戶端和伺服器端時間,以微秒為單位。
/sap/hana/query/servertime SAP HANA 只有在 query/state0 時,系統才會回報。這是伺服器處理查詢所花費的時間,單位為微秒。
/sap/hana/log/utilisationkb SAP HANA 指定 SAP HANA 記錄檔磁碟區使用的磁碟空間 (KB)。

代理程式 3.8 以上版本支援這項指標。

/sap/cluster/failcounts SAP HANA Linux HA 資源的 failcount 值。如果資源不存在,系統就不會註冊 failcount。否則,叢集監控 crm_mon 會回報失敗動作的數量。
/sap/cluster/nodes Pacemaker 叢集 表示 Linux HA 叢集狀態的數字回應代碼。
  • -10:不明
  • -1:狀態不乾淨
  • 0:關機
  • 1:待機
  • 2:線上
/sap/cluster/resources Pacemaker 叢集 數值回應代碼,指出 Linux HA 叢集資源是否正常運作。
  • -10:不明
  • 0:失敗
  • 1:已停止
  • 2:開始
  • 3:資源處於下列其中一種穩定狀態:MasterSlaveStarted
/sap/nw/availability SAP NetWeaver SAP NetWeaver 系統可用性的數字回應代碼,依據 SAP 系統 ID、SAP 執行個體編號和 SAP 服務名稱而定。
  • 0:狀態不明
  • 1:目前節點處於有效或運作狀態
/sap/nw/service SAP NetWeaver SAP NetWeaver 服務可用性的數字回應代碼,依據 SAP 系統 ID、SAP 執行個體編號和 SAP 服務名稱而定。
  • 0:服務未執行
  • 1:服務正在執行
/sap/nw/icm/rcode SAP NetWeaver 根據未經驗證的 ICM 網址資源 (本機呼叫) 的 HTTP 1.1 通訊協定,傳回回應碼。
/sap/nw/icm/rtime SAP NetWeaver 未經驗證的 ICM URL 資源 (本機呼叫) 的回應時間 (以毫秒為單位)。
/sap/nw/ms/rcode SAP NetWeaver 根據未經驗證的訊息伺服器 URL 資源 (本機呼叫) 的 HTTP 1.1 通訊協定,傳回回應代碼。
/sap/nw/ms/rtime SAP NetWeaver 未經驗證的訊息伺服器網址資源 (本機呼叫) 的回應時間 (以毫秒為單位)。
/sap/nw/ms/wp SAP NetWeaver 訊息伺服器資訊頁面回報的 ABAP 工作程序 (NW ABAP) 或 Java 伺服器節點 (NW Java) 數量。
/sap/nw/abap/proc/busy SAP NetWeaver 依類型 (例如 DIA、ICM 和 DISP) 顯示忙碌的 ABAP 工作程序數量。
/sap/nw/abap/proc/count SAP NetWeaver 所有 ABAP 工作程序數量 (依類型),例如 DIA、ICM 和 DISP。
/sap/nw/abap/queue/current SAP NetWeaver ABAP 工作程序目前使用的 ABAP 佇列數量,依工作程序類型 (例如 DIAICMDISP) 分組。
/sap/nw/abap/queue/peak SAP NetWeaver ABAP 工作程序使用的 ABAP 佇列數目上限,依工作程序類型 (例如 DIAICMDISP) 分組。
/sap/nw/abap/sessions SAP NetWeaver 依工作階段類型劃分 ABAP 工作階段數量。
/sap/nw/abap/rfc SAP NetWeaver 依工作階段類型劃分的 ABAP RFC 連線數。
/sap/nw/enq/locks/usercountowner SAP NetWeaver SAP NetWeaver 系統中的佇列鎖定數量。如果系統有大量開啟的鎖定項目,可能會導致使用者遇到效能問題。
/sap/mntmode 其他 SAP 指標 已手動設定的對應 SAP 系統 ID (SID) 維護模式,表示系統刻意停機 (maintenancemode = TRUE)。這項指標的值用於抑制系統在排定維護期間無法使用的警報。

如要通知代理程式特定 SID 正在進行預定維護,請執行下列指令:

google_cloud_sap_agent maintenance \
    --enable=TRUE or FALSE \
    --sid=SID
/sap/service/_failed 其他 SAP 指標 指出與 SAP 和叢集服務相關的 OS 服務是否失敗。結束代碼 0 代表失敗。
/sap/service/is_disabled 其他 SAP 指標 如果未啟用 pacemakercorosyncsapconfsaptunesapinit 服務,系統就會填入這項指標。
/sap/hana/cpu/utilization 其他 SAP 指標 SAP HANA 程序的每個程序 CPU 使用率 (%)。
/sap/nw/cpu/utilization 其他 SAP 指標 SAP NetWeaver 程序的程序 CPU 使用率 (%)。
/sap/control/cpu/utilization 其他 SAP 指標 SAP Control 程序的每個程序 CPU 使用率 (%)。
/sap/hana/memory/utilization 其他 SAP 指標 HANA 程序個別的記憶體使用率 (MB)。
/sap/nw/memory/utilization 其他 SAP 指標 NetWeaver 程序的程序記憶體使用率 (MB)。
/sap/control/memory/utilization 其他 SAP 指標 SAP Control 程序的程序記憶體使用率 (MB)。
/sap/hana/iops/reads 其他 SAP 指標 SAP HANA 程序每項程序的讀取 IOPS。
/sap/hana/iops/writes 其他 SAP 指標 SAP HANA 程序的每個程序寫入 IOPS。
/sap/nw/iops/reads 其他 SAP 指標 SAP NetWeaver 程序的每程序讀取 IOPS。
/sap/nw/iops/writes 其他 SAP 指標 SAP NetWeaver 程序每程序寫入 IOPS。
/sap/infra/migration Google Cloud 基礎架構指標 指出 Compute Engine 執行個體是否正在進行即時遷移
/sap/pacemaker 其他 SAP 指標 數字回應代碼,用於傳達主機是否包含 Pacemaker 設定。
  • 0:找不到心律調節器設定
  • 1:找到心律調節器設定

代理程式 3.2 以上版本支援這項指標。

/sap/hana/volumes 其他 SAP 指標

顯示已掛接 SAP HANA 磁碟區的下列資訊:磁碟區總大小、已用儲存空間、可用儲存空間和儲存空間用量百分比。

代理程式 3.2 以上版本支援這項指標。

/sap/networkstats/rtt 其他 SAP 指標 平均封包往返時間 (毫秒)。

這項指標包含與 SAP HANA 系統相關的 TCP 連線資訊。這項指標是使用 ss 公用程式,針對 SAP HANA hdbnameserver 程序的插槽收集。

/sap/networkstats/rcv_rtt 其他 SAP 指標 如果沒有發生該資料的使用者空間耗用情形,遠端用戶端耗盡目前播送的遠端接收視窗 (RWIN) 所需的時間。這項屬性會根據連線的觀察頻寬傳回非零值。

這項指標包含與 SAP HANA 系統相關的 TCP 連線資訊。這項指標是使用 ss 公用程式,針對 SAP HANA hdbnameserver 程序的插槽收集。

/sap/networkstats/rto 其他 SAP 指標 TCP 重新傳輸逾時時間 (以毫秒為單位)。

這項指標包含與 SAP HANA 系統相關的 TCP 連線資訊。這項指標是使用 ss 公用程式,針對 SAP HANA hdbnameserver 程序的插槽收集。

/sap/networkstats/bytes_acked 其他 SAP 指標 確認的位元組數。

這項指標包含與 SAP HANA 系統相關的 TCP 連線資訊。這項指標是使用 ss 公用程式,針對 SAP HANA hdbnameserver 程序的插槽收集。

/sap/networkstats/bytes_received 其他 SAP 指標 收到的位元組數。

這項指標包含與 SAP HANA 系統相關的 TCP 連線資訊。這項指標是使用 ss 公用程式,針對 SAP HANA hdbnameserver 程序的插槽收集。

/sap/networkstats/lastsnd 其他 SAP 指標 自上次傳送封包以來經過的時間 (以毫秒為單位)。

這項指標包含與 SAP HANA 系統相關的 TCP 連線資訊。這項指標是使用 ss 公用程式,針對 SAP HANA hdbnameserver 程序的插槽收集。

/sap/networkstats/lastrcv 其他 SAP 指標 自上次收到封包以來經過的時間 (以毫秒為單位)。

這項指標包含與 SAP HANA 系統相關的 TCP 連線資訊。這項指標是使用 ss 公用程式,針對 SAP HANA hdbnameserver 程序的插槽收集。

/sap/compute/os/memory/mem_free_kb 運算資源 運算執行個體上未使用的記憶體量 (KB)。 不包括緩衝區或快取記憶體。
/sap/compute/os/memory/mem_available_kb 運算資源 估算運算執行個體上可用的記憶體 (KB),用於啟動新應用程式,不含交換空間。
/sap/compute/os/memory/mem_total_kb 運算資源 運算執行個體可用的總可用記憶體 (KB)。
/sap/compute/os/memory/buffers_kb 運算資源 核心緩衝區使用的記憶體量 (KB)。
/sap/compute/os/memory/cached_kb 運算資源 頁面快取和 Slab 使用的記憶體量 (KB)。
/sap/compute/os/memory/swap_cached_kb 運算資源 交換空間做為快取使用的記憶體量 (KB)。
/sap/compute/os/memory/commit_kb 運算資源 已分配給 SAP 系統程序的記憶體量 (KB)。
/sap/compute/os/memory/commit_percent 運算資源 已分配給 SAP 系統程序的記憶體百分比。
/sap/compute/os/memory/active_kb 運算資源 最近使用的記憶體量 (KB),通常不會回收,除非有需要。
/sap/compute/os/memory/inactive_kb 運算資源 最近使用的記憶體量 (KB),較適合回收用於其他用途。
/sap/compute/os/memory/dirty_kb 運算資源 等待寫回磁碟的記憶體量 (KB)。
/sap/compute/os/memory/shmem_kb 運算資源 tmpfs 檔案系統中耗用的記憶體量 (KB)。
/sap/compute/os/memory/freemem_total 運算資源 在運算執行個體上佈建的記憶體量 (KB),以及 OS 可用的記憶體量。
/sap/compute/os/memory/freemem_used 運算資源 核心和執行中的 SAP 應用程式目前使用的記憶體量 (KB)。
/sap/compute/os/memory/freemem_free 運算資源 未使用的可用記憶體量 (KB)。
/sap/compute/os/memory/freemem_shared 運算資源 在運算執行個體上執行的程序之間共用的記憶體量 (KB)。
/sap/compute/os/memory/freemem_buff/cache 運算資源 核心用於緩衝區和頁面快取的記憶體量 (KB)。
/sap/compute/os/memory/freemem_available 運算資源 可啟動新應用程式的記憶體量 (KB),不會導致系統交換。
/sap/compute/os/memory/freeswap_total 運算資源 在運算執行個體上設定的交換空間量 (KB)。
/sap/compute/os/memory/freeswap_used 運算資源 目前使用的交換空間量 (KB)。
/sap/compute/os/memory/freeswap_free 運算資源 未使用的可用交換空間量 (KB)。

在 Monitoring 中查看指標

Google Cloud 提供自訂資訊主頁,協助您以視覺化方式呈現 Google Cloud的 Agent for SAP 收集的程序監控指標。請參閱 GitHub 上 GoogleCloudPlatform/monitoring-dashboard-samples 存放區中的 dashboards/google-cloud-agent-for-sap 目錄。

如要瞭解這些資訊主頁,包括安裝說明,請參閱「查看收集到的指標」。

如要瞭解如何在 Monitoring 中尋找指標資料及設定快訊通知,請參閱「Monitoring 中的指標」。