觀察及監控 VM

本文說明如何存取及查看虛擬機器 (VM) 指標。本文也說明如何查看 VM 指標,進一步瞭解 VM 或排解 VM 的特定問題。

監控虛擬機器 (VM) 執行個體是維護 VM 資源的必要步驟。Compute Engine 可在 Google Cloud 控制台的「可觀測性」分頁中,提供 VM 指標的總覽。這個分頁會使用遙測資料提供預先定義的資訊主頁,方便您監控 VM,並根據 Compute Engine 資源做出明智決策。您也可以自訂預先定義的資訊主頁,只查看所需的特定指標。

建立 VM 時,所有 VM 都會提供基本程序利用率資料。不過,安裝 Ops Agent 可深入瞭解 VM 行為。

如要進一步瞭解如何建立監控快訊政策、使用 Metrics Explorer,或是一般監控和指標在 Google Cloud上的運作方式,請參閱 Cloud Monitoring 文件。

事前準備

選用:安裝 Ops Agent,從 Compute Engine 執行個體收集更詳細的資料。

如要查看已安裝作業套件代理程式的 VM 執行個體,請按照下列步驟操作:

  1. 在 Google Cloud 控制台中,前往「Monitoring Dashboards」(Monitoring 資訊主頁)

    前往「Monitoring Dashboards」(監控資訊主頁)

  2. 從資訊主頁清單中選取「VM instances」(VM 執行個體)

  3. 按一下「清單」,即可查看 VM 清單。

    系統會顯示專案中的所有 VM。「代理程式」欄會顯示 Ops Agent 安裝狀態。您可以在這個頁面安裝或更新代理程式。

  4. 選用:如要更新「預先定義」資訊主頁,顯示事件 (例如指出受管理執行個體群組更新的事件),請按一下 「選取事件」,然後完成對話方塊。

    如要進一步瞭解事件,請參閱「事件類型」。

存取 VM 觀測指標

在 Google Cloud 控制台的「可觀測性」分頁中,存取單一或多個 VM 的資訊。根據預設,預先定義的資訊主頁會顯示 VM 指標。如要只查看所需指標,可以建立自訂資訊主頁

查看單一 VM 的可觀測性指標

建立 VM 時,您可以使用 CPU 使用率和網路流量等基本 VM 指標。您必須安裝作業套件代理程式,才能取得記憶體和程序使用率指標。作業套件代理程式是從 Compute Engine 執行個體收集遙測資料的主要代理程式。

如要查看單一 VM 的指標,請按照下列步驟操作:

  1. 前往 Google Cloud 控制台的「VM instances」(VM 執行個體) 頁面

    前往 VM 執行個體

  2. 選取 VM,開啟「詳細資料」頁面。

  3. 按一下「可觀測性」分頁標籤,即可顯示 VM 相關資訊。

  4. 選用:將預設的一小時時間範圍重設為要監控的時間範圍。

  5. 選用:如要更新「預先定義」資訊主頁,顯示事件 (例如指出受管理執行個體群組更新的事件),請按一下 「選取事件」,然後完成對話方塊。

    如要進一步瞭解事件,請參閱「事件類型」。

圖 1 中的資訊顯示 VM 詳細資料,但 VM 上未安裝 Ops Agent。請注意,「記憶體」和「磁碟空間使用率」圖表沒有資料。

未安裝作業套件代理程式的 VM 的「可觀測性」分頁。
圖 1:單一 VM 的「可觀測性」分頁,未安裝作業套件代理程式。

查看多部 VM 的可觀測性指標

機群層級的觀測能力會顯示程序使用率最高的五個 VM 指標。列出的前五名 VM 會因指標而異。每個程序可能不會顯示相同的五個 VM。與單一 VM 可用的資料量相比,即使未安裝 Ops 代理程式,機群層級仍有更多可用資料,但安裝代理程式可提供更多資料,以利日後進行疑難排解。

如要查看多部 VM 的指標,請按照下列步驟操作:

  1. 前往 Google Cloud 控制台的「VM instances」(VM 執行個體) 頁面

    前往 VM 執行個體

  2. 點選「Observability」(觀測能力) 分頁標籤。

  3. 選用:將預設的一小時時間範圍重設為要監控的時間範圍。

  4. 依下列一或多個選項篩選結果:

    • ID
    • 名稱
    • 機型
    • 可用區
    • 區域
    • 執行個體群組
    • 標籤
    • 狀態

圖 2 顯示專案中多個 VM 安裝作業套件代理程式時,「可觀測性」分頁的範例。請注意,這些 VM 還有更多可用指標。

已安裝作業套件代理程式的多個 VM 執行個體。
圖 2:已安裝作業套件代理程式的多個 VM 執行個體

查看 VM 的詳細指標

圖表上的每條線都代表一項 VM 程序指標。在下列範例中,uptime-demo VM 已安裝作業套件代理程式。記憶體使用率資料可用於排解問題。如果 VM 未列在資訊卡上,請依 VM 名稱篩選,找出特定 VM。

如要從「可觀測性」分頁中,擷取這部 VM 或其他前五大 VM 的資訊,請按照下列步驟操作:

  1. 將指標懸停在任何 VM 的圖表線上。系統會顯示資訊卡,列出使用該程序的前五個 VM,並顯示各個 VM 的指標。
  2. 如要進一步瞭解 VM 的行為,請按一下 VM 圖表線或清單中的特定 VM 名稱。

圖 3 資訊卡上顯示的 uptime-demo VM 揭露了一些可能需要檢查的指標。

圖表線代表 VM。按一下即可查看特定 VM 的詳細資訊。
圖 3:圖表線條代表 VM。點選即可進一步瞭解特定 VM。

按一下「uptime-demo」VM,開啟「VM Details」(VM 詳細資料) 頁面,如圖 4 所示,其中提供下列資訊:

  • 作業套件代理程式狀態。
  • 建立「快訊」、檢查「事件」或建立「運作時間檢查」的環境內選項。
  • 可查看 VM 設定、指標和記錄的詳細資料。
「VM 詳細資料」頁面會提供特定 VM 的相關資訊。
圖 4:VM 詳細資料頁面提供特定 VM 的相關資訊。

建立自訂資訊主頁,查看特定指標

根據預設,Compute Engine 的「可觀測性」分頁會提供預先定義的資訊主頁,顯示基本的 VM 指標。如要只查看特定指標,可以修改預先定義的資訊主頁,並儲存為自訂資訊主頁。您可以視需要進一步自訂資訊主頁。

如要建立自訂資訊主頁,請按照下列步驟操作:

  1. 前往 Google Cloud 控制台的「VM instances」(VM 執行個體) 頁面

    前往 VM 執行個體

  2. 按照下列步驟前往「可觀測性」分頁:

    • 單一 VM:在「VM instances」(VM 執行個體) 頁面中,按一下 VM 名稱開啟「Details」(詳細資料) 頁面,然後點選該 VM 的「Observability」(可觀測性) 分頁標籤。
    • 多個 VM:在「VM instances」(VM 執行個體) 頁面中,按一下「Observability」(可觀測性) 分頁標籤。
  3. 如果啟用「資訊主頁」下拉式選單,即可使用自訂資訊主頁。如要修改自訂檢視畫面,請從下拉式選單中選取自訂檢視畫面,然後在資訊主頁工具列中按一下

  4. 如要自訂預先定義的資訊主頁,請按一下資訊主頁工具列中的

    Compute Engine 會建立預先定義的資訊主頁副本,然後以編輯模式開啟副本。

  5. 在編輯器中,您可以新增、修改、刪除、重新放置或調整資訊主頁中的視覺化內容。這些視覺化內容統稱為「小工具」。如要進一步瞭解不同的小工具類型,請參閱「資訊主頁總覽」。

    • 如要新增小工具,請在資訊主頁工具列中按一下「新增小工具」,然後完成設定。

      舉例來說,如要查看含有指標資料的記錄檔,請按一下「Add widget」(新增小工具),選取「Logs」(記錄檔),然後按一下「Apply」(套用)

    • 如要修改小工具,請將指標放在小工具上,啟動工具列,然後按一下「編輯小工具」,並使用「設定小工具」對話方塊。如要將變更套用至資訊主頁,請在工具列中按一下「套用」。如要捨棄變更,請按一下「取消」

    • 如要刪除小工具,請將指標放在小工具上以啟動工具列,然後依序點選「更多圖表選項」圖示 和「刪除」

    • 如要調整小工具的位置,請使用指標將小工具的標題拖曳至新位置。

    • 如要調整小工具大小,請使用指標重新放置小工具的右下角。

  6. 修改完畢後,按一下「儲存」

  7. 在確認變更的對話方塊中,按一下「查看自訂資訊主頁」 即可前往自訂檢視畫面。

    如要切換回預先定義的檢視畫面,請從「資訊主頁」下拉式選單中選取「預先定義」

查看資源指標

如要進一步瞭解各項資源指標,請按一下「可觀測性」分頁選單中的每個程序:

  • 探索 CPU程序記憶體使用率、網路流量和磁碟使用率。
  • 搜尋「記錄」,找出並查看「系統事件」,即可查看記錄資料。
  • 新增第三方整合,並檢查現有已設定的整合服務。

本節其餘內容將舉例說明部分程序可能對工作負載造成的影響。這項資訊假設您已在 VM 上安裝 Ops Agent

CPU 使用率

舉例來說,如果伺服器負載量突然大幅增加 (例如網站流量暴增,或正在處理大規模資料),就可能導致 CPU 使用率極高。在這種情況下,CPU 可能會長時間以 100% 的容量運作,導致伺服器速度變慢或沒有回應。

在本例中,我們擔心的是飽和度。如果 CPU 使用率為 100%,工作負載可能可以正常運作,但建議您檢查其他指標,瞭解是否需要介入處理。在這種情況下,建議您建立快訊政策,以便在 VM 的 CPU 使用率飆升時收到通知。

只要具備適當權限,您就能透過 SSH 連線至 VM,調查問題。不過,如果已安裝 Ops Agent,您就能查看更多歷史資料,有助於排解問題。

程序使用率

舉例來說,如果程序耗用過多資源 (例如 CPU、記憶體或磁碟 I/O),導致效能降低,甚至造成 VM 崩潰,就屬於極端程序行為。

舉例來說,如果 VM 上執行的程序發生記憶體流失,隨著時間經過,該程序可能會開始耗用越來越多的記憶體,最終導致 VM 記憶體用盡而當機。同樣地,如果某個程序大量使用磁碟,可能會導致 VM 的磁碟 I/O 達到飽和,進而導致其他程序的回應時間變慢。

記憶體使用率

資料庫需要大量記憶體才能執行索引、排序和彙整資料表等作業。

舉例來說,在 VM 上執行資料庫伺服器 (例如 MySQL 適用的 Cloud SQL 或 PostgreSQL 適用的 Cloud SQL) 時,如果資料集很大,就可能導致記憶體用量過高。如果 VM 的可用記憶體太小,將資料集重新載入記憶體可能會導致資料庫執行緩慢或當機。

網路效能

網路效能問題是由不同因素造成,包括壅塞、頻寬限制、硬體或軟體問題,以及延遲。如要診斷問題,請監控網路效能指標、排解硬體和軟體問題,並分析網路流量模式,找出並解決問題的根本原因。

磁碟使用率

如果從虛擬磁碟讀取或寫入大量資料,導致磁碟存取延遲,就表示 VM 的磁碟使用率偏高,這可能會影響 VM 效能。

監控磁碟使用率指標 (例如每秒磁碟 I/O 作業數 (IOPS)、磁碟佇列長度和平均磁碟回應時間),有助於找出及診斷 VM 的磁碟使用率過高問題。

查看記錄和系統事件

「所有記錄」頁面會提供資源的記錄資料。依嚴重程度排序,找出問題並檢查酬載。

稽核記錄會記錄資源中發生的管理事件。記錄檔會顯示觸發事件的原因。 系統會在同一列中記錄及維護多個記錄,因此舉例來說,如果您有 20 個相同的記錄,資訊會儲存在一列中,而不是 20 個不同的列。

您可以將系統事件視為涵蓋多種事件的統稱,這些事件發生在較高的層級,但可能會影響 Compute Engine 資源。如果發生與預定事件無關的錯誤,就會觸發系統事件。系統事件會記錄在機群層級。

使用第三方整合服務

Monitoring 可與第三方應用程式整合。 透過這些整合服務,您可以從應用程式 (例如 Apache Web Server、MySQL 適用的 Cloud SQL、Redis 適用的 Memorystore 等) 收集遙測資料,以用於在 Compute Engine 和 GKE 上執行的部署作業。使用 Compute Engine 時,作業套件代理程式會收集第三方遙測資料。

後續步驟