監控磁碟健康狀態


您可以查看磁碟效能狀態指標,瞭解永久磁碟或 Google Cloud Hyperdisk 磁碟區的健康狀態。這項指標表示磁碟效能是否可能受到 Compute Engine 內不良事件的影響。

影響磁碟效能狀態的問題也可能會顯示在專案的個人化服務健康狀態 (PSH) 資訊主頁或Google Cloud 服務健康狀態資訊主頁中。

本文將說明磁碟效能狀態,以及如何使用這項資訊排解效能問題。

何時該檢查磁碟健康狀態

如果發現磁碟效能問題,請查看磁碟效能狀態指標,確認磁碟健康狀態。磁碟效能狀態指標每分鐘更新一次,代表前一分鐘的磁碟效能。如要瞭解如何檢查磁碟健康狀態,請參閱查看磁碟效能狀態

下表摘要列出磁碟效能狀態的可能值。

狀態 意義
Healthy 磁碟效能符合預期。
Degraded 您可能會暫時觀察到高於預期的 I/O 延遲。
Severely degraded 發生高 I/O 延遲或其他錯誤。

如果效能狀態不是 Healthy,請參閱「瞭解各狀態」一文,瞭解後續步驟。

如果效能狀態為 Healthy,表示磁碟運作正常,您需要檢查效能問題的其他原因。請檢查應用程式或作業系統錯誤,並確保磁碟已正確最佳化。如需最佳化指南,請參閱「最佳化 Hyperdisk」和「最佳化永久磁碟」。

磁碟健康狀態與其他磁碟效能指標的關係

效能狀態指標顯示的磁碟健康狀態,代表Google 角度的磁碟內部狀態。如果磁碟的狀態為 DegradedSeverely Degraded,則根本原因一律在 Compute Engine 基礎架構中。

一般來說,修改工作負載無法變更磁碟的健康狀態。不過,在極少數情況下,工作負載的變更可能會觸發內部問題,因此修改工作負載或許能緩解問題。

如要瞭解其他可用的磁碟效能指標,請參閱查看磁碟效能指標

不會影響磁碟效能狀態的情境

磁碟效能狀態與下列因素造成的效能問題無關:

  • 磁碟最佳化不完整或不足
  • 與磁碟和機器類型相關聯的效能限制 (如果所選機器類型無法滿足工作負載的效能需求)
  • 工作負載流量導致磁碟負擔增加
  • 使用者、應用程式或作業系統錯誤
  • 磁碟空間已滿或磁碟毀損
  • 對於 Hyperdisk 和極端永久磁碟磁碟區,佈建的 IOPS 或總處理量不足。

在這些情況下,您有責任提升效能,例如最佳化磁碟、擴大工作負載、變更機器類型,以及佈建更多容量、IOPS 或處理量。

在 Cloud Monitoring 中查看磁碟健康狀態

如要查看磁碟的健康狀態,請在 Metrics Explorer 中建立圖表。

必要角色和權限

如要取得檢查磁碟效能狀態指標所需的權限,請要求管理員授予您專案的下列 IAM 角色:

如要進一步瞭解如何授予角色,請參閱「管理專案、資料夾和機構的存取權」。

您或許還可透過自訂角色或其他預先定義的角色取得必要權限。

在 Metrics Explorer 中建立圖表

如要建立圖表,請使用選單導向介面、 Monitoring Query Language (MQL)PromQL 建立查詢。

如要在圖表中查看一或多個磁碟的健康狀態,請按照下列操作說明進行。
  1. 前往 Google Cloud 控制台的 「Metrics Explorer」頁面:

    前往 Metrics Explorer

    如果您是使用搜尋列尋找這個頁面,請選取子標題為「Monitoring」的結果

  2. 在 Google Cloud 控制台的工具列中,選取您的 Google Cloud 專案。 如要進行 App Hub 設定,請選取 App Hub 主專案或已啟用應用程式的資料夾管理專案。
  3. 在「指標」元素中,展開「選取指標」選單, 在篩選列中輸入 VM Instance, 然後使用子選單選取特定資源類型和指標:
    1. 在「Active resources」(有效資源) 選單中,選取「VM Instance」(VM 執行個體)
    2. 在「Active metric categories」(使用中的指標類別) 選單中,選取「Instance」(執行個體)
    3. 在「Active metrics」(使用中的指標) 選單中,選取「Disk performance status」(磁碟效能狀態)
    4. 按一下 [套用]
    這項指標的完整名稱為 compute.googleapis.com/instance/disk/performance_status
  4. 設定資料的查看方式。
    停用匯總功能。請確認在「Aggregation」(匯總) 元素中,第一個選單已設為「Unaggregated」(未匯總),第二個選單已設為「None」(無)
    如要查看特定磁碟的健康狀態,請依 device_name 篩選。

    如要進一步瞭解如何設定圖表,請參閱「使用 Metrics Explorer 時選取指標」。

MQL

  1. 開啟查詢編輯器:按照「編寫 MQL 查詢」一文中的步驟操作。

  2. 在查詢編輯器中輸入查詢。舉例來說,如要查看特定磁碟的效能狀態,請輸入下列查詢:

        fetch gce_instance
        | metric 'compute.googleapis.com/instance/disk/performance_status'
        | filter metric.device_name == 'DISK_NAME'
        | group_by 1m,
            [value_performance_status_fraction_true:
              fraction_true(value.performance_status)]
        | every 1m
      

    DISK_NAME 換成磁碟名稱,例如 disk-1

PromQL

  1. 開啟查詢編輯器:按照「編寫 PromQL 查詢」一文中的步驟操作。

  2. 在查詢編輯器中輸入查詢。舉例來說,如要查看特定磁碟的效能狀態,請輸入下列查詢:

  last_over_time
    (compute_googleapis_com:instance_disk_performance_status
      {monitored_resource="gce_instance",
        project_id ="PROJECT_ID",
        device_name="DISK_NAME"}[${__interval}])

DISK_NAME 換成磁碟名稱,例如 disk-1

如果以圖表形式查看結果,每個磁碟會有 3 條線,分別代表各個可能狀態。同樣地,如果您在表格中查看查詢結果,每個磁碟都會有 3 個資料列。

如果您使用 PromQL 或 MQL 建立查詢,每個資料列或行都會有 10 值。如果是使用選單建立的查詢,這些值會是 100%0

磁碟目前的健康狀態會以值為 100%1 的資料列或線條表示

舉例來說,下方的螢幕截圖顯示名為 a-test-VM 的磁碟圖表,其狀態為 Healthy

螢幕截圖:顯示磁碟狀態為「健康」的圖表

如果以資料表形式查看查詢結果,下表會顯示磁碟的結果範例 (Healthy):

performance_status
Healthy 1
Degraded 0
Severely Degraded 0

以下螢幕截圖顯示名為 replica-23509 的磁碟圖表,其狀態為「已降級」螢幕截圖:圖表顯示磁碟狀態為「Degraded」(已降級)

如要瞭解各個效能狀態的意義,請參閱「瞭解各個狀態」。建立圖表後,您可以將圖表儲存至資訊主頁,供日後使用

分數結果

如果查詢結果包含分數,如以下表格所示,通常是因為選取的顯示期間較長。因此,Cloud Monitoring 會隨著時間彙整資料。 如果 Healthy 狀態的值為 77%,表示磁碟在所選顯示期間內有 77% 的時間處於 Healthy 狀態。

performance_status
Healthy 77%
Degraded 23%
Severely Degraded 0

如要更精細地查看磁碟健康狀態,請使用幾小時或幾分鐘的顯示時間範圍。

瞭解各個狀態

本節將說明各狀態的意義,以及您可能需要採取進一步行動的情況。

Healthy

Healthy 狀態表示從 Google 的角度來看,磁碟運作正常。

如果 Healthy 磁碟發生效能問題,請勿聯絡支援團隊。請改用下列建議排解磁碟問題:

  • 查看磁碟效能指標,例如延遲時間和佇列深度。
  • 檢查工作負載的記錄和指標,找出異常狀況和瓶頸。
  • 如果您使用 Persistent Disk,請確認佈建的容量可滿足磁碟的效能需求。如果您使用 Hyperdisk 或 Extreme 永久磁碟區,請確認您已佈建足夠的 IOPS 和總處理量。
  • 請確認您已按照相關規範最佳化磁碟。詳情請參閱「最佳化 Hyperdisk」和「最佳化永久磁碟」。

Degraded

如果磁碟狀態為 Degraded,通常不需要聯絡支援團隊Degraded status 通常是由 Compute Engine 基礎架構的正常內部維護作業所致。

磁碟狀態為 Degraded 時,您可能不會發現磁碟效能受到影響。如果效能問題和 Degraded 狀態在時間上相關,效能問題可能仍與 Degraded 狀態無關。

如果效能問題是由 Degraded 狀態所致,影響通常是暫時性的。磁碟狀態應會在幾分鐘內恢復為 Healthy

如果磁碟沒有效能問題,可以放心地忽略 Degraded 狀態。

如何解決成效問題

如果磁碟的效能狀態為 Degraded,且您發現效能問題,請按照下列步驟操作:

  1. 查看 PSH 資訊主頁,確認是否有影響磁碟的事件。如果發生事件,請勿與支援團隊聯絡,因為 Google 已知情並正在解決問題。
  2. 如果沒有已知問題,請等待至少 5 分鐘,讓效能問題自行解決。
  3. 如果 5 分鐘後效能問題仍未解決狀態仍為 Degraded,請確認效能問題並非因磁碟最佳化不足所致。舉例來說,請檢查磁碟的延遲時間和佇列深度。 成效問題和 Degraded 狀態可能無關,只是巧合。如要這麼做,請查看磁碟的指標效能最佳化指南

  4. 如果效能問題仍未解決,且符合所有下列條件,請聯絡支援團隊尋求協助:

    • 磁碟狀態已超過 5 分鐘為 Degraded
    • 您已最佳化磁碟,並確認沒有其他問題 (例如瓶頸或應用程式過載),因此有理由相信這不是工作負載問題
    • PSH 資訊主頁沒有任何快訊

Google 不建議直接為 Degraded 狀態建立快訊,而是建議針對較高層級的應用程式狀態發出快訊,並使用這項指標偵錯問題。

Severely Degraded

效能狀態為 Severely Degraded 的磁碟發生效能問題。這個問題可能是由事件或錯誤所致,且可能已顯示在 PSH 資訊主頁Google Cloud 服務健康狀態資訊主頁中。

建議行動

如果磁碟的效能狀態為 Severely Degraded,請按照下列步驟操作:

  1. 請查看 PSH 資訊主頁和一般 Google Cloud 健康狀態資訊主頁,瞭解影響磁碟的事件。如果發生事件,請勿與支援團隊聯絡,因為 Google 已掌握情況,並正在設法解決問題。
  2. 如果兩個資訊主頁都沒有已知問題,請與支援團隊聯絡,尋求協助。

決策樹

下圖說明磁碟發生效能問題時的處理方式,並總結前幾節的資訊。

流程圖:說明如何解讀磁碟效能狀態指標。

如流程圖所示,只有在 PSH 和 Cloud 服務資訊主頁中沒有已知快訊,且磁碟狀態為 Severely Degraded 時,才應聯絡支援團隊。如果磁碟為 Degraded,請僅在所有下列條件都符合時,才與支援團隊聯絡:

  • 磁碟已 Degraded 超過 5 分鐘
  • 您已排除工作負載錯誤或設定錯誤 (例如網路問題)
  • 無法在應用程式、工作負載或磁碟層級執行其他最佳化作業
  • 您已查看所有磁碟指標
  • 您已檢查工作負載和虛擬機器 (VM) 記錄

後續步驟