在 Bare Metal 解決方案環境中監控

不含作業系統的解決方案可讓您在位於資料中心附近的區域擴充功能中執行特殊工作負載。 Google Cloud 只要導入 Bare Metal 解決方案環境,就能降低整體成本,並減少遷移至雲端的風險。

監控總覽

我們的主要目標之一,就是為 Bare Metal 解決方案環境提供最高的可用性。因此,Google Cloud 和我們的合作夥伴會執行各種監控活動。以下是我們監控的 Bare Metal 解決方案環境中基礎架構裝置清單:

運算基礎架構

  • 伺服器硬體

儲存空間基礎架構

  • 儲存裝置
  • SAN 開關

網路基礎架構

  • 路由器
  • 開關
  • 互連網路基礎架構

Google Cloud 也會追蹤資料中心環境,包括伺服器室的溫度和濕度。

我們不會監控作業系統、應用程式層級活動和工作負載,以及往返 Bare Metal 解決方案伺服器的網路流量。如要預覽可讓您使用 Cloud Operations 監控作業系統層級活動的實用工具,請與Google Cloud 銷售團隊聯絡。

監控工具

我們的合作夥伴使用商業級軟體解決方案進行監控,完全符合資訊技術基礎架構資源庫 (ITIL) 標準。Google Cloud 此外,我們的合作夥伴也使用 Google Cloud 服務 (例如 Pub/Sub、Cloud Run 函式和 Cloud Monitoring) 收集及處理這類監控資料。我們的內部支援單和通知系統會直接與這些服務搭配運作。

監控資料

監控資料大致來自下列來源:

  • SNMP 陷阱
  • Syslog 訊息
  • 專用管理軟體傳送的訊息
  • 智慧型平台管理介面 (IPMI)

監控裝置的常見指標:

  • CPU 使用率
  • 網路介面:
    • 頻寬使用率
    • 封包捨棄
    • 錯誤

快訊

Google Cloud 針對 Bare Metal 解決方案環境的特定需求,進行大量的規範化和驗證活動。如果認證事件超出正常範圍,監控系統就會觸發快訊。

事件管理

Google Cloud 和我們的合作夥伴基礎架構供應商,有專責團隊全天候負責事件回應。我們也有專門的橋接團隊,可 24 小時全年無休地對每張支援單進行初步分析,並採取必要行動來減輕問題。我們會根據事件嚴重程度,派出適當的團隊解決事件。

Cloud Customer Care 與 Google Cloud 工程 SysOps 團隊合作。他們可以為您提供最新消息,並協調需要您協助的任何行動。Google Cloud 工程團隊會視需要與基礎架構供應商合作夥伴或硬體供應商合作,協助解決您的問題。

根本原因分析程序

當事件造成廣泛且嚴重的影響,Google 就會提供事件報告,概要說明問題、影響、根本原因、補救措施及日後的防範工作。和檢討報告一樣,我們會把焦點放在 Google 如何從問題中學習,並據以推出相關措施,進一步改善產品/服務可靠性。

希望這份監控功能摘要能讓您在將基礎架構和應用程式遷移至雲端時,對 Bare Metal 解決方案環境充滿信心。