Monitoring in einer Bare-Metal-Lösungsumgebung

Mit der Bare-Metal-Lösung können Sie spezielle Arbeitslasten in regionalen Erweiterungen in der Nähe von Google Cloud Rechenzentren ausführen. Durch die Implementierung einer Bare-Metal-Lösung können Sie Ihre Gesamtkosten senken und die mit der Migration in die Cloud verbundenen Risiken reduzieren.

Monitoring-Übersicht

Eine unserer Hauptprioritäten ist es, die höchste Verfügbarkeit für die Bare-Metal-Lösungsumgebung zu bieten. Aus diesem Grund führenGoogle Cloud und unsere Partner verschiedene Monitoring-Aktivitäten durch. Im Folgenden finden Sie eine Liste der Infrastrukturgeräte in einer Bare-Metal-Lösungsumgebung, die wir überwachen:

Recheninfrastruktur

  • Server hardware

Speicherinfrastruktur

  • Speichergeräte
  • SAN-Switches

Netzwerkinfrastruktur

  • Router
  • Schalter
  • Interconnect-Infrastruktur

Google Cloud überwacht auch die Umgebung des Rechenzentrums, einschließlich der Raumtemperatur und Luftfeuchtigkeit der Server.

Wir überwachen keine Betriebssysteme, Aktivitäten und Arbeitslasten auf Anwendungsebene sowie den Netzwerkverkehr zu und von den Bare-Metal-Lösungsservern. Wenn Sie eine Vorschau eines Dienstprogramms sehen möchten, mit dem Sie mit Cloud Operations Aktivitäten auf Betriebssystemebene überwachen können, wenden Sie sich an den Google Cloud Vertrieb.

Monitoring-Tools

Unser Partner verwendet für das Monitoring kommerzielle Softwarelösungen, die vollständig der Information Technology Infrastructure Library (ITIL) entsprechen.Google Cloud Außerdem nutzt er Google Cloud Dienste wie Pub/Sub, Cloud Run-Funktionen und Cloud Monitoring, um diese Monitoring-Daten zu erheben und zu verarbeiten. Unsere internen Ticket- und Benachrichtigungssysteme arbeiten direkt mit diesen Diensten zusammen.

Monitoring-Daten

Unsere Monitoring-Daten stammen im Wesentlichen aus den folgenden Quellen:

  • SNMP-Traps
  • Syslog-Nachrichten
  • Nachrichten von spezieller Verwaltungssoftware
  • Intelligent Platform Management Interface (IPMI)

Gängige Messwerte der überwachten Geräte:

  • CPU-Auslastung
  • Netzwerkschnittstelle:
    • Bandbreitennutzung
    • Verworfene Pakete
    • Fehler

Benachrichtigungen

Google Cloud führte umfangreiche Normalisierungs- und Validierungsaktivitäten für die spezifischen Anforderungen der Bare-Metal-Lösungsumgebung durch. Wenn ein zertifiziertes Ereignis außerhalb des Normalbereichs liegt, löst das Monitoringsystem eine Benachrichtigung aus.

Vorfallmanagement

Google Cloud und unser Infrastrukturpartner haben ein eigenes Team, das rund um die Uhr für die Reaktion auf Vorfälle zuständig ist. Ein Bridge-Team ist rund um die Uhr erreichbar, um die erste Analyse jedes Supporttickets durchzuführen und die erforderlichen Maßnahmen zur Behebung des Problems zu ergreifen. Je nach Schwere des Vorfalls setzen wir die entsprechenden Teams ein, um ihn zu beheben.

Cloud Customer Care arbeitet mit dem Google Cloud Engineering SysOps-Team zusammen. Sie können Sie über den aktuellen Stand informieren und alle Maßnahmen koordinieren, bei denen Sie benötigt werden. Bei Bedarf setzt sich dasGoogle Cloud Engineering-Team mit dem Infrastrukturanbieter oder den Hardwareanbietern in Verbindung, um das Problem zu beheben.

Prozess der Ursachenanalyse

Wenn Vorfälle weitreichende und schwerwiegende Auswirkungen haben, stellt Google Berichte bereit, in denen Symptome, Auswirkungen, Ursachen, Problembehebungen und Möglichkeiten zur künftigen Vermeidung beschrieben werden. Wie bei Postmortems achten wir besonders auf die Maßnahmen, die wir ergreifen, um aus dem Problem zu lernen und die Zuverlässigkeit zu verbessern.

Wir hoffen, dass diese Zusammenfassung unserer Monitoring-Funktionen Ihnen bei der Migration Ihrer Infrastruktur und Anwendungen in die Cloud hilft, die Bare Metal Solution-Umgebung zu nutzen.