Vorfälle und das Google Cloud Service Health-Dashboard

Das Google Cloud Service Health-Dashboard (CSH) liefert Statusinformationen zu Google Cloud-Produkten, sortiert nach Region und globaler Sprache.

Schwerer Vorfall

Google Cloud definiert einen Vorfall als schwerwiegenden Vorfall, wenn er alle der folgenden Bedingungen erfüllt:

  • Hoher Umfang: Der Vorfall hat globale Auswirkungen oder betrifft einen erheblichen Prozentsatz der Kundenprojekte in einer oder mehreren Regionen.
  • Hoch: Ein oder mehrere Produkte sind nicht verfügbar oder stark eingeschränkt.

Im seltenen Fall, dass es zu einem schwerwiegenden Vorfall kommt, handeln wir umgehend, um das Problem zu beheben.

Während eines größeren Vorfalls wird der Status des Problems über das Google Cloud Service Health Dashboard kommuniziert. Ein schwerwiegender Vorfall wird in den Status-Dashboards mit Dienstausfall gekennzeichnet. Sobald das Problem behoben ist, veröffentlichen wir einen öffentlichen Vorfallbericht, der Details zu den Faktoren enthält, die zum Vorfall beigetragen haben, sowie die Schritte, die wir ergreifen wollen, um ein erneutes Auftreten solcher Vorfälle zu verhindern.

Bei kleineren Vorfällen kann Kunden ein nicht öffentlicher Bericht zur Verfügung gestellt werden.

Lebenszyklus eines Vorfalls

Wenn eine Produkteinschränkung erkannt wird, arbeiten das Google Cloud-Supportteam und das Produktentwicklungsteam zusammen, um den Vorfall zu beheben und Ihnen Updates zur Verfügung zu stellen.

Das folgende Diagramm zeigt die Verantwortlichkeiten der Produktentwicklungs- und Supportteams:

Lebenszyklusdiagramm

In den folgenden Abschnitten erfahren Sie mehr über die einzelnen Verantwortlichkeiten.

Erkennung

Google Cloud verwendet internes Monitoring und Blackbox-Monitoring, um Vorfälle zu erkennen. Weitere Informationen finden Sie in Kapitel 6 des Buches "Site Reliability Engineering".

Wenn Sie Premium-, Erweiterten oder Standardsupport haben, können Sie einen Vorfall melden, indem Sie in der Google Cloud Console eine Supportanfrage erstellen. Ansonsten steht Ihnen dieses Formular zur Verfügung.

Erste Reaktion

Wenn ein Vorfall erkannt wird, verwaltet das Google Cloud Customer Care-Team die Kundenkommunikation. Die erste Benachrichtigung über einen Vorfall ist knapp, lediglich das betreffende Produkt wird häufig genannt. Dies liegt daran, dass wir eine schnelle Benachrichtigung gegenüber einer detailreichen vorziehen. Details können in nachfolgenden Updates geliefert werden.

Damit Ihnen so viele Informationen wie möglich zur Verfügung gestellt werden, ohne Sie mit Problemen zu überhäufen, die Sie nicht betreffen, werden je nach Umfang und Schweregrad eines Problems verschiedene Kommunikationskanäle verwendet:

Kommunikationsdiagramm

Wir empfehlen, bei einer Dienstunterbrechung zuerst den personalisierten Dienststatus zu nutzen. Mit Personalized Service Health können Sie sich Störungen ansehen, die für Ihre Projekte relevant sind, basierend auf Ihren Projekten und den von Ihnen verwendeten Google Cloud-Produkten. Weitere Informationen

Im Google Cloud Service Health Dashboard werden wichtige Vorfälle angezeigt. Es ist in dem seltenen Fall verfügbar, dass der Personalized Service Health selbst nicht verfügbar ist oder von einer Störung betroffen ist.

Wenn Sie Personalized Service Health weder aktiviert noch eingebunden haben, empfehlen wir, auf der Supportseite der Google Cloud Console oder im Customer Care-Portal nach aktiven Störungen zu suchen. Zu den bekannten Problemen, die auf der Supportseite der Google Cloud Console und im Cloud Customer Care-Portal angezeigt werden, gehören auch kleinere Vorfälle mit begrenztem Umfang.

Supportfälle sind für Probleme geeignet, die nicht als Vorfälle eingestuft werden oder für die ein persönlicher Kontakt erforderlich ist. Auf der Seite mit den bekannten Problemen können Sie einen Fall aus einem veröffentlichten Vorfall erstellen, damit Sie regelmäßige Updates erhalten und mit den Supportmitarbeitern sprechen können.

Untersuchen

Produktentwicklungsteams sind dafür verantwortlich, nach der Ursache von Vorfällen zu suchen. Das Vorfallmanagement wird oft von Customer Reliability Engineering-Mitarbeitern abgewickelt, kann jedoch je nach Situation und Produkt auch von Softwareentwicklern oder anderen Personen übernommen werden. Weitere Informationen finden Sie in Kapitel 12 des Buches "Site Reliability Engineering".

Entschärfung/Behebung

Ein Problem gilt erst dann als behoben, wenn Änderungen vorgenommen wurden, von denen Google überzeugt ist, dass sie die Auswirkungen auf unbestimmte Zeit beenden. Zur Problembehebung könnte beispielsweise eine Änderung rückgängig gemacht werden, die einen Vorfall ausgelöst hat.

Während eines Vorfalls versuchen Kundenbetreuung und Produktteam, das Problem zu entschärfen. Eine Entschärfung liegt vor, wenn die Auswirkungen oder der Umfang eines Problems reduziert werden können, indem beispielsweise vorübergehend zusätzliche Ressourcen für ein überlastetes Produkt bereitgestellt werden.

Wenn keine Lösung zur Entschärfung gefunden wurde, sucht das Customer Care-Team nach Problemumgehungen und kommuniziert diese. Problemumgehungen sind Maßnahmen, die Sie ergreifen können, um das zugrunde liegende Problem trotz des Vorfalls zu lösen. Eine Problemumgehung könnte in der Verwendung anderer Einstellungen für einen API-Aufruf bestehen, um einen problematischen Codepfad zu vermeiden.

Nachfassen

Während eines Vorfalls stellt das Customer Care-Team regelmäßig Updates bereit. Updates enthalten normalerweise Folgendes:

  • Weitere Informationen zum Vorfall, z. B. Fehlermeldungen, betroffene Zonen oder Regionen, betroffene Features oder Prozentsätze der Auswirkung.

  • Fortschritt in Bezug auf die Entschärfung, einschließlich Problemumgehungen.

  • Zeitpläne für die Kommunikation, zugeschnitten auf den Vorfall.

  • Statusänderungen, z. B. wenn ein Vorfall behoben ist.

Postmortem

Auf jeden Vorfall folgt ein internes Postmortem, um den Vorfall vollständig zu verstehen und Verbesserungen der Zuverlässigkeit zu finden, die Google vornehmen kann. Diese Verbesserungen werden dann schriftlich festgehalten und schlussendlich implementiert. Weitere Informationen zu Postmortems bei Google finden Sie in Kapitel 15 des Buches "Site Reliability Engineering".

Vorfallbericht

Wenn Vorfälle sehr weitreichende und schwerwiegende Auswirkungen haben, stellt Google Vorfallberichte bereit, in denen Symptome, Auswirkungen, Ursachen, Problembehebungen und Möglichkeiten zur künftigen Vermeidung von Vorfällen beschrieben werden. Wie bei Postmortems achten wir besonders auf die Maßnahmen, die wir ergreifen, um aus dem Problem zu lernen und die Zuverlässigkeit zu verbessern. Google verfasst und veröffentlicht Postmortems mit dem Ziel, transparent zu sein und unser Engagement für die Entwicklung stabiler Produkte für unsere Kunden zu demonstrieren.

Vorfalldatenmodell

Ein Vorfall betrifft ein oder mehrere Produkte an einem oder mehreren Standorten. Vorfälle haben eine Start- und eine Endzeit sowie einen allgemeinen Schweregrad. Zu einem Vorfall sind Aktualisierungen vorhanden, die beschreiben, wie sich der Vorfall im Laufe der Zeit ändert, einschließlich seines Status und der dann betroffenen Standorte. Die Informationen zum Vorfall werden über ein JSON-Schema zur Verfügung gestellt.

Die Felder des JSON-Schemas sind mit Stabil und Unstable gekennzeichnet. Im Allgemeinen gelten ID-Felder als stabil, während Felder wie Anzeigenamen als Instabil eingestuft und ohne Warnung geändert werden können. Verwenden Sie stabile Felder nur für die Integration in ein externes System oder eine Gebäudeautomatisierung. Weitere Informationen finden Sie unter Kann ich Integrationen erstellen, um die im Google Cloud Service Health Dashboard angezeigten Daten programmatisch zu nutzen?.

FAQs

Welche Statusinformationen finde ich im Google CSH-Dashboard?

Das Google CSH-Dashboard bietet Statusinformationen zu Produkten, die Teil von Google Cloud sind. Der Status kann Produktunterbrechungen, Ausfälle oder Informationen zu einem vorübergehenden Problem sein.

Wann wird ein Vorfall im Google CSH-Dashboard gepostet?

Vorfälle, die eines der folgenden Kriterien erfüllen, werden im CSH-Dashboard angezeigt:

Wo finde ich Informationen zu früheren Störungen und Ausfällen von Produkten?

Im Google CSH-Dashboard werden Störungen und Ausfälle für die Google Cloud-Produkte bis zu fünf Jahre lang aufgezeichnet. Auf dem Tab Übersicht des Dashboards wird der aktuelle Status der Produkte nach Sprache angezeigt. Klicken Sie im Dashboard auf Verlauf ansehen, um Informationen zu Produktunterbrechungen und -ausfällen im letzten Jahr aufzurufen. Klicken Sie zum Aufrufen des Ausfallverlaufs eines Produkts für die letzten fünf Jahre für dieses Produkt auf Mehr anzeigen.

Wie kann ich regionale Statusinformationen für Google Cloud-Produkte aufrufen?

Im Google CSH-Dashboard wird der Status aller Google Cloud-Produkte nach Region und globaler Sprache angezeigt. Wenn Sie den Status für einen multiregionalen Standort anzeigen möchten, klicken Sie auf den Tab für die jeweilige Region.

Kann ich Integrationen erstellen, um die im Google Cloud Service Health Dashboard angezeigten Daten programmatisch zu nutzen?

Ja, Sie können die im Google CSH-Dashboard angezeigten Daten so verwenden:

  • Über einen RSS-Feed
  • Über eine JSON-Verlaufsdatei

    Sie können das Schema für die JSON-Datei hier herunterladen.

Der RSS-Feed und die JSON-Verlaufsdatei liefern Informationen zum Vorfallstatus, die über Integrationen verarbeitet werden können.

Verwenden Sie in der JSON-Verlaufsdatei die mit Stable gekennzeichneten Felder anstelle der Felder mit der Kennzeichnung Instable. Wenn Sie beispielsweise Vorfälle, die eine bestimmte Gruppe von Produkten betreffen, programmatisch identifizieren möchten, verwenden Sie die Produkt-IDs (affected_products>id) und nicht deren Anzeigenamen.

Produkt-IDs im Vergleich zu Produktnamen

In der Vergangenheit gab es im Google Cloud Service Health-Dashboard keinen Mechanismus, um die ID für ein bestimmtes Produkt zu finden. Seit Anfang 2023 stellt das Google Cloud Service Health Dashboard einen Produktkatalog zur Verfügung, der diese Zuordnung für alle Produkte enthält. Eine Produkt-ID bietet ein stabiles Feld für die Schlüsselverschlüsselung, während sich der Anzeigename eines Produkts ändern kann. Verweisen Sie lieber auf die Produkt-ID, wenn Sie Vorfälle programmatisch identifizieren, die sich auf eine Gruppe von Produkten auswirken.

Was ist, wenn ich vordefinierte Integrationen habe, die auf dem Google Cloud Status-Dashboard vor der Einführung der regionalen Statusberichte und der Namensänderung im Google Cloud Service Health Dashboard basieren?

Sowohl im RSS-Feed als auch in der JSON-Datei ergänzen die regionalen Statusinformationen die Informationen, die bereits vor der Einführung der regionalen Statusberichte veröffentlicht wurden. Außerdem wurde der Name des Google Cloud Status-Dashboard geändert. Daher gehen wir davon aus, dass deine vorhandenen Integrationen weiterhin funktionieren. Wenn Sie jedoch die regionalen Statusinformationen über Ihre Integrationen nutzen möchten, müssen Sie sie ändern.

Im Folgenden findest du eine detaillierte Beschreibung dazu, wie regionale Informationen sowohl im RSS-Feed als auch in der JSON-Datei dargestellt werden:

  • RSS-Feed

    Die Informationen zum regionalen Status sind eine neue Ergänzung der Feedinformationen vor der Einführung des regionalen Status. Alle Standorte, die als betroffen gemeldet sind, werden an die RSS-Nachricht angehängt.

  • JSON-Datei

    Vor dem regionalen Statusupdate hat Google Cloud einen Stream von Vorfällen veröffentlicht, in dem jeder Vorfall eine Liste der betroffenen Produkte und gegebenenfalls eine Liste der Statusaktualisierungen für jedes einzelne Produkt enthielt. Diese Statusaktualisierungen enthielten ein unstrukturiertes Stringfeld, das die Standortinformationen enthielt oder nicht.

    Jetzt veröffentlicht Google Cloud wie zuvor einen Stream von Vorfällen. Für jeden Vorfall enthält jede Statusaktualisierung jedoch die folgenden neuen Felder:

    • updates.affected_locations: enthält eine strukturierte Liste der betroffenen Standorte zum Zeitpunkt der Veröffentlichung des Updates. Jeder Aktualisierungseintrag und der Eintrag most_recent_update enthalten dieses Feld.
    • currently_affected_locations: enthält die neuesten Informationen zu den Standorten, die aktiv von dem Vorfall betroffen sind. Im Gegensatz zu updates.affected_locations wird diese Liste leer, nachdem der Vorfall behoben wurde (d. h., wenn end auf einen nicht leeren Wert gesetzt ist).
    • previously_affected_locations: enthält eine Liste der Standorte, die zuvor während eines Vorfalls betroffen waren, derzeit aber nicht betroffen sind. Im Verlauf des Vorfalls gibt es möglicherweise für einige Standorte eine Ausfalllösung. Diese Standorte sind weiterhin in previously_affected_locations field vorhanden. Sobald der Vorfall behoben ist, also end auf einen nicht leeren Wert gesetzt ist, enthält dieses Feld eine Liste aller Standorte, die von diesem Vorfall betroffen waren.

Was ist, wenn ich ein Problem habe, dieses jedoch nicht im Dashboard aufgeführt wird?

Das Google Cloud Service Health-Dashboard bietet aktuelle und bisherige Statusinformationen zu allen größeren Vorfällen, die Google Cloud-Produkte und -Dienste betreffen. Wenn bei Ihnen ein Problem auftritt, das nicht im Dashboard aufgeführt ist, ist es möglicherweise nur auf Ihre Projekte oder Instanzen oder nur auf eine begrenzte Anzahl von Kunden beschränkt. Vorfälle, die weniger umfangreich sind, werden möglicherweise im Customer Care-Portal aufgeführt. Bei Problemen, die nicht im Dashboard aufgeführt sind, können Sie sich an den Kundendienst wenden.

Wenn Sie das Dashboard Personalized Service Health bereits verwenden, prüfen Sie, ob das Problem dort aufgeführt ist, um festzustellen, ob Ihr Projekt oder Ihre Instanz betroffen ist.

Wenn Sie die Google Cloud Console verwenden, können Sie rechts oben auf Feedback geben klicken, um Probleme zu melden.

Wer aktualisiert das Dashboard?

Das globale Customer Care-Team überwacht den Status von Produkten anhand vieler verschiedener Signale und aktualisiert das Dashboard, falls ein größeres Problem auftritt. Falls nötig, veröffentlicht das Team einen detaillierten Analysebericht zum Vorfall, wenn dieser behoben wurde.