Vorfälle und das Google Cloud Service Health-Dashboard

Das Google Cloud Service Health (CSH)-Dashboard bietet Statusinformationen zu den Google Cloud-Diensten, die nach Region und globaler Sprache organisiert sind.

Großer Vorfall

Die Auswirkungen eines größeren Zwischenfalls haben zwei oder mehr der folgenden Szenarien:

  • Mehrere Dienste
  • Mehrere Regionen
  • Mehrere Stunden
  • Mehrere Kunden

In den seltenen Fällen, in denen größere Vorfälle auftreten, ergreifen wir dringend Maßnahmen, um solche Probleme zu beheben.

Bei einem größeren Vorfall wird der Status des Problems über das Google Workspace-Status-Dashboard und das Google Cloud Service Health Dashboard kommuniziert. Ein schwerwiegender Vorfall wird auf den Status-Dashboards als Dienstausfall gekennzeichnet. Nachdem das Problem behoben wurde, veröffentlichen wir einen öffentlichen Vorfallbericht mit den Details der Faktoren, die zu dem Vorfall beigetragen haben, und den Maßnahmen, die wir ergreifen möchten, um solche Vorfälle zu verhindern.

Bei kleineren Vorfällen kann Kunden ein nicht öffentlicher Bericht zur Verfügung gestellt werden.

Lebenszyklus eines Vorfalls

Wenn die Beeinträchtigung eines Produkts festgestellt wird, versuchen das Cloud Customer Care-Team und das Produktentwicklungsteam gemeinsam, den Vorfall zu beheben und Sie darüber zu informieren.

Lebenszyklusdiagramm

Erkennung

Google Cloud nutzt internes und Blackbox-Monitoring, um Vorfälle zu erkennen. Weitere Informationen finden Sie in Kapitel 6 des Buches "Site Reliability Engineering".

Wenn Sie Premium-, Erweiterten oder Standard-Support haben, können Sie einen Vorfall melden, indem Sie in der Google Cloud Console eine Supportanfrage erstellen. Andernfalls können Sie dieses Formular verwenden.

Erste Antwort

Wenn ein Vorfall erkannt wird, übernimmt das Customer Care-Team die Kommunikation mit Ihnen. Die erste Benachrichtigung über einen Vorfall ist knapp, lediglich das betreffende Produkt wird häufig genannt. Dies liegt daran, dass wir eine schnelle Benachrichtigung gegenüber einer detailreichen vorziehen. Details können in nachfolgenden Updates geliefert werden.

Damit Ihnen so viele Informationen wie möglich zur Verfügung gestellt werden, ohne Sie mit Problemen zu überhäufen, die Sie nicht betreffen, werden je nach Umfang und Schweregrad eines Problems verschiedene Kommunikationskanäle verwendet:

Kommunikationsdiagramm

Wenn Sie feststellen, dass Sie von einem Problem betroffen sind, sehen Sie zuerst im Google CSH Dashboard nach. Im Dashboard werden Vorfälle angezeigt, die viele Kunden betreffen. Wenn Sie also einen Vorfall in der Liste sehen, ist es wahrscheinlich, dass er mit Ihrem Problem zusammenhängt. Zur Angabe des Schweregrads werden Vorfälle als Unterbrechung oder Ausfall gekennzeichnet. Kleinere, aber dennoch weitreichende Probleme werden in Form von temporären Hinweisen veröffentlicht.

Wenn ein relevantes Google Cloud-Produkt oder -Dienst ein Problem im Google CSH-Dashboard meldet, wird möglicherweise auch eine Ausfallbenachrichtigung in der Google Cloud Console angezeigt. Wenn in der Google Cloud Console eine Ausfallbenachrichtigung angezeigt wird, können Sie darauf klicken, um mehr über den Status des Problems zu erfahren.

Einige Google Cloud-Produkte haben Google Groups, die Sie abonnieren können, um Ankündigungen und Benachrichtigungen zu neuen Vorfällen im Google CSH-Dashboard zu erhalten.

Die bekannten Probleme, die im Google Cloud-Supportcenter und auf der Supportseite der Google Cloud Console angezeigt werden, sind die umfassendste Ansicht von Problemen und umfassen Probleme, die weniger Personen betreffen als das Dashboard. Wenn Sie ein GCP-Problem vermuten, aber im Dashboard nichts finden, sollten Sie hier nachsehen.

Supportfälle sind für Probleme gedacht, die nicht als Vorfälle eingestuft werden oder für die ein persönlicher Kontakt erforderlich ist. Auf der Seite mit den bekannten Problemen können Sie einen Supportfall aus einem veröffentlichten Vorfall erstellen, damit Sie regelmäßige Updates erhalten und mit den Supportmitarbeitern reden können.

Untersuchung

Produktentwicklungsteams sind dafür verantwortlich, nach der Ursache von Vorfällen zu suchen. Das Vorfallmanagement wird oft von Customer Reliability Engineering-Mitarbeitern abgewickelt, kann jedoch je nach Situation und Produkt auch von Softwareentwicklern oder anderen Personen übernommen werden. Weitere Informationen finden Sie in Kapitel 12 des Buches "Site Reliability Engineering".

Entschärfung/Behebung

Ein Problem gilt erst dann als behoben, wenn Änderungen vorgenommen wurden, von denen Google überzeugt ist, dass sie die Auswirkungen auf unbestimmte Zeit beenden. Zur Problembehebung könnte beispielsweise eine Änderung rückgängig gemacht werden, die einen Vorfall ausgelöst hat.

Während eines Vorfalls versuchen Kundenbetreuung und Produktteam, das Problem zu entschärfen. Eine Entschärfung ist dann gegeben, wenn die Auswirkung oder der Umfang eines Problems reduziert werden kann. Dazu könnten beispielsweise vorübergehend zusätzliche Ressourcen für einen überlasteten Dienst bereitgestellt werden.

Wenn keine Lösung zur Entschärfung gefunden wurde, sucht das Customer Care-Team nach Problemumgehungen und kommuniziert diese. Problemumgehungen sind Maßnahmen, die Sie ergreifen können, um das zugrunde liegende Problem trotz des Vorfalls zu lösen. Eine Problemumgehung könnte in der Verwendung anderer Einstellungen für einen API-Aufruf bestehen, um einen problematischen Codepfad zu vermeiden.

Folgeaktivitäten

Während eines Vorfalls stellt das Customer Care-Team regelmäßig Updates bereit. Updates enthalten normalerweise Folgendes:

  • Weitere Informationen zum Vorfall, z. B. Fehlermeldungen, betroffene Zonen oder Regionen, betroffene Features oder Prozentsätze der Auswirkung.

  • Fortschritt in Bezug auf die Entschärfung, einschließlich Problemumgehungen.

  • Zeitpläne für die Kommunikation, zugeschnitten auf den Vorfall.

  • Statusänderungen, z. B. wenn ein Vorfall behoben ist.

Postmortem

Auf jeden Vorfall folgt ein internes Postmortem, um den Vorfall vollständig zu verstehen und Verbesserungen der Zuverlässigkeit zu finden, die Google vornehmen kann. Diese Verbesserungen werden dann schriftlich festgehalten und schlussendlich implementiert. Weitere Informationen zu Postmortems bei Google finden Sie in Kapitel 15 des Buches "Site Reliability Engineering".

Vorfallbericht

Wenn Vorfälle sehr weitreichende und schwerwiegende Auswirkungen haben, stellt Google Vorfallberichte bereit, in denen Symptome, Auswirkungen, Ursachen, Problembehebungen und Möglichkeiten zur künftigen Vermeidung von Vorfällen beschrieben werden. Wie bei Postmortems achten wir besonders auf die Maßnahmen, die wir ergreifen, um aus dem Problem zu lernen und die Zuverlässigkeit zu verbessern. Google verfasst und veröffentlicht Postmortems mit dem Ziel, Transparenz zu zeigen und unser Engagement für die Entwicklung stabiler Dienste für unsere Kunden zu demonstrieren.

FAQ

Welche Statusinformationen finde ich im Google CSH-Dashboard?

Das CSC-Dashboard von Google bietet Statusinformationen zu Diensten, die Teil von Google Cloud sind. Dabei kann es sich um Dienstunterbrechungen oder Informationen über vorübergehende Probleme handeln.

Wo finde ich Informationen zu früheren Dienstunterbrechungen und -ausfällen?

Das CSC-Dashboard von Google zeichnet bis zu fünf Jahre lang Unterbrechungen und Ausfälle der Google Cloud-Dienste auf. Auf dem Tab Übersicht des Dashboards wird der aktuelle Status der Dienste nach Sprache angezeigt. Klicken Sie im Dashboard auf Verlauf ansehen, um Informationen zu Dienstunterbrechungen und -ausfällen im letzten Jahr aufzurufen. Klicken Sie auf Mehr anzeigen, um den Ausfallverlauf der letzten fünf Jahre anzusehen.

Wie kann ich regionale Statusinformationen zu Google Cloud-Diensten aufrufen?

Das CSC-Dashboard von Google zeigt den Status aller Google Cloud-Dienste nach Region und globaler Sprache an. Klicken Sie auf den Tab für die einzelnen Regionen, um den Dienststatus für einen multiregionalen Standort anzusehen.

Kann ich Integrationen erstellen, um die im Google CSH-Dashboard angezeigten Daten programmatisch zu verarbeiten?

Ja, Sie können die Daten, die im CSH-Dashboard angezeigt werden, auf folgende Weise nutzen:

  • Über einen RSS-Feed
  • Über eine JSON-Verlaufsdatei

    Sie können das Schema für die JSON-Datei hier herunterladen.

Der RSS-Feed und die JSON-Verlaufsdatei enthalten Informationen zum Vorfallstatus, die über Integrationen abgerufen werden können.

Was ist, wenn ich vor der Einführung von regionalisierten Statusberichten und der Namensänderung in Google Cloud Service Health Dashboard vordefinierte Integrationen auf der Grundlage des Google Cloud-Status-Dashboards habe?

Sowohl im RSS-Feed als auch in der JSON-Datei ergänzen die regionalen Statusinformationen die Informationen, die bereits vor der Einführung der regionalen Statusberichte und der Änderung des Namens des Google Cloud-Status-Dashboards veröffentlicht wurden. Wir gehen daher davon aus, dass die vorhandenen Integrationen weiterhin funktionieren. Wenn Sie jedoch die regionalen Statusinformationen über Ihre Integrationen nutzen möchten, müssen Sie diese ändern.

Hier finden Sie eine detaillierte Beschreibung, wie regionale Informationen sowohl im RSS-Feed als auch in der JSON-Datei dargestellt werden:

  • RSS-Feed

    Die regionalen Statusinformationen sind eine neue Ergänzung der Feedinformationen, die vor der Einführung des regionalen Status bereitgestellt wurden. Alle als betroffen gemeldeten Standorte werden an die RSS-Nachricht angehängt.

  • JSON-Datei

    Vor der regionalen Statusaktualisierung hat Google Cloud einen Stream von Vorfällen veröffentlicht, wobei jeder Vorfall eine Liste der betroffenen Produkte und gegebenenfalls eine Liste der Statusaktualisierungen enthält. Diese Statusaktualisierungen enthielten ein unstrukturiertes Stringfeld, das die Standortinformationen enthielt oder nicht.

    Jetzt veröffentlicht Google Cloud wie gewohnt einen Stream von Vorfällen. Für jeden Vorfall enthält jede Statusaktualisierung jedoch die folgenden neuen Felder:

    • updates.affected_locations: enthält eine strukturierte Liste der betroffenen Standorte zum Zeitpunkt der Veröffentlichung des Updates. Jeder Update- und most_recent_update-Eintrag enthält dieses Feld.
    • currently_affected_locations: Enthält die neuesten Informationen zu den Standorten, die vom Vorfall aktiv betroffen sind. Im Gegensatz zu updates.affected_locations wird diese Liste nach der Behebung des Vorfalls leer, d. h. wenn end auf einen nicht leeren Wert festgelegt ist.
    • previously_affected_locations: Enthält eine Liste der Standorte, die zuvor von einem Vorfall betroffen waren, derzeit aber nicht. Im Verlauf des Vorfalls kann es bei einigen Standorten zu einer Ausfalllösung kommen. Diese Standorte sind weiterhin im previously_affected_locations field vorhanden. Sobald der Vorfall behoben wurde (d. h. end auf einen nicht leeren Wert festgelegt ist), enthält dieses Feld eine Liste aller Standorte, die während des Vorfalls betroffen waren.

Was ist, wenn ich ein Problem habe, dieses jedoch nicht im Dashboard aufgeführt wird?

Es kann sein, dass das Problem sich nur auf Ihre Projekte oder Instanzen bezieht, oder dass es nur eine begrenzte Menge von Kunden betrifft. Sie können Customer Care bei allen Problemen kontaktieren, die bei Ihnen auftreten und die nicht im Dashboard aufgeführt sind.

Wenn Sie die Google Cloud Console verwenden, können Sie rechts oben auf das Tool Feedback geben klicken, um Probleme zu melden.

Wer aktualisiert das Dashboard?

Das globale Customer Care-Team überwacht den Status der Dienste anhand vieler verschiedener Signale und aktualisiert das Dashboard, falls ein größeres Problem auftritt. Falls nötig, veröffentlicht das Team einen detaillierten Analysebericht zum Vorfall, wenn dieser behoben wurde.

Was ist der Unterschied zwischen einem Vorfall und einem Ausfall?

Obwohl diese Begriffe oft austauschbar verwendet werden, bezieht sich das Google-Dashboard für CSH und unsere externe Kommunikation auf Vorfall, um einen Zeitraum mit eingeschränktem Dienst zu beschreiben, und einen Ausfall, um sich nur auf die schwerwiegendsten Fälle zu beziehen, in denen ein Produkt weitgehend nicht funktioniert.