Vorfälle und das Google Cloud-Status-Dashboard

Lebenszyklus eines Vorfalls

Wenn die Beeinträchtigung eines Produkts festgestellt wird, versuchen das Cloud Customer Care-Team und das Produktentwicklungsteam gemeinsam, den Vorfall zu beheben und Sie darüber zu informieren.

Lebenszyklusdiagramm

Erkennung

Google verwendet internes Monitoring und Blackbox-Monitoring, um Vorfälle zu erkennen. Weitere Informationen finden Sie in Kapitel 6 des Buches "Site Reliability Engineering".

Kunden mit den Supportvarianten Premium, Enhanced, Standard, Rollenbasierten oder Enterprise erstellen in der Google Cloud Console Supportfälle, wenn sie Vorfälle melden wollen. Wenn Sie Platin, Gold oder Silber haben und einen Vorfall melden möchten, können Sie im Google Cloud-Supportcenter einen Supportfall erstellen. Ansonsten steht Ihnen dieses Formular zur Verfügung.

Erste Antwort

Wenn ein Vorfall erkannt wird, übernimmt das Customer Care-Team die Kommunikation mit Ihnen. Die erste Benachrichtigung über einen Vorfall ist knapp, lediglich das betreffende Produkt wird häufig genannt. Dies liegt daran, dass wir eine schnelle Benachrichtigung gegenüber einer detailreichen vorziehen. Details können in nachfolgenden Updates geliefert werden.

Damit Ihnen so viele Informationen wie möglich zur Verfügung gestellt werden, ohne Sie mit Problemen zu überhäufen, die Sie nicht betreffen, werden je nach Umfang und Schweregrad eines Problems verschiedene Kommunikationskanäle verwendet:

Kommunikationsdiagramm

Wenn Sie feststellen, dass Sie von einem Problem betroffen sind, sehen Sie zuerst im Cloud-Status-Dashboard nach. Im Dashboard werden Vorfälle angezeigt, die viele Kunden betreffen. Wenn Sie also einen Vorfall in der Liste sehen, ist es wahrscheinlich, dass er mit Ihrem Problem zusammenhängt. Zur Angabe des Schweregrades werden Vorfälle im Statusdashboard entweder als Unterbrechung oder Ausfall gekennzeichnet. Kleinere, aber dennoch weitreichende Probleme werden in Form von temporären Hinweisen veröffentlicht.

Wenn ein relevantes Google Cloud-Produkt oder ein relevanter Google-Dienst ein Problem im Cloud Status Dashboard meldet, wird möglicherweise ein Ausfallhinweis in der Cloud Console angezeigt. Wird in der Cloud Console ein Ausfallhinweis angezeigt, so können Sie auf den Hinweis klicken, um mehr über den Status des Problems zu erfahren.

Einige Google Cloud-Produkte haben Google Groups-Gruppen, die Sie abonnieren können, um Ankündigungen und Benachrichtigungen zu neuen Vorfällen im Cloud-Status-Dashboard zu erhalten.

Die bekannten Probleme, die im Google Cloud-Supportcenter und auf der Supportseite der Cloud Console angezeigt werden, stellen die umfassendste Ansicht von Problemen dar. Die dort aufgeführten Probleme betreffen weniger Personen als die im Dashboard angezeigten. Wenn Sie ein GCP-Problem vermuten, aber im Dashboard nichts finden, sollten Sie hier nachsehen.

Supportfälle sind für Probleme gedacht, die nicht als Vorfälle eingestuft werden oder für die ein persönlicher Kontakt erforderlich ist. Auf der Seite mit den bekannten Problemen können Sie einen Supportfall aus einem veröffentlichten Vorfall erstellen, damit Sie regelmäßige Updates erhalten und mit den Supportmitarbeitern reden können.

Untersuchung

Produktentwicklungsteams sind dafür verantwortlich, nach der Ursache von Vorfällen zu suchen. Das Vorfallmanagement wird oft von Customer Reliability Engineering-Mitarbeitern abgewickelt, kann jedoch je nach Situation und Produkt auch von Softwareentwicklern oder anderen Personen übernommen werden. Weitere Informationen finden Sie in Kapitel 12 des Buches "Site Reliability Engineering".

Entschärfung/Behebung

Ein Problem gilt erst dann als behoben, wenn Änderungen vorgenommen wurden, von denen Google überzeugt ist, dass sie die Auswirkungen auf unbestimmte Zeit beenden. Zur Problembehebung könnte beispielsweise eine Änderung rückgängig gemacht werden, die einen Vorfall ausgelöst hat.

Während eines Vorfalls versuchen Kundenbetreuung und Produktteam, das Problem zu entschärfen. Eine Entschärfung ist dann gegeben, wenn die Auswirkung oder der Umfang eines Problems reduziert werden kann. Dazu könnten beispielsweise vorübergehend zusätzliche Ressourcen für einen überlasteten Dienst bereitgestellt werden.

Wenn keine Lösung zur Entschärfung gefunden wurde, sucht das Customer Care-Team nach Problemumgehungen und kommuniziert diese. Problemumgehungen sind Maßnahmen, die Sie ergreifen können, um das zugrunde liegende Problem trotz des Vorfalls zu lösen. Eine Problemumgehung könnte in der Verwendung anderer Einstellungen für einen API-Aufruf bestehen, um einen problematischen Codepfad zu vermeiden.

Folgeaktivitäten

Während eines Vorfalls stellt das Customer Care-Team regelmäßig Updates bereit. Updates enthalten normalerweise Folgendes:

  • Weitere Informationen zum Vorfall, z. B. Fehlermeldungen, betroffene Zonen oder Regionen, betroffene Features oder Prozentsätze der Auswirkung.

  • Fortschritt in Bezug auf die Entschärfung, einschließlich Problemumgehungen.

  • Zeitpläne für die Kommunikation, zugeschnitten auf den Vorfall.

  • Statusänderungen, z. B. wenn ein Vorfall behoben ist.

Postmortem

Auf jeden Vorfall folgt ein internes Postmortem, um den Vorfall vollständig zu verstehen und Verbesserungen der Zuverlässigkeit zu finden, die Google vornehmen kann. Diese Verbesserungen werden dann schriftlich festgehalten und schlussendlich implementiert. Weitere Informationen zu Postmortems bei Google finden Sie in Kapitel 15 des Buches "Site Reliability Engineering".

Vorfallbericht

Wenn Vorfälle sehr weitreichende und schwerwiegende Auswirkungen haben, stellt Google Vorfallberichte bereit, in denen Symptome, Auswirkungen, Ursachen, Problembehebungen und Möglichkeiten zur künftigen Vermeidung von Vorfällen beschrieben werden. Wie bei Postmortems achten wir besonders auf die Maßnahmen, die wir ergreifen, um aus dem Problem zu lernen und die Zuverlässigkeit zu verbessern. Google verfasst und veröffentlicht Postmortems mit dem Ziel, Transparenz zu zeigen und unser Engagement für die Entwicklung stabiler Dienste für unsere Kunden zu demonstrieren.

FAQ

Welche Informationen finde ich auf der Startseite des Dashboards?

Das Google Cloud Status-Dashboard bietet Statusinformationen zu Diensten, die Teil der Google Cloud Platform sind. Dabei kann es sich um Dienstunterbrechungen oder Informationen über vorübergehende Probleme handeln.

Wo finde ich Informationen zu früheren Dienstunterbrechungen und -ausfällen?

Die Seite Überblick und Verlauf enthält alle Unterbrechungen und Ausfälle der letzten 365 Tage. Klicken Sie auf eine Vorfallsnummer, um Beiträge, die veröffentlicht wurden, als der Vorfall noch aktuell war, zu sehen. Außerdem finden Sie dort vom Customer Care-Team verfasste Berichte.

Was ist, wenn ich ein Problem habe, dieses jedoch nicht im Dashboard aufgeführt wird?

Es kann sein, dass das Problem sich nur auf Ihre Projekte oder Instanzen bezieht, oder dass es nur eine begrenzte Menge von Kunden betrifft. Sie können Customer Care bei allen Problemen kontaktieren, die bei Ihnen auftreten und die nicht im Dashboard aufgeführt sind.

Wenn Sie die Google Cloud Console verwenden, klicken Sie oben rechts auf Feedback senden, um Probleme zu melden.

Wer aktualisiert das Dashboard?

Das globale Customer Care-Team überwacht den Status der Dienste anhand vieler verschiedener Signale und aktualisiert das Dashboard, falls ein größeres Problem auftritt. Falls nötig, veröffentlicht das Team einen detaillierten Analysebericht zum Vorfall, wenn dieser behoben wurde.

Was ist der Unterschied zwischen einem Vorfall und einem Ausfall?

Obwohl diese Begriffe häufig synonym verwendet werden, bezieht sich Vorfall im Cloud-Status-Dashboard und in unseren externen Mitteilungen auf einen Zeitraum mit eingeschränktem Dienst und Ausfall nur auf die schwerwiegendsten Fälle, in denen ein Produkt weitgehend funktionsunfähig ist.