Vorfälle und Google Cloud-Dienststatus

So bleiben Sie über den Status der Google Cloud -Produkte auf dem Laufenden:

  • Personalized Service Health: Bietet eine personalisierte Ansicht der Google Cloud-Produkte und ‑Regionen, die von Ihren Projekten oder in Ihrer Organisation verwendet werden. In Personalized Service Health finden Sie Informationen zu aktiven und vergangenenGoogle Cloud -Vorfällen, die sich auf Ihre Projekte und Ressourcen auswirken können.

    Sie haben folgende Möglichkeiten, um auf Personalized Service Health zuzugreifen:

  • Google Cloud Dienststatus bietet Folgendes:

    • Plattformweite Übersicht über den Zustand aller Google Cloud -Produkte in allen Regionen der Google Cloud .
    • Google Cloud -Vorfälle mit weitreichenden Auswirkungen.

    Der Dienststatus vonGoogle Cloud ist für alle über die folgenden Optionen verfügbar:

Wenn bei bestimmten Produkten eine Dienstunterbrechung auftritt, sollten Sie sich zuerst an Personalized Service Health wenden. Dort finden Sie immer die meisten Informationen für Kunden vonGoogle Cloud . Weitere Informationen zu Personalized Service Health und zur Einbindung in Ihren Workflow für die Fehlerbehebung

Sie können auch auf der Supportseite der Google Cloud -Console nach aktiven Störungen suchen. Die bekannten Probleme, die auf der Supportseite der Google Cloud -Console angezeigt werden, umfassen auch kleinere und weniger schwerwiegende Vorfälle. Auf der Seite mit den bekannten Problemen können Sie einen Supportfall aus einem veröffentlichten Vorfall erstellen, damit Sie regelmäßige Updates erhalten und mit den Supportmitarbeitern reden können. Supportfälle sind für Probleme gedacht, die nicht als Vorfälle eingestuft werden oder für die ein persönlicher Kontakt erforderlich ist. Wenn Sie Premium-, erweiterten oder Standard-Support haben und einen Vorfall melden möchten, können Sie dazu in der Google Cloud Console einen Supportfall erstellen. Andernfalls können Sie dieses Formular verwenden.

In diesem Dokument liegt der Schwerpunkt auf der Dienstbereitschaft von Google Cloud .

Was ist die Dienstbereitschaft von Google Cloud ?

DieGoogle Cloud -Dienstbereitschaft enthält Informationen zu anhaltenden, weit verbreiteten Vorfällen, die bestimmte Kriterien erfüllen, sowie zum Status von Google Cloud-Produkten, unterteilt nach Region und globaler Sprache. Dazu gehören Produktunterbrechungen, Ausfälle oder Informationsmeldungen zu vorübergehenden Problemen.

Der Dienststatus vonGoogle Cloud ist für den seltenen Fall konzipiert, dass der personalisierte Dienststatus selbst nicht verfügbar ist oder von einer Störung betroffen ist oder das betroffene Produkt noch nicht für den personalisierten Dienststatus eingerichtet wurde.

Wann wird ein Vorfall in der Google Cloud -Service Health-Seite angezeigt?

Bei den meisten Vorfällen in der Google Cloud erhalten betroffene Kunden Informationen zu Vorfällen direkt über die personalisierte Dienstbereitschaft in der Google Cloud -Console. Wenn die Benachrichtigungsbedingungen erfüllt sind, lösen diese Vorfälle auch von Ihnen konfigurierte Service Health-Benachrichtigungen aus.

Vorfälle, die eines der folgenden Kriterien erfüllen, werden in der Google Cloud -Dienstbereitschaft angezeigt:

  • Schwerwiegende, öffentliche Vorfälle
  • Vorfälle für Google Cloud -Produkte, die noch nicht in Personalized Service Health verfügbar sind
  • Vorfälle, die auftreten, wenn das Dashboard „Personalized Service Health“ nicht verfügbar ist

Schwerwiegender Vorfall

BeiGoogle Cloud wird ein Vorfall als schwerwiegend eingestuft, wenn alle folgenden Bedingungen erfüllt sind:

  • Großer Umfang: Der Vorfall hat globale Auswirkungen oder betrifft einen erheblichen Prozentsatz der Kundenprojekte in einer oder mehreren Regionen.
  • Hohe Schwere: Mindestens eines der Produkte ist nicht verfügbar oder stark beeinträchtigt.

Im seltenen Fall eines größeren Vorfalls ergreifen wir umgehend Maßnahmen, um alle Probleme zu beheben.

Bei einem schwerwiegenden Vorfall wird der Status des Problems über das Google Cloud Service Health Dashboard mitgeteilt. Ein schwerwiegender Vorfall wird in den Status-Dashboards als Dienstausfall gekennzeichnet. Nach der Behebung des Problems veröffentlichen wir einen öffentlichen Vorfallbericht, der Details zu den Faktoren enthält, die zum Vorfall beigetragen haben, und die Maßnahmen, die wir ergreifen möchten, um solche Vorfälle in Zukunft zu vermeiden.

Bei Vorfällen mit geringerem Umfang kann Kunden ein nicht öffentlicher Bericht zur Verfügung gestellt werden.

Lebenszyklus eines Vorfalls

Wenn eine Produktbeeinträchtigung erkannt wird, arbeiten das Google Cloud -Supportteam und das Produktentwicklungsteam zusammen, um den Vorfall zu beheben und Sie über Neuigkeiten zu informieren.

Das folgende Diagramm zeigt die Zuständigkeiten der Produktentwicklungs- und Supportteams:

Lebenszyklusdiagramm

Weitere Informationen zu den einzelnen Aufgaben finden Sie in den folgenden Abschnitten.

Erkennung

Google Cloud verwendet internes Monitoring und Blackbox-Monitoring, um Vorfälle zu erkennen. Weitere Informationen finden Sie in Kapitel 6 des Buches „Site Reliability Engineering“.

Erste Antwort

Wenn ein Vorfall erkannt wird, übernimmt das Customer Care-Team von Google Cloud die Kommunikation mit dem Kunden. Die erste Benachrichtigung über einen Vorfall ist knapp, lediglich das betreffende Produkt wird häufig genannt. Dies liegt daran, dass wir eine schnelle Benachrichtigung gegenüber einer detailreichen vorziehen. Details können in nachfolgenden Updates geliefert werden.

Damit Ihnen so viele Informationen wie möglich zur Verfügung gestellt werden, ohne Sie mit Problemen zu überhäufen, die Sie nicht betreffen, werden je nach Umfang und Schweregrad eines Problems verschiedene Kommunikationskanäle verwendet:

Kommunikationsdiagramm

Prüfen

Produktentwicklungsteams sind dafür verantwortlich, nach der Ursache von Vorfällen zu suchen. Das Vorfallmanagement wird oft von Customer Reliability Engineering-Mitarbeitern abgewickelt, kann jedoch je nach Situation und Produkt auch von Softwareentwicklern oder anderen Personen übernommen werden. Weitere Informationen finden Sie in Kapitel 12 des Buches "Site Reliability Engineering".

Abhilfe und Behebung

Ein Problem gilt erst dann als behoben, wenn Änderungen vorgenommen wurden, von denen Google überzeugt ist, dass sie die Auswirkungen auf unbestimmte Zeit beenden. Zur Problembehebung könnte beispielsweise eine Änderung rückgängig gemacht werden, die einen Vorfall ausgelöst hat.

Während eines Vorfalls versuchen Kundenbetreuung und Produktteam, das Problem zu entschärfen. Eine Entschärfung ist dann gegeben, wenn die Auswirkung oder der Umfang eines Problems reduziert werden kann. Dazu könnten beispielsweise vorübergehend zusätzliche Ressourcen für ein überlastetes Produkt bereitgestellt werden.

Wenn keine Lösung zur Entschärfung gefunden wurde, sucht das Customer Care-Team nach Problemumgehungen und kommuniziert diese. Problemumgehungen sind Maßnahmen, die Sie ergreifen können, um das zugrunde liegende Problem trotz des Vorfalls zu lösen. Eine Problemumgehung könnte in der Verwendung anderer Einstellungen für einen API-Aufruf bestehen, um einen problematischen Codepfad zu vermeiden.

Nachfassen

Während eines Vorfalls stellt das Customer Care-Team regelmäßig Updates bereit. Updates enthalten normalerweise Folgendes:

  • Weitere Informationen zum Vorfall, z. B. Fehlermeldungen, betroffene Zonen oder Regionen, betroffene Features oder Prozentsätze der Auswirkung.

  • Fortschritt in Bezug auf die Entschärfung, einschließlich Problemumgehungen.

  • Zeitpläne für die Kommunikation, zugeschnitten auf den Vorfall.

  • Statusänderungen, z. B. wenn ein Vorfall behoben ist.

Postmortem

Auf jeden Vorfall folgt ein internes Postmortem, um den Vorfall vollständig zu verstehen und Verbesserungen der Zuverlässigkeit zu finden, die Google vornehmen kann. Diese Verbesserungen werden dann schriftlich festgehalten und schlussendlich implementiert. Weitere Informationen zu Postmortems bei Google finden Sie in Kapitel 15 des Buches "Site Reliability Engineering".

Vorfallbericht

Wenn Vorfälle sehr weitreichende und schwerwiegende Auswirkungen haben, stellt Google Vorfallberichte bereit, in denen Symptome, Auswirkungen, Ursachen, Problembehebungen und Möglichkeiten zur künftigen Vermeidung von Vorfällen beschrieben werden. Wie bei Postmortems achten wir besonders auf die Maßnahmen, die wir ergreifen, um aus dem Problem zu lernen und die Zuverlässigkeit zu verbessern. Google verfasst und veröffentlicht Postmortems mit dem Ziel, Transparenz zu zeigen und unser Engagement für die Entwicklung stabiler Produkte für unsere Kunden zu demonstrieren.

Datenmodell für Vorfälle

Ein Vorfall wirkt sich auf ein oder mehrere Produkte an einem oder mehreren Standorten aus. Vorfälle haben eine Start- und eine Endzeit sowie eine Gesamtschwere. Ein Vorfall enthält Aktualisierungen, die beschreiben, wie sich der Vorfall im Laufe der Zeit ändert, einschließlich seines Status und der betroffenen Standorte. Die Informationen zu Vorfällen werden über ein JSON-Schema zur Verfügung gestellt.

Das JSON-Schema enthält Felder, die als Stable (Stabil) und Unstable (Unstabil) gekennzeichnet sind. Im Allgemeinen gelten ID-Felder als stabil, während Felder wie Anzeigenamen als instabile Felder eingestuft werden und ohne Warnung geändert werden können. Verwenden Sie Felder vom Typ Stable nur bei der Einbindung in ein externes System oder eine Gebäudeautomation. Weitere Informationen finden Sie unter Kann ich Integrationen erstellen, um die imGoogle Cloud Service Health Dashboard angezeigten Daten programmatisch zu verwenden?.

FAQ

Wo finde ich Informationen zu früheren Produktstörungen und -ausfällen?

In derGoogle Cloud -Dienstbereitschaft werden Unterbrechungen und Ausfälle für dieGoogle Cloud -Produkte bis zu fünf Jahre lang aufgezeichnet. Auf dem Tab Übersicht des Dashboards sehen Sie den aktuellen Status der Produkte nach Sprache. Wenn Sie Informationen zu Produktunterbrechungen und -ausfällen im letzten Jahr aufrufen möchten, klicken Sie im Dashboard auf Verlauf ansehen. Wenn Sie den Ausfallverlauf eines Produkts für die letzten fünf Jahre aufrufen möchten, klicken Sie für dieses Produkt auf Mehr anzeigen.

Wie kann ich regionalisierte Statusinformationen für Google Cloud -Produkte aufrufen?

Auf der SeiteGoogle Cloud Dienstbereitschaft wird der Status aller Google Cloud -Produkte nach Region und globaler Sprache angezeigt. Wenn Sie den Status für eine Multiregion aufrufen möchten, wählen Sie den regionsspezifischen Tab aus.

Kann ich Integrationen erstellen, um die Daten zu verwenden, die in der Google Cloud -Dienstbereitschaft angezeigt werden?

Ja, Sie können die Daten, die auf der Seite „Servicezufriedenheit“ von Google Cloud angezeigt werden, auf folgende Weise verwenden:

  • Über einen RSS-Feed
  • Über eine JSON-Verlaufsdatei

    Das Schema für die JSON-Datei können Sie hier herunterladen.

Der RSS-Feed und die JSON-Verlaufsdatei enthalten Informationen zum Status von Vorfällen, die über Integrationen verwendet werden können.

Verwenden Sie die Felder in der JSON-Verlaufsdatei, die als Stable (Stabil) gekennzeichnet sind, anstelle der Felder, die als Unstable (Unstabil) gekennzeichnet sind. Beispiel: Wenn Sie Probleme, die sich auf eine bestimmte Gruppe von Produkten auswirken, programmatisch identifizieren möchten, verwenden Sie die Produkt-IDs (affected_products>id) und nicht die Anzeigenamen.

Produkt-IDs und Produktnamen

Bisher gab es in der Google Cloud -Dienstbereitschaft keinen Mechanismus zum Auffinden der ID für ein bestimmtes Produkt. Seit Anfang 2023 ist imGoogle Cloud -Dienst „Service Health“ ein Produktkatalog verfügbar, der diese Zuordnung für alle Produkte enthält. Eine Produkt-ID bietet ein stabiles Feld, das als Ausgangspunkt verwendet werden kann, während sich der Anzeigename eines Produkts ändern kann. Verwende die Produkt-ID, wenn du programmatisch Vorfälle identifizierst, die sich auf eine Reihe von Produkten auswirken.

Was ist, wenn ich vor der Einführung der regionalen Statusberichte und der Namensänderung in Google Cloud Service Health Dashboard vorgefertigte Integrationen auf der Grundlage des Google Cloud Service Health-Dashboards erstellt habe?

Sowohl im RSS-Feed als auch in der JSON-Datei ergänzen die Informationen zum regionalen Status die Informationen, die bereits vor der Einführung der regionalen Statusberichte und der Änderung des Namens des DienstesGoogle Cloud veröffentlicht wurden. Daher gehen wir davon aus, dass Ihre bestehenden Integrationen weiterhin funktionieren. Wenn Sie die Informationen zum regionalen Status jedoch über Ihre Integrationen nutzen möchten, müssen Sie sie ändern.

Hier findest du eine detaillierte Beschreibung, wie regionale Informationen sowohl im RSS-Feed als auch in der JSON-Datei dargestellt werden:

  • RSS-Feed

    Die Informationen zum regionalen Status sind eine neue Ergänzung zu den Feedinformationen, die vor der Einführung des regionalen Status bereitgestellt wurden. Alle als betroffen gemeldeten Standorte werden an die RSS-Nachricht angehängt.

  • JSON-Datei

    Vor der Aktualisierung des regionalen Status hat Google Cloud einen Stream mit Vorfällen veröffentlicht. Jeder Vorfall enthielt eine Liste der betroffenen Produkte und gegebenenfalls eine Liste der Statusaktualisierungen. Diese Statusaktualisierungen enthielten ein unstrukturiertes Stringfeld, das die Standortinformationen enthielt oder nicht.

    Jetzt veröffentlicht Google Cloud wie zuvor einen Stream von Vorfällen. Jede Statusaktualisierung für jeden Vorfall enthält jedoch die folgenden neuen Felder:

    • updates.affected_locations: enthält eine strukturierte Liste der betroffenen Standorte zum Zeitpunkt der Veröffentlichung der Aktualisierung. Dieses Feld ist in jedem Aktualisierungs- und most_recent_update-Eintrag enthalten.
    • currently_affected_locations: Enthält die neuesten Informationen zu den Standorten, die vom Vorfall aktiv betroffen sind. Im Gegensatz zu updates.affected_locations wird diese Liste nach der Behebung des Problems leer, d. h. wenn end auf einen nicht leeren Wert festgelegt ist.
    • previously_affected_locations: enthält eine Liste der Standorte, die bei einem Vorfall zuvor betroffen waren, derzeit aber nicht. Im Laufe des Vorfalls wird die Störung an einigen Standorten möglicherweise behoben. Diese Standorte sind weiterhin in der previously_affected_locations field verfügbar. Sobald der Vorfall behoben ist (d. h. wenn end auf einen nicht leeren Wert gesetzt ist), enthält dieses Feld eine Liste aller Standorte, die von diesem Vorfall betroffen waren.

Was ist, wenn ich ein Problem habe, dieses jedoch nicht im Dashboard aufgeführt wird?

Das Dashboard zur Dienstbereitschaft von Google Cloud enthält aktuelle und bisherige Statusinformationen zu allen größeren Vorfällen, die sich auf Produkte und Dienste von Google Cloud auswirken. Wenn ein Problem auftritt, das nicht im Dashboard aufgeführt ist, kann es sein, dass es nur Ihre Projekte oder Instanzen oder nur eine begrenzte Anzahl von Kunden betrifft. Vorfälle mit geringerem Umfang werden möglicherweise im Customer Care-Portal aufgeführt. Sie können sich bei Problemen, die nicht im Dashboard aufgeführt sind, an den Kundenservice wenden.

Wenn Sie das Dashboard Personalized Service Health bereits verwenden, prüfen Sie, ob das Problem dort aufgeführt ist, um festzustellen, ob Ihr Projekt oder Ihre Instanz betroffen ist.

Wenn Sie die Google Cloud -Console verwenden, können Sie oben rechts auf Feedback senden klicken, um Probleme zu melden.

Wer aktualisiert das Dashboard?

Das globale Customer Care-Team überwacht den Status der Produkte anhand vieler verschiedener Signale und aktualisiert das Dashboard, falls ein größeres Problem auftritt. Falls nötig, veröffentlicht das Team einen detaillierten Analysebericht zum Vorfall, wenn dieser behoben wurde.