Vorfälle und das Google Cloud Service Health-Dashboard

Das Google Cloud Service Health (CSH)-Dashboard enthält Statusinformationen nach Region und globalem Gebiet organisierte Google Cloud-Produkte.

Schwerer Vorfall

Google Cloud definiert einen Vorfall als schweren Vorfall, wenn er alle folgende Bedingungen:

  • Hohes Ausmaß: Der Vorfall hat globale Auswirkungen oder hat einen erheblichen Einfluss Prozentsatz der Kundenprojekte in einer oder mehreren Regionen.
  • Hoher Schweregrad: Mindestens ein Produkt ist nicht verfügbar oder stark beeinträchtigt.

Im seltenen Fall eines größeren Vorfalls handeln wir dringend, um etwaige Probleme zu beheben.

Während eines größeren Vorfalls wird der Status des Problems über das Google Cloud Service Health-Dashboard. Ein schwerwiegender Vorfall ist als gekennzeichnet Dienstausfall in den Status-Dashboards. Nach der Behebung des Problems veröffentlichen Sie einen öffentlichen Vorfallbericht, der die Details zu den Faktoren enthält, zu dem Vorfall und den Maßnahmen, die wir ergreifen wollen, um wiederholt auftreten.

Bei Vorfällen mit geringerem Umfang kann eine nicht öffentliche Meldung gemacht werden. Kunden zur Verfügung stehen.

Lebenszyklus eines Vorfalls

Wenn eine Verschlechterung des Produkts erkannt wird, können das Google Cloud-Supportteam und das Produktentwicklungsteam, um den Vorfall zu beheben mit Updates.

Das folgende Diagramm zeigt die Verantwortlichkeiten Supportteams:

Lebenszyklusdiagramm

Weitere Informationen zu diesen Verantwortlichkeiten finden Sie in den folgenden .

Erkennung

Google Cloud nutzt internes und Blackbox-Monitoring, um Vorfälle zu erkennen. Weitere Informationen finden Sie in Kapitel 6 des Buches "Site Reliability Engineering".

Wenn Sie Premium-, Erweiterten oder Standard-Support haben, können Sie indem Sie eine Supportanfrage in der Google Cloud Console: Andernfalls können Sie verwenden Sie dieses Formular.

Erste Antwort

Wenn ein Vorfall erkannt wird, kümmert sich das Google Cloud Customer Care-Team für die Kundenbetreuung Kommunikation. Die erste Benachrichtigung über einen Vorfall ist knapp, lediglich das betreffende Produkt wird häufig genannt. Dies liegt daran, dass wir eine schnelle Benachrichtigung gegenüber einer detailreichen vorziehen. Details können in nachfolgenden Updates geliefert werden.

Damit Ihnen so viele Informationen wie möglich zur Verfügung gestellt werden, ohne Sie mit Problemen zu überhäufen, die Sie nicht betreffen, werden je nach Umfang und Schweregrad eines Problems verschiedene Kommunikationskanäle verwendet:

Kommunikationsdiagramm

Wir empfehlen die Verwendung von Personalized Service Health als erster Zwischenstopp bei einer Dienstunterbrechung bestimmten Produkten. Bis Mit Personalized Service Health können Sie sich Störungen ansehen, die für Ihre Projekte relevant sind. Weitere Informationen zu Personalized Service Health und zur Einbindung in Ihren Vorfall zu verwalten.

Die Google Cloud Service Health-Dashboard wichtige Vorfälle anzeigt und im seltenen Fall Personalized Service Health selbst ist nicht verfügbar oder von einer Störung betroffen.

Wenn Sie Personalized Service Health nicht für Ihr Projekt aktiviert haben oder das Produkt noch nicht von Personalized Service Health unterstützt wird, empfehlen wir, in den folgenden Bereichen nach aktiven Störungen zu suchen:

Zu den bekannten Problemen, die auf der Supportseite der Google Cloud Console angezeigt werden, gehören auch kleine und beschränkte Vorfälle.

Supportanfragen sind für Probleme geeignet, die nicht als Vorfälle oder in denen ein persönlicher Kontakt erforderlich ist. Auf der Seite „Bekannte Probleme“ erstellen Sie einen Fall aus einem bereits veröffentlichten Vorfall, damit Sie regelmäßig Updates erhalten und mit den Supportmitarbeitern sprechen.

Prüfen

Produktentwicklungsteams sind dafür verantwortlich, nach der Ursache von Vorfällen zu suchen. Das Vorfallmanagement wird oft von Customer Reliability Engineering-Mitarbeitern abgewickelt, kann jedoch je nach Situation und Produkt auch von Softwareentwicklern oder anderen Personen übernommen werden. Weitere Informationen finden Sie in Kapitel 12 des Buches "Site Reliability Engineering".

Entschärfung/Behebung

Ein Problem gilt erst dann als behoben, wenn Änderungen vorgenommen wurden, von denen Google überzeugt ist, dass sie die Auswirkungen auf unbestimmte Zeit beenden. Zur Problembehebung könnte beispielsweise eine Änderung rückgängig gemacht werden, die einen Vorfall ausgelöst hat.

Während eines Vorfalls versuchen Kundenbetreuung und Produktteam, das Problem zu entschärfen. Eine Risikominderung liegt vor, wenn die Auswirkungen oder Problem kann verringert werden, z. B. durch vorübergehende Bereitstellung zusätzlicher Ressourcen dass ein Produkt überlastet ist.

Wenn keine Lösung zur Entschärfung gefunden wurde, sucht das Customer Care-Team nach Problemumgehungen und kommuniziert diese. Problemumgehungen sind Maßnahmen, die Sie ergreifen können, um das zugrunde liegende Problem trotz des Vorfalls zu lösen. Eine Problemumgehung könnte in der Verwendung anderer Einstellungen für einen API-Aufruf bestehen, um einen problematischen Codepfad zu vermeiden.

Nachfassen

Während eines Vorfalls stellt das Customer Care-Team regelmäßig Updates bereit. Updates enthalten normalerweise Folgendes:

  • Weitere Informationen zum Vorfall, z. B. Fehlermeldungen, betroffene Zonen oder Regionen, betroffene Features oder Prozentsätze der Auswirkung.

  • Fortschritt in Bezug auf die Entschärfung, einschließlich Problemumgehungen.

  • Zeitpläne für die Kommunikation, zugeschnitten auf den Vorfall.

  • Statusänderungen, z. B. wenn ein Vorfall behoben ist.

Postmortem

Auf jeden Vorfall folgt ein internes Postmortem, um den Vorfall vollständig zu verstehen und Verbesserungen der Zuverlässigkeit zu finden, die Google vornehmen kann. Diese Verbesserungen werden dann schriftlich festgehalten und schlussendlich implementiert. Weitere Informationen zu Postmortems bei Google finden Sie in Kapitel 15 des Buches "Site Reliability Engineering".

Vorfallbericht

Wenn Vorfälle sehr weitreichende und schwerwiegende Auswirkungen haben, stellt Google Vorfallberichte bereit, in denen Symptome, Auswirkungen, Ursachen, Problembehebungen und Möglichkeiten zur künftigen Vermeidung von Vorfällen beschrieben werden. Wie bei Postmortems achten wir besonders auf die Maßnahmen, die wir ergreifen, um aus dem Problem zu lernen und die Zuverlässigkeit zu verbessern. Das Ziel von Google in schriftlicher Form und Veröffentlichung von Postmortems ist es, transparent zu sein und unser Engagement für die Entwicklung stabiler Produkte zu demonstrieren. für unsere Kunden.

Vorfalldatenmodell

Ein Vorfall betrifft mindestens ein Produkt an einem oder mehreren Standorten. Vorfälle haben eine Start- und Endzeit sowie einen allgemeinen Schweregrad. Vorfall gibt es Updates, die beschreiben, wie sich der Vorfall im Laufe der Zeit ändert, einschließlich Status und den jeweils betroffenen Standorten. Informationen zum Vorfall wird über ein JSON-Schema zur Verfügung gestellt.

Das JSON-Schema enthält die Felder Stable (Stabil) und Instable (Instabil). Im Allgemeinen werden Felder als stabil betrachtet, während Felder wie Anzeigenamen als stabil gelten. als instabil betrachtet und kann ohne Vorwarnung geändert werden. Verwenden Sie Stabil. nur bei Einbindung in ein externes System oder Gebäudeautomatisierung. Weitere Informationen finden Sie unter Kann ich Integrationen erstellen, um die im Google Cloud Service Health-Dashboard programmatisch?

FAQ

Welche Statusinformationen finde ich im Dashboard der CSH von Google?

Das CSH-Dashboard von Google enthält Statusinformationen zu Produkten, die sind Teil von Google Cloud. z. B. Produktunterbrechungen, Ausfälle oder Informationen zu vorübergehenden Problemen.

Wann wird ein Vorfall im CSH-Dashboard von Google veröffentlicht?

Vorfälle, die eines der folgenden Kriterien erfüllen, werden im CSH-Dashboard angezeigt:

Wo finde ich Informationen zu bisherigen Störungen und Ausfällen von Produkten?

Im CSH-Dashboard von Google werden Störungen und Ausfälle der bis zu fünf Jahre lang Google Cloud-Produkte. Die Tab Übersicht der Seite zeigt das Dashboard den aktuellen Status der Produkte nach Sprache an. So zeigen Sie Informationen an: zu Störungen und Ausfällen von Produkten im letzten Jahr klicken, Verlauf anzeigen im Dashboard Klicken Sie auf Mehr, um den Ausfallverlauf eines Produkts für die letzten fünf Jahre aufzurufen. für dieses Produkt.

Wie kann ich regionale Statusinformationen für Google Cloud-Produkte aufrufen?

Das CSH-Dashboard von Google zeigt den Status aller Google Cloud-Produkte an nach Region und globalem Gebiet geordnet sind. So rufen Sie den Status für einen multiregionalen Standort ab: klicken Sie auf die Registerkarte für die jeweilige Region.

Kann ich Integrationen erstellen, um die im Google Cloud Service Health-Dashboard angezeigten Daten programmatisch zu nutzen?

Ja, Sie können die im Google CSH Dashboard angezeigten Daten im auf folgende Arten:

Der RSS-Feed und die JSON-Verlaufsdatei liefern Informationen zum Vorfallsstatus, über Integrationen genutzt werden können.

Verwenden Sie in der JSON-Verlaufsdatei die mit Stabil gekennzeichneten Felder anstelle der Felder. als Instable gekennzeichnet. Beispiel: Wenn Sie versuchen, bei Vorfällen, die sich auf eine bestimmte Gruppe von Produkten auswirken, verwenden Sie die Produkt-IDs (affected_products>id) und nicht ihre Anzeigenamen.

Produkt-IDs im Vergleich zu Produktnamen

Bisher hat das Google Cloud Service Health-Dashboard Mechanismus zum Auffinden der ID für ein bestimmtes Produkt. Seit Anfang 2023 Das Google Cloud Service Health-Dashboard Produktkatalog mit diese Zuordnung für alle Produkte. Eine Produkt-ID stellt ein stabiles Feld für den Schlüssel dar. während sich der Anzeigename eines Produkts ändern kann. Verweisen Sie lieber auf die Produkt-ID verwenden, wenn Sie programmatisch Vorfälle identifizieren, die sich auf zu verbessern.

Was ist, wenn ich vor der Einführung regionaler Statusberichte und Namensänderung im Google Cloud Service Health Dashboard vordefinierte Integrationen habe, die auf dem Google Cloud-Status-Dashboard basieren?

Sowohl im RSS-Feed als auch in der JSON-Datei sind die regionalen Statusinformationen Informationen ergänzt, die bereits vor Einführung regionaler Statusberichte und Änderung des Namens Google Cloud Status-Dashboard. Daher gehen wir davon aus, dass Ihre bestehenden um weiterarbeiten zu können. Wenn Sie jedoch den regionalen Status Informationen über Ihre Integrationen abzurufen, dann müssen Sie sie ändern.

Im Folgenden finden Sie eine detaillierte Beschreibung dazu, wie regionale Informationen RSS-Feed und JSON-Datei:

  • RSS-Feed

    Die regionalen Statusinformationen sind eine neue Ergänzung der Feedinformationen, vor der Einführung des regionalen Status bereitgestellt. Alle Standorte, die die als betroffen gemeldet wurden, an die RSS-Nachricht angehängt.

  • JSON-Datei

    Vor dem regionalen Statusupdate hat Google Cloud Vorfälle, bei denen jeder Vorfall eine Liste der betroffenen Produkte und eine Liste von Statusaktualisierungen für die einzelnen Elemente, falls vorhanden. Diese Statusaktualisierungen enthielten eine Unstrukturiertes String-Feld, das den Standort enthält oder nicht Informationen.

    Jetzt veröffentlicht Google Cloud wie zuvor einen Stream von Vorfällen. Für jeden Vorfall enthält jedes Statusupdate jedoch die folgenden neuen Felder:

    • updates.affected_locations: enthält eine strukturierte Liste der betroffenen zu dem Zeitpunkt, zu dem die Aktualisierung veröffentlicht wurde. Jeder Update-Eintrag und der most_recent_update-Eintrag enthält dieses Feld.
    • currently_affected_locations: enthält die neuesten Informationen zum Standorte, die aktiv vom Vorfall betroffen sind. „Mag ich“-Bewertung entfernen updates.affected_locations, diese Liste ist nach dem Vorfall leer aufgelöst wird (d. h., wenn end auf einen nicht leeren Wert gesetzt ist).
    • previously_affected_locations: enthält eine Liste der Standorte, die während eines Vorfalls betroffen waren, aber aktuell nicht. Da die voranschreitet, kann für einige Standorte eine Ausfallbeseitigung vorgenommen werden. Diese Standorte sind weiterhin in previously_affected_locations field vorhanden. Sobald der Vorfall behoben ist (d. h. end auf einen nicht leeren Wert gesetzt ist), enthält dieses Feld eine Liste aller Standorte, die während dieser Vorfall.

Was ist, wenn ich ein Problem habe, dieses jedoch nicht im Dashboard aufgeführt wird?

Das Google Cloud Service Health-Dashboard enthält aktuelle und frühere Statusinformationen zu jedem größeren Vorfall, der sich auf Google Cloud-Produkte und -Dienste auswirkt. Wenn bei Ihnen ein Problem auftritt, das nicht im Dashboard aufgeführt ist, ist es möglicherweise nur in Ihren Projekten oder Instanzen oder nur für eine begrenzte Anzahl von Kunden aufgetreten. Vorfälle mit weniger Umfang werden möglicherweise im Customer Care-Portal aufgeführt. Bei Problemen, die nicht im Dashboard aufgeführt sind, können Sie sich an den Kundendienst wenden.

Wenn Sie das Dashboard Personalized Service Health bereits verwenden, prüfen Sie, ob das Problem dort aufgeführt ist, um festzustellen, ob Ihr Projekt oder Ihre Instanz betroffen ist.

Wenn Sie die Google Cloud Console verwenden, können Sie auf Feedback geben klicken in oben rechts, um Probleme zu melden.

Wer aktualisiert das Dashboard?

Das globale Customer Care-Team überwacht den Status der Produkte. verschiedene Arten von Signalen nutzen und das Dashboard aktualisieren, ein weitverbreitetes Problem ist. Falls nötig, veröffentlicht das Team einen detaillierten Analysebericht zum Vorfall, wenn dieser behoben wurde.