Das Google Cloud Service Health (CSH)-Dashboard enthält Statusinformationen nach Region und globalem Gebiet organisierte Google Cloud-Produkte.
Schwerer Vorfall
Google Cloud definiert einen Vorfall als schweren Vorfall, wenn er alle folgende Bedingungen:
- Hohes Ausmaß: Der Vorfall hat globale Auswirkungen oder hat einen erheblichen Einfluss Prozentsatz der Kundenprojekte in einer oder mehreren Regionen.
- Hoher Schweregrad: Mindestens ein Produkt ist nicht verfügbar oder stark beeinträchtigt.
Im seltenen Fall eines größeren Vorfalls handeln wir dringend, um etwaige Probleme zu beheben.
Während eines größeren Vorfalls wird der Status des Problems über das Google Cloud Service Health-Dashboard. Ein schwerwiegender Vorfall ist als gekennzeichnet Dienstausfall in den Status-Dashboards. Nach der Behebung des Problems veröffentlichen Sie einen öffentlichen Vorfallbericht, der die Details zu den Faktoren enthält, zu dem Vorfall und den Maßnahmen, die wir ergreifen wollen, um wiederholt auftreten.
Bei Vorfällen mit geringerem Umfang kann eine nicht öffentliche Meldung gemacht werden. für Kunden verfügbar sind.
Lebenszyklus eines Vorfalls
Wenn eine Verschlechterung des Produkts erkannt wird, können das Google Cloud-Supportteam und das Produktentwicklungsteam, um den Vorfall zu beheben mit Updates.
Das folgende Diagramm zeigt die Zuständigkeiten der Produktentwicklungs- und Supportteams:
Weitere Informationen zu diesen Verantwortlichkeiten finden Sie in den folgenden .
Erkennung
Google Cloud nutzt internes und Blackbox-Monitoring, um Vorfälle zu erkennen. Weitere Informationen finden Sie in Kapitel 6 des Buches "Site Reliability Engineering".
Wenn Sie Premium-, Erweiterten oder Standard-Support haben, können Sie indem Sie eine Supportanfrage im Google Cloud Console: Andernfalls können Sie verwenden Sie dieses Formular.
Erste Antwort
Wenn ein Vorfall erkannt wird, übernimmt das Google Cloud Customer Care-Team die Kommunikation mit dem Kunden. Die erste Benachrichtigung über einen Vorfall ist knapp, lediglich das betreffende Produkt wird häufig genannt. Dies liegt daran, dass wir eine schnelle Benachrichtigung gegenüber einer detailreichen vorziehen. Details können in nachfolgenden Updates geliefert werden.
Damit Ihnen so viele Informationen wie möglich zur Verfügung gestellt werden, ohne Sie mit Problemen zu überhäufen, die Sie nicht betreffen, werden je nach Umfang und Schweregrad eines Problems verschiedene Kommunikationskanäle verwendet:
Wenn bei bestimmten Produkten eine Dienstunterbrechung auftritt, empfehlen wir, zuerst die personalisierte Dienststatusseite aufzurufen. Bis Mit Personalized Service Health können Sie sich Störungen ansehen, die für Ihre Projekte relevant sind. Weitere Informationen zu Personalized Service Health und zur Einbindung in Ihren Vorfall zu verwalten.
Die Google Cloud Service Health-Dashboard wichtige Vorfälle anzeigt und im seltenen Fall Personalized Service Health selbst ist nicht verfügbar oder von einer Störung betroffen.
Wenn Sie Personalized Service Health nicht für Ihr Projekt aktiviert haben oder das Produkt noch nicht von Personalized Service Health unterstützt wird, empfehlen wir, in den folgenden Bereichen nach aktiven Störungen zu suchen:
Zu den bekannten Problemen, die auf der Supportseite der Google Cloud Console angezeigt werden, gehören auch kleine und beschränkte Vorfälle.
Supportanfragen sind für Probleme geeignet, die nicht als Vorfälle oder in denen ein persönlicher Kontakt erforderlich ist. Auf der Seite mit den bekannten Problemen können Sie einen Supportfall aus einem veröffentlichten Vorfall erstellen, damit Sie regelmäßige Updates erhalten und mit den Supportmitarbeitern reden können.
Prüfen
Produktentwicklungsteams sind dafür verantwortlich, nach der Ursache von Vorfällen zu suchen. Das Vorfallmanagement wird oft von Customer Reliability Engineering-Mitarbeitern abgewickelt, kann jedoch je nach Situation und Produkt auch von Softwareentwicklern oder anderen Personen übernommen werden. Weitere Informationen finden Sie in Kapitel 12 des Buches "Site Reliability Engineering".
Entschärfung/Behebung
Ein Problem gilt erst dann als behoben, wenn Änderungen vorgenommen wurden, von denen Google überzeugt ist, dass sie die Auswirkungen auf unbestimmte Zeit beenden. Zur Problembehebung könnte beispielsweise eine Änderung rückgängig gemacht werden, die einen Vorfall ausgelöst hat.
Während eines Vorfalls versuchen Kundenbetreuung und Produktteam, das Problem zu entschärfen. Eine Entschärfung ist dann gegeben, wenn die Auswirkung oder der Umfang eines Problems reduziert werden kann. Dazu könnten beispielsweise vorübergehend zusätzliche Ressourcen für ein überlastetes Produkt bereitgestellt werden.
Wenn keine Lösung zur Entschärfung gefunden wurde, sucht das Customer Care-Team nach Problemumgehungen und kommuniziert diese. Problemumgehungen sind Maßnahmen, die Sie ergreifen können, um das zugrunde liegende Problem trotz des Vorfalls zu lösen. Eine Problemumgehung könnte in der Verwendung anderer Einstellungen für einen API-Aufruf bestehen, um einen problematischen Codepfad zu vermeiden.
Nachfassen
Während eines Vorfalls stellt das Customer Care-Team regelmäßig Updates bereit. Updates enthalten normalerweise Folgendes:
Weitere Informationen zum Vorfall, z. B. Fehlermeldungen, betroffene Zonen oder Regionen, betroffene Features oder Prozentsätze der Auswirkung.
Fortschritt in Bezug auf die Entschärfung, einschließlich Problemumgehungen.
Zeitpläne für die Kommunikation, zugeschnitten auf den Vorfall.
Statusänderungen, z. B. wenn ein Vorfall behoben ist.
Postmortem
Auf jeden Vorfall folgt ein internes Postmortem, um den Vorfall vollständig zu verstehen und Verbesserungen der Zuverlässigkeit zu finden, die Google vornehmen kann. Diese Verbesserungen werden dann schriftlich festgehalten und schlussendlich implementiert. Weitere Informationen zu Postmortems bei Google finden Sie in Kapitel 15 des Buches "Site Reliability Engineering".
Vorfallbericht
Wenn Vorfälle sehr weitreichende und schwerwiegende Auswirkungen haben, stellt Google Vorfallberichte bereit, in denen Symptome, Auswirkungen, Ursachen, Problembehebungen und Möglichkeiten zur künftigen Vermeidung von Vorfällen beschrieben werden. Wie bei Postmortems achten wir besonders auf die Maßnahmen, die wir ergreifen, um aus dem Problem zu lernen und die Zuverlässigkeit zu verbessern. Das Ziel von Google in schriftlicher Form und Veröffentlichung von Postmortems ist es, transparent zu sein und unser Engagement für die Entwicklung stabiler Produkte zu demonstrieren. für unsere Kunden.
Vorfalldatenmodell
Ein Vorfall betrifft mindestens ein Produkt an einem oder mehreren Standorten. Vorfälle haben eine Start- und Endzeit sowie einen allgemeinen Schweregrad. Für einen Vorfall gibt es Aktualisierungen, die beschreiben, wie sich der Vorfall im Laufe der Zeit ändert, einschließlich seines Status und der betroffenen Standorte. Informationen zum Vorfall wird über ein JSON-Schema zur Verfügung gestellt.
Das JSON-Schema enthält Felder, die als Stable (Stabil) und Unstable (Unstabil) gekennzeichnet sind. Im Allgemeinen gelten ID-Felder als stabil, während Felder wie Anzeigenamen als instabile Felder gelten und ohne Warnung geändert werden können. Verwenden Sie Stable. nur bei Einbindung in ein externes System oder Gebäudeautomatisierung. Weitere Informationen finden Sie unter Kann ich Integrationen erstellen, um die im Google Cloud Service Health Dashboard angezeigten Daten programmatisch zu verwenden?
FAQ
Welche Statusinformationen finde ich im Dashboard der CSH von Google?
Das CSH-Dashboard von Google enthält Statusinformationen zu Produkten, die sind Teil von Google Cloud. z. B. Störungen bei Produkten, Ausfälle oder Informationen zu vorübergehenden Problemen.
Wann wird ein Vorfall im CSH-Dashboard von Google veröffentlicht?
Vorfälle, die eines der folgenden Kriterien erfüllen, werden im CSH-Dashboard angezeigt:
- Erhebliche Vorfälle
- Das Dashboard „Personalized Service Health“ ist nicht verfügbar
- Google Cloud-Produkte, die noch nicht für Personalized Service Health verfügbar sind
Wo finde ich Informationen zu bisherigen Störungen und Ausfällen von Produkten?
Im Google CSH-Dashboard werden Unterbrechungen und Ausfälle für Google Cloud-Produkte bis zu fünf Jahre lang aufgezeichnet. Die Tab Übersicht der Seite zeigt das Dashboard den aktuellen Status der Produkte nach Sprache an. So zeigen Sie Informationen an: zu Störungen und Ausfällen von Produkten im letzten Jahr klicken, Verlauf anzeigen im Dashboard Klicken Sie auf Mehr, um den Ausfallverlauf eines Produkts für die letzten fünf Jahre aufzurufen. für dieses Produkt.
Wie kann ich regionalisierte Statusinformationen für Google Cloud-Produkte aufrufen?
Das CSH-Dashboard von Google zeigt den Status aller Google Cloud-Produkte an nach Region und globalem Gebiet geordnet sind. Wenn Sie den Status für eine Region mit mehreren Regionen aufrufen möchten, klicken Sie auf den regionsspezifischen Tab.
Kann ich Integrationen erstellen, um die im Google Cloud Service Health-Dashboard angezeigten Daten programmatisch zu nutzen?
Ja, Sie können die im Google CSH Dashboard angezeigten Daten im auf folgende Arten:
- Über einen RSS-Feed
Über eine JSON-Verlaufsdatei
Sie können das Schema für die JSON-Datei hier herunterladen.
Der RSS-Feed und die JSON-Verlaufsdatei liefern Informationen zum Vorfallsstatus, über Integrationen genutzt werden können.
Verwenden Sie in der JSON-Verlaufsdatei die mit Stable gekennzeichneten Felder anstelle der Felder.
als Instable gekennzeichnet. Beispiel: Wenn Sie versuchen,
bei Vorfällen, die sich auf eine bestimmte
Gruppe von Produkten auswirken, verwenden Sie die Produkt-IDs
(affected_products>id
) und nicht ihre Anzeigenamen.
Produkt-IDs im Vergleich zu Produktnamen
Bisher hat das Google Cloud Service Health-Dashboard Mechanismus zum Auffinden der ID für ein bestimmtes Produkt. Seit Anfang 2023 ist im Google Cloud Service Health Dashboard ein Produktkatalog verfügbar, der diese Zuordnung für alle Produkte enthält. Eine Produkt-ID stellt ein stabiles Feld für den Schlüssel dar. während sich der Anzeigename eines Produkts ändern kann. Verweisen Sie lieber auf die Produkt-ID verwenden, wenn Sie programmatisch Vorfälle identifizieren, die sich auf zu verbessern.
Was ist, wenn ich vor der Einführung regionaler Statusberichte und Namensänderung im Google Cloud Service Health Dashboard vordefinierte Integrationen habe, die auf dem Google Cloud-Status-Dashboard basieren?
Sowohl im RSS-Feed als auch in der JSON-Datei sind die regionalen Statusinformationen Informationen ergänzt, die bereits vor Einführung regionaler Statusberichte und Änderung des Namens Google Cloud Status-Dashboard. Daher gehen wir davon aus, dass Ihre bestehenden um weiterarbeiten zu können. Wenn Sie jedoch den regionalen Status Daten über Ihre Integrationen abzurufen, dann müssen Sie sie ändern.
Im Folgenden finden Sie eine detaillierte Beschreibung dazu, wie regionale Informationen RSS-Feed und JSON-Datei:
RSS-Feed
Die regionalen Statusinformationen sind eine neue Ergänzung der Feedinformationen, vor der Einführung des regionalen Status bereitgestellt. Alle als betroffen gemeldeten Standorte werden an die RSS-Nachricht angehängt.
JSON-Datei
Vor dem regionalen Statusupdate hat Google Cloud Vorfälle, bei denen jeder Vorfall eine Liste der betroffenen Produkte und eine Liste von Statusaktualisierungen für die einzelnen Elemente, falls vorhanden. Diese Statusaktualisierungen enthielten ein unstrukturiertes Stringfeld, das die Standortinformationen enthielt oder nicht.
Jetzt veröffentlicht Google Cloud wie zuvor einen Stream von Vorfällen. Für jeden Vorfall enthält jedes Statusupdate jedoch die folgenden neuen Felder:
updates.affected_locations
: enthält eine strukturierte Liste der betroffenen zu dem Zeitpunkt, zu dem die Aktualisierung veröffentlicht wurde. Jeder Update-Eintrag und dermost_recent_update
-Eintrag enthält dieses Feld.currently_affected_locations
: enthält die neuesten Informationen zum Standorte, die aktiv vom Vorfall betroffen sind. „Mag ich“-Bewertung entfernenupdates.affected_locations
, diese Liste ist nach dem Vorfall leer aufgelöst wird (d. h., wennend
auf einen nicht leeren Wert gesetzt ist).previously_affected_locations
: enthält eine Liste der Standorte, die während eines Vorfalls betroffen waren, aber aktuell nicht. Da die voranschreitet, kann für einige Standorte eine Ausfallbeseitigung vorgenommen werden. Diese Standorte sind weiterhin inpreviously_affected_locations field
vorhanden. Sobald der Vorfall behoben ist, alsoend
auf einen nicht leeren Wert festgelegt ist, enthält dieses Feld eine Liste aller Standorte, die während dieser Vorfall.
Was ist, wenn ich ein Problem habe, dieses jedoch nicht im Dashboard aufgeführt wird?
Das Google Cloud Service Health-Dashboard enthält aktuelle und frühere Statusinformationen zu jedem größeren Vorfall, der sich auf Google Cloud-Produkte und -Dienste auswirkt. Wenn bei Ihnen ein Problem auftritt, das nicht im Dashboard aufgeführt ist, ist es möglicherweise nur in Ihren Projekten oder Instanzen oder nur für eine begrenzte Anzahl von Kunden aufgetreten. Vorfälle mit weniger Umfang werden möglicherweise im Customer Care-Portal aufgeführt. Bei Problemen, die nicht im Dashboard aufgeführt sind, können Sie sich an den Kundendienst wenden.
Wenn Sie das Dashboard Personalized Service Health bereits verwenden, prüfen Sie, ob das Problem dort aufgeführt ist, um festzustellen, ob Ihr Projekt oder Ihre Instanz betroffen ist.
Wenn Sie die Google Cloud Console verwenden, können Sie auf Feedback geben klicken in oben rechts, um Probleme zu melden.
Wer aktualisiert das Dashboard?
Das globale Customer Care-Team überwacht den Status der Produkte. verschiedene Arten von Signalen nutzen und das Dashboard aktualisieren, ein weitverbreitetes Problem ist. Falls nötig, veröffentlicht das Team einen detaillierten Analysebericht zum Vorfall, wenn dieser behoben wurde.