So bleiben Sie über den Zustand Ihrer Google Cloud Produkte auf dem Laufenden:
Personalized Service Health: Bietet eine personalisierte Übersicht über Google Cloud Produkte und Regionen, die in Ihren Projekten oder in Ihrer Organisation verwendet werden. In Personalized Service Health finden Sie Informationen zu aktiven und vergangenenGoogle Cloud Vorfällen, die sich auf Ihre Projekte und Ressourcen auswirken können.
Sie haben folgende Möglichkeiten, um auf Personalized Service Health zuzugreifen:
- Service Health-Dashboard, auf das über die Google Cloud Console zugegriffen werden kann.
- Benachrichtigungen
- Service Health API
Wenn bei bestimmten Produkten eine Dienstunterbrechung auftritt, solltest du dich zuerst an die personalisierte Dienststatusseite wenden. Dort findest du immer die meisten Informationen fürGoogle Cloud Kunden. Weitere Informationen zu Personalized Service Health und zur Einbindung in Ihren Workflow für die Fehlerbehebung
Google Cloud Service Health: Bietet Folgendes:
- Eine platformweite Übersicht über den Zustand aller Google Cloud Produkte Google Cloud in allen Regionen.
- Google Cloud Vorfälle mit weitreichenden Auswirkungen.
Google Cloud Der Dienststatus ist für alle Nutzer über die folgenden Optionen verfügbar:
Sie können auch auf der Supportseite der Google Cloud Console nach aktiven Störungen suchen. Die bekannten Probleme, die auf der Supportseite der Google Cloud Console angezeigt werden, umfassen auch kleinere und weniger schwerwiegende Vorfälle. Auf der Seite mit den bekannten Problemen können Sie einen Supportfall aus einem veröffentlichten Vorfall erstellen, damit Sie regelmäßige Updates erhalten und mit den Supportmitarbeitern reden können. Supportfälle sind für Probleme gedacht, die nicht als Vorfälle eingestuft werden oder für die ein persönlicher Kontakt erforderlich ist. Wenn Sie Premium-, erweiterten oder Standard-Support haben und einen Vorfall melden möchten, können Sie dazu in der Google Cloud Console einen Supportfall erstellen. Andernfalls können Sie dieses Formular verwenden.
In diesem Dokument geht es um die Google Cloud Dienstbereitschaft.
Was ist Google Cloud Service Health?
Google Cloud Unter „Dienstbereitschaft“ finden Sie Informationen zu anhaltenden, weit verbreiteten Vorfällen, die bestimmte Kriterien erfüllen, sowie den Status von Produkten nach Region und globaler Sprache. Google CloudDazu gehören unter anderem Produktunterbrechungen, Ausfälle oder Informationsmeldungen zu vorübergehenden Problemen.
Google Cloud Der Dienst „Dienststatus“ soll für den seltenen Fall verfügbar sein, dass Personalized Service Health selbst nicht verfügbar ist oder von einer Störung betroffen ist oder das betroffene Produkt noch nicht für Personalized Service Health eingerichtet wurde.
Wann wird ein Vorfall in Google Cloud Service Health
Bei den meisten Google Cloud Vorfällen erhalten betroffene Kunden Informationen direkt über Personalized Service Health in der Google Cloud Console. Wenn die Benachrichtigungsbedingungen erfüllt sind, lösen diese Vorfälle auch von Ihnen konfigurierte Service Health-Benachrichtigungen aus.
Vorfälle, die eines der folgenden Kriterien erfüllen, werden in der Google Cloud Servicezuverlässigkeit angezeigt:
- Schwerwiegende, öffentliche Vorfälle
- Vorfälle für Google Cloud Produkte, die noch nicht in Personalized Service Health verfügbar sind
- Vorfälle, die auftreten, wenn das Dashboard zum Dienststatus nicht verfügbar ist
Schwerwiegender Vorfall
Google Cloud definiert einen Vorfall als größeren Vorfall, wenn er alle folgenden Bedingungen erfüllt:
- Großer Umfang: Der Vorfall hat globale Auswirkungen oder betrifft einen erheblichen Prozentsatz der Kundenprojekte in einer oder mehreren Regionen.
- Hohe Schwere: Mindestens eines der Produkte ist nicht verfügbar oder stark beeinträchtigt.
Im seltenen Fall eines größeren Vorfalls ergreifen wir umgehend Maßnahmen, um alle Probleme zu beheben.
Bei einem größeren Vorfall wird der Status des Problems über das Google Cloud Service Health Dashboard mitgeteilt. Ein schwerwiegender Vorfall wird in den Status-Dashboards als Dienstausfall gekennzeichnet. Nach der Behebung des Problems veröffentlichen wir einen öffentlichen Vorfallbericht, der Details zu den Faktoren enthält, die zum Vorfall beigetragen haben, und die Maßnahmen, die wir ergreifen möchten, um solche Vorfälle in Zukunft zu vermeiden.
Bei Vorfällen mit geringerem Umfang kann Kunden ein nicht öffentlicher Bericht zur Verfügung gestellt werden.
Lebenszyklus eines Vorfalls
Wenn die Beeinträchtigung eines Produkts festgestellt wird, versuchen das Google Cloud Supportteam und das Produktentwicklungsteam gemeinsam, den Vorfall zu beheben und Sie darüber zu informieren.
Das folgende Diagramm zeigt die Zuständigkeiten der Produktentwicklungs- und Supportteams:
Weitere Informationen zu den einzelnen Aufgaben finden Sie in den folgenden Abschnitten.
Erkennung
Google Cloud verwendet internes Monitoring und Blackbox-Monitoring, um Vorfälle zu erkennen. Weitere Informationen finden Sie in Kapitel 6 des Buches „Site Reliability Engineering“.
Erste Antwort
Wenn ein Vorfall erkannt wird, übernimmt das Google Cloud Customer Care-Team die Kommunikation mit Kunden. Die erste Benachrichtigung über einen Vorfall ist knapp, lediglich das betreffende Produkt wird häufig genannt. Dies liegt daran, dass wir eine schnelle Benachrichtigung gegenüber einer detailreichen vorziehen. Details können in nachfolgenden Updates geliefert werden.
Damit Ihnen so viele Informationen wie möglich zur Verfügung gestellt werden, ohne Sie mit Problemen zu überhäufen, die Sie nicht betreffen, werden je nach Umfang und Schweregrad eines Problems verschiedene Kommunikationskanäle verwendet:
Prüfen
Produktentwicklungsteams sind dafür verantwortlich, nach der Ursache von Vorfällen zu suchen. Das Vorfallmanagement wird oft von Customer Reliability Engineering-Mitarbeitern abgewickelt, kann jedoch je nach Situation und Produkt auch von Softwareentwicklern oder anderen Personen übernommen werden. Weitere Informationen finden Sie in Kapitel 12 des Buches "Site Reliability Engineering".
Abhilfe und Behebung
Ein Problem gilt erst dann als behoben, wenn Änderungen vorgenommen wurden, von denen Google überzeugt ist, dass sie die Auswirkungen auf unbestimmte Zeit beenden. Zur Problembehebung könnte beispielsweise eine Änderung rückgängig gemacht werden, die einen Vorfall ausgelöst hat.
Während eines Vorfalls versuchen Kundenbetreuung und Produktteam, das Problem zu entschärfen. Eine Entschärfung ist dann gegeben, wenn die Auswirkung oder der Umfang eines Problems reduziert werden kann. Dazu könnten beispielsweise vorübergehend zusätzliche Ressourcen für ein überlastetes Produkt bereitgestellt werden.
Wenn keine Lösung zur Entschärfung gefunden wurde, sucht das Customer Care-Team nach Problemumgehungen und kommuniziert diese. Problemumgehungen sind Maßnahmen, die Sie ergreifen können, um das zugrunde liegende Problem trotz des Vorfalls zu lösen. Eine Problemumgehung könnte in der Verwendung anderer Einstellungen für einen API-Aufruf bestehen, um einen problematischen Codepfad zu vermeiden.
Nachhaken
Während eines Vorfalls stellt das Customer Care-Team regelmäßig Updates bereit. Updates enthalten normalerweise Folgendes:
Weitere Informationen zum Vorfall, z. B. Fehlermeldungen, betroffene Zonen oder Regionen, betroffene Features oder Prozentsätze der Auswirkung.
Fortschritt in Bezug auf die Entschärfung, einschließlich Problemumgehungen.
Zeitpläne für die Kommunikation, zugeschnitten auf den Vorfall.
Statusänderungen, z. B. wenn ein Vorfall behoben ist.
Postmortem
Auf jeden Vorfall folgt ein internes Postmortem, um den Vorfall vollständig zu verstehen und Verbesserungen der Zuverlässigkeit zu finden, die Google vornehmen kann. Diese Verbesserungen werden dann schriftlich festgehalten und schlussendlich implementiert. Weitere Informationen zu Postmortems bei Google finden Sie in Kapitel 15 des Buches "Site Reliability Engineering".
Vorfallbericht
Wenn Vorfälle sehr weitreichende und schwerwiegende Auswirkungen haben, stellt Google Vorfallberichte bereit, in denen Symptome, Auswirkungen, Ursachen, Problembehebungen und Möglichkeiten zur künftigen Vermeidung von Vorfällen beschrieben werden. Wie bei Postmortems achten wir besonders auf die Maßnahmen, die wir ergreifen, um aus dem Problem zu lernen und die Zuverlässigkeit zu verbessern. Google verfasst und veröffentlicht Postmortems mit dem Ziel, Transparenz zu zeigen und unser Engagement für die Entwicklung stabiler Produkte für unsere Kunden zu demonstrieren.
Datenmodell für Vorfälle
Ein Vorfall wirkt sich auf ein oder mehrere Produkte an einem oder mehreren Standorten aus. Vorfälle haben eine Start- und eine Endzeit sowie eine Gesamtschwere. Für einen Vorfall gibt es Aktualisierungen, die beschreiben, wie sich der Vorfall im Laufe der Zeit ändert, einschließlich seines Status und der betroffenen Standorte. Die Informationen zu Vorfällen werden über ein JSON-Schema zur Verfügung gestellt.
Das JSON-Schema enthält Felder, die als Stable (Stabil) und Unstable (Unstabil) gekennzeichnet sind. Im Allgemeinen gelten ID-Felder als stabil, während Felder wie Anzeigenamen als instabile Felder eingestuft werden und ohne Warnung geändert werden können. Verwenden Sie Felder vom Typ Stable nur, wenn Sie ein externes System oder eine Gebäudeautomation einbinden. Weitere Informationen finden Sie unter Kann ich Integrationen erstellen, um die inGoogle Cloud Dienststatus angezeigten Daten programmatisch zu verwenden?.
FAQ
Wo finde ich Informationen zu früheren Produktstörungen und -ausfällen?
Google Cloud In der Servicezuverlässigkeit werden Unterbrechungen und Ausfälle derGoogle Cloud Produkte bis zu fünf Jahre lang aufgezeichnet. Auf dem Tab Übersicht sehen Sie den aktuellen Status der Produkte nach Sprache. Wenn Sie Informationen zu Produktunterbrechungen und -ausfällen im letzten Jahr aufrufen möchten, klicken Sie auf Verlauf ansehen. Wenn Sie den Ausfallverlauf eines Produkts für die letzten fünf Jahre aufrufen möchten, klicken Sie für dieses Produkt auf Mehr anzeigen.
Wie kann ich mir regionalisierte Statusinformationen für Google Cloud -Produkte ansehen?
Google Cloud Unter „Dienststatus“ sehen Sie den Status aller Google Cloud Produkte, nach Region und globaler Sprache sortiert. Wenn Sie den Status für eine Multiregion aufrufen möchten, wählen Sie den regionsspezifischen Tab aus.
Kann ich Integrationen erstellen, um die in der Google Google Cloud -Dienstbereitschaft angezeigten Daten programmatisch zu verwenden?
Ja, Sie können die auf der Seite Google Cloud Dienststatus angezeigten Daten auf folgende Arten verwenden:
- Über einen RSS-Feed
Über eine JSON-Verlaufsdatei
Das Schema für die JSON-Datei können Sie hier herunterladen.
Der RSS-Feed und die JSON-Verlaufsdatei enthalten Informationen zum Status von Vorfällen, die über Integrationen verwendet werden können.
Verwenden Sie die Felder in der JSON-Verlaufsdatei, die als Stable (Stabil) gekennzeichnet sind, anstelle der Felder, die als Unstable (Unstabil) gekennzeichnet sind. Beispiel: Wenn Sie Probleme, die sich auf eine bestimmte Gruppe von Produkten auswirken, programmatisch identifizieren möchten, verwenden Sie die Produkt-IDs (affected_products>id
) und nicht die Anzeigenamen.
Produkt-IDs und Produktnamen
Bisher gab es in der Google Cloud Service Health-Funktion keinen Mechanismus zum Auffinden der ID für ein bestimmtes Produkt. Seit Anfang 2023 stelltGoogle Cloud Service Health einen Produktkatalog zur Verfügung, in dem diese Zuordnung für alle Produkte enthalten ist. Eine Produkt-ID bietet ein stabiles Feld, das als Auslöser verwendet werden kann, während sich der Anzeigename eines Produkts ändern kann. Verwende die Produkt-ID, wenn du programmatisch Vorfälle identifizierst, die sich auf eine Reihe von Produkten auswirken.
Was ist, wenn ich vor der Einführung der regionalen Statusberichte und der Umbenennung in „Dienststatus“ vorgefertigte Integrationen auf der Grundlage von Google Cloud Dienststatus erstellt habe? Google Cloud
Sowohl im RSS-Feed als auch in der JSON-Datei ergänzen die Informationen zum regionalen Status die Informationen, die bereits vor der Einführung der regionalen Statusberichte und der Änderung des Namens vonGoogle Cloud Dienstbereitschaft veröffentlicht wurden. Daher gehen wir davon aus, dass Ihre bestehenden Integrationen weiterhin funktionieren. Wenn Sie die Informationen zum regionalen Status jedoch über Ihre Integrationen nutzen möchten, müssen Sie sie ändern.
Hier findest du eine detaillierte Beschreibung, wie regionale Informationen sowohl im RSS-Feed als auch in der JSON-Datei dargestellt werden:
RSS-Feed
Die Informationen zum regionalen Status sind eine neue Ergänzung zu den Feedinformationen, die vor der Einführung des regionalen Status bereitgestellt wurden. Alle als betroffen gemeldeten Standorte werden an die RSS-Nachricht angehängt.
JSON-Datei
Vor der Aktualisierung des regionalen Status hat Google Cloud einen Stream mit Vorfällen veröffentlicht, in dem jeder Vorfall eine Liste der betroffenen Produkte und gegebenenfalls eine Liste der Statusaktualisierungen für jedes Produkt enthielt. Diese Statusaktualisierungen enthielten ein unstrukturiertes Stringfeld, das die Standortinformationen enthielt oder nicht.
Jetzt veröffentlicht Google Cloud wie zuvor einen Stream von Vorfällen. Jede Statusaktualisierung für jeden Vorfall enthält jedoch die folgenden neuen Felder:
updates.affected_locations
: enthält eine strukturierte Liste der betroffenen Standorte zum Zeitpunkt der Veröffentlichung der Aktualisierung. Dieses Feld ist in jedem Aktualisierungs- undmost_recent_update
-Eintrag enthalten.currently_affected_locations
: Enthält die neuesten Informationen zu den Standorten, die vom Vorfall aktiv betroffen sind. Im Gegensatz zuupdates.affected_locations
wird diese Liste nach der Behebung des Problems leer, d. h. wennend
auf einen nicht leeren Wert festgelegt ist.previously_affected_locations
: enthält eine Liste der Standorte, die bei einem Vorfall zuvor betroffen waren, derzeit aber nicht. Im Laufe des Vorfalls wird die Störung an einigen Standorten möglicherweise behoben. Diese Standorte sind weiterhin in derpreviously_affected_locations field
verfügbar. Sobald der Vorfall behoben ist (d. h. wennend
auf einen nicht leeren Wert gesetzt ist), enthält dieses Feld eine Liste aller Standorte, die von diesem Vorfall betroffen waren.
Was ist, wenn ich ein Problem habe, dieses jedoch nicht unter Google Cloud Dienststatus aufgeführt wird?
Google Cloud Unter „Dienststatus“ finden Sie aktuelle und bisherige Statusinformationen zu allen größeren Vorfällen, die sich auf Google Cloud Produkte und Dienste auswirken. Wenn Sie ein Problem feststellen, das unterGoogle Cloud Dienstbereitschaft nicht aufgeführt ist, kann es sein, dass es sich nur auf Ihre Projekte oder Instanzen bezieht oder dass es nur eine begrenzte Anzahl von Kunden betrifft. Vorfälle mit geringerem Umfang werden möglicherweise im Customer Care-Portal aufgeführt. Sie können sich bei Problemen, die nicht unter Google Cloud Dienstbereitschaft aufgeführt sind, an den Kundenservice wenden.
Wenn Sie Personalized Service Health bereits verwenden, prüfen Sie, ob das Problem dort aufgeführt ist, um festzustellen, ob Ihr Projekt oder Ihre Instanz betroffen ist.
Wenn Sie die Google Cloud Console verwenden, klicken Sie oben rechts auf Feedback senden, um Probleme zu melden.
Wer aktualisiert den Status Google Cloud „Dienstbereitschaft“?
Das globale Customer Care-Team überwacht den Status der Produkte anhand vieler verschiedener Signale und aktualisiert den Google Cloud Dienststatus, falls ein größeres Problem auftritt. Falls nötig, veröffentlicht das Team einen detaillierten Analysebericht zum Vorfall, wenn dieser behoben wurde.