Gründliche Postmortem-Analysen durchführen

Last reviewed 2024-12-30 UTC

Dieses Prinzip in der Säule „Zuverlässigkeit“ des Google Cloud -Architektur-Frameworks enthält Empfehlungen für effektive Postmortem-Analysen nach Ausfällen und Vorfällen.

Dieses Prinzip ist für den Lern- Fokusbereich „Zuverlässigkeit“ relevant.

Grundsatzübersicht

Eine Postmortem-Analyse ist eine schriftliche Aufzeichnung eines Vorfalls, seiner Auswirkungen, der ergriffenen Maßnahmen zur Behebung oder Milderung des Vorfalls, der Grundursachen und der Folgemaßnahmen, um ein Wiederauftreten des Vorfalls zu verhindern. Das Ziel einer Postmortem-Analyse besteht darin, aus Fehlern zu lernen und nicht, Schuld zuzuweisen.

Das folgende Diagramm zeigt den Workflow einer Postmortem-Analyse:

Der Ablauf einer Postmortem-Analyse.

Der Workflow einer Postmortem-Analyse umfasst die folgenden Schritte:

  • Postmortem-Analyse erstellen
  • Fakten erfassen
  • Grundursachen ermitteln und analysieren
  • Für die Zukunft planen
  • Plan ausführen

Führen Sie Postmortem-Analysen nach wichtigen und weniger wichtigen Ereignissen wie den folgenden durch:

  • Nutzer wahrnehmbare Ausfallzeiten oder Leistungseinbußen über einen bestimmten Grenzwert hinaus
  • Datenverluste jeglicher Art.
  • Interventionen von Bereitschaftstechnikern, z. B. ein Release-Rollback oder eine Umleitung des Traffics.
  • Bei einer Auflösungszeit über einem definierten Grenzwert
  • Monitoringfehler, die in der Regel eine manuelle Erkennung von Vorfällen erfordern.

Empfehlungen

Legen Sie die Kriterien für die Analyse vor einem Vorfall fest, damit alle wissen, wann eine Analyse erforderlich ist.

Beachten Sie die Empfehlungen in den folgenden Unterabschnitten, um effektive Postmortem-Analysen durchzuführen.

Postmortem-Analysen ohne Schuldzuweisung durchführen

Effektive Postmortem-Analysen konzentrieren sich auf Prozesse, Tools und Technologien und machen keine Personen oder Teams verantwortlich. Der Zweck einer Postmortem-Analyse besteht darin, Ihre Technologie und Ihre Zukunft zu verbessern, nicht herauszufinden, wer schuld ist. Jeder macht Fehler. Das Ziel sollte sein, die Fehler zu analysieren und daraus zu lernen.

Die folgenden Beispiele zeigen den Unterschied zwischen Feedback, das Schuldzuweisungen enthält, und Feedback ohne Schuldzuweisungen:

  • Feedback, das Schuldzuweisungen enthält: „Wir müssen das gesamte komplizierte Backend-System neu schreiben! In den letzten drei Quartalen ist es jede Woche zu Problemen gekommen und ich bin sicher, dass wir alle es leid sind, die Probleme Stück für Stück zu beheben. Wenn ich noch einmal gerufen werde, schreibe ich den Text selbst.“
  • Feedback ohne Schuldzuweisung: „Eine Maßnahme, das gesamte Backend-System neu zu schreiben, könnte tatsächlich verhindern, dass diese Seiten weiterhin auftreten. Das Wartungshandbuch für diese Version ist ziemlich lang und es ist wirklich schwierig, sich vollständig darauf vorzubereiten. Ich bin sicher, dass unsere zukünftigen Bereitschaftstechniker uns dafür danken werden.“

Den Postmortem-Bericht für alle Zielgruppen lesbar machen

Bewerten Sie für jede Information, die Sie in den Bericht aufnehmen möchten, ob sie wichtig und notwendig ist, damit die Zielgruppe nachvollziehen kann, was passiert ist. Sie können ergänzende Daten und Erläuterungen in einen Anhang des Berichts verschieben. Prüfer, die weitere Informationen benötigen, können diese anfordern.

Vermeiden Sie komplexe oder überoptimierte Lösungen

Bevor Sie Lösungen für ein Problem finden, sollten Sie die Bedeutung des Problems und die Wahrscheinlichkeit eines erneuten Auftretens bewerten. Wenn Sie das System komplexer gestalten, um Probleme zu beheben, die wahrscheinlich nicht noch einmal auftreten, kann das zu einer erhöhten Instabilität führen.

Die Postmortem-Analyse möglichst breit streuen

Damit Probleme nicht ungelöst bleiben, veröffentlichen Sie das Ergebnis der Postmortem-Analyse für ein breites Publikum und holen Sie sich Unterstützung vom Management. Der Wert einer Postmortem-Analyse ist proportional zu den Erkenntnissen, die nach der Analyse gewonnen werden. Je mehr Menschen aus Vorfällen lernen, desto geringer ist die Wahrscheinlichkeit, dass ähnliche Fehler wieder auftreten.