Close

Der Weg zu einem besseren Vorfallmanagement beginnt hier

Warum Post-Mortem-Analysen von Vorfällen so wichtig sind

Vorfälle gehören zum Alltag.

Das ist einfach so. Wenn unsere Systeme immer größer und komplexer werden, sind Ausfälle unvermeidlich.

Vorfälle bieten aber auch eine gute Gelegenheit, etwas dazuzulernen.

Eine Gelegenheit, Schwachstellen in deinem System aufzudecken. Eine Gelegenheit, wiederholt auftretende Vorfälle abzuschwächen und die Lösungszeit zu verkürzen. Eine Gelegenheit, deine Teams zusammenzubringen und gemeinsam zu planen, wie sie beim nächsten Mal noch besser reagieren können.

Die beste Methode, um durchzugehen, was während eines Vorfalls passiert ist, und die gewonnenen Erkenntnisse zu erfassen, ist eine Post-Mortem-Analyse, die auch als Post-Incident Review bekannt ist.

Bei der Post-Mortem-Analyse eines Vorfalls setzen sich Mitarbeiter zusammen, um die Details eines Vorfalls zu besprechen: warum er passiert ist, welche Auswirkungen er hatte, welche Maßnahmen zur Problemminderung und Lösung ergriffen wurden und was getan werden sollte, um ein erneutes Auftreten zu verhindern.

Dank Tools für Versionskontrollen, Feature-Flags und Continuous Delivery können viele Vorfälle schnell "rückgängig gemacht" werden. Häufig werden Vorfälle durch einen Bug bei einer Änderung verursacht, die auf die Produktion übertragen wird, und ein Rollback dieser Änderung kann die App wieder zum Laufen bringen. Das ist wirklich vorteilhaft für alle, da der Service schnell wieder funktioniert. Aber dabei bleibt unklar, was warum fehlgeschlagen ist. Hierfür gibt es die Post-Mortem-Analysen.

Eine Post-Mortem-Analyse von Vorfällen ist ein Framework, um aus Vorfällen zu lernen und aus Problemen Fortschritt zu schaffen. Sie stärkt auch das Vertrauen von Kunden, Kollegen und Endbenutzern (im Wesentlichen alle von dem Vorfall betroffenen Personen) und informiert sie darüber, dass dein Team daran arbeitet, zukünftige Vorfälle und deren Auswirkungen zu minimieren.

Abbildung: Post-Mortem-Zyklus

Eine Post-Mortem-Analyse ist ein wichtiger Schritt im Lebenszyklus eines ständig aktiven Services. Die Erkenntnisse aus der Post-Mortem-Analyse sollten direkt in deinen Planungsprozess einfließen. Dies stellt sicher, dass die in der Post-Mortem-Analyse identifizierten kritischen Korrekturmaßnahmen ihren Platz unter den anstehenden Aufgaben finden und mit anderen bevorstehenden Arbeiten und Prioritäten abgewogen werden.

Die Vorteile einer Post-Mortem-Analyse

Du könntest versucht sein, auf ein formelles Post-Mortem-Meeting und die zugehörige Dokumentation zu verzichten, insbesondere wenn du dir sicher bist, was die Ursache des Vorgangs war und diese mit ziemlicher Sicherheit behoben wurde.

Das mag wahr sein – für dich. Möglicherweise haben jedoch nicht alle Teammitglieder gleichermaßen verinnerlicht, was den Vorfall verursacht hat, und könnten von deinem klaren Verständnis profitieren, um ihren Service für das Team und deine Kunden zu verbessern.

Wenn ihr euch in einem strukturierten, kollaborativen Prozess zusammensetzt, kann jeder seine Erkenntnisse beitragen und das Vertrauen und die Stabilität im Team stärken. Die Dokumentation des Vorfalls und seiner Lösung gibt Hinweise darauf, wie mit zukünftigen Vorfällen umgegangen werden sollte.

Du kannst außerdem Erkenntnisse aus der Post-Mortem-Analyse des Vorfalls für deine Kunden oder für das gesamte Unternehmen veröffentlichen. Dies kann sehr dabei helfen, das Vertrauen von Menschen zurückzugewinnen, die während des Vorfalls möglicherweise nicht eng eingebunden waren. Andere Teams in deinem Unternehmen, insbesondere die Führungskräfte, müssen möglicherweise über Details des Problems und über die zur Lösung unternommenen Schritte informiert werden, um zu vermeiden, dass die Arbeit deines Teams angezweifelt wird.

Partner, Kunden und Endbenutzer möchten möglicherweise ebenfalls wissen, was passiert ist und welche Schritte ihr unternommen habt, um ihre Erfahrung zu verbessern. Es ist möglicherweise nicht in allen Fällen angebracht, die Post-Mortem-Analyse auf einer öffentlich zugänglichen Website zur Verfügung zu stellen, aber dein Marketing- oder PR-Team kann dabei helfen, die Analyse so zu formulieren, dass der Öffentlichkeit Informationen auf eine Weise übermittelt werden, die informativ ist und das Vertrauen in eure Services stärkt.

Best Practices für die Post-Mortem-Analyse eines Vorfalls

Wie du die Post-Mortem-Analyse eines Vorfalls angehst, ist genauso wichtig wie die Checkliste der durchzuführenden Schritte. Nach einem Vorfall kann es leicht zu Spannungen kommen. Damit die Mitarbeiter sich engagiert in den Prozess einbringen und bereit sind, ein schwieriges Problem zu lösen, benötigen sie unbedingt ein Gefühl von Sicherheit.

Aufbau einer Kultur ohne Schuldzuweisungen

Der ehemalige CTO von Etsy, John Allspaw, ist Verfasser eines wegweisenden Artikels zu "Post-Mortem-Analysen ohne Schuldzuweisungen". Dieses Konzept zur Untersuchung eines Vorfalls ermöglicht es den an einem Vorfall beteiligten Personen, alle ihre Handlungen, deren Auswirkungen und ihren Kenntnisstand einzugestehen, ohne dabei Angst vor Sanktionen oder Konsequenzen haben zu müssen.

Mit diesem Konzept kann sichergestellt werden, dass Teams Informationen offen austauschen und die Ursache eines Vorfalls ermitteln. In einer Atmosphäre der Angst halten Mitarbeiter oftmals Informationen zurück oder versuchen, die Schuld auf andere abzuwälzen. Wenn dies geschieht, verlieren die Teammitglieder das Vertrauen ineinander. Und das Unternehmen lässt sich die Möglichkeit entgehen, die Stabilität seiner Teams und Systeme zu stärken. Viele Teams, darunter auch hier bei Atlassian und bei Google, haben die Grundsätze der Post-Mortem-Analysen ohne Schuldzuweisungen übernommen, um diese Fallstricke zu vermeiden.

Keine Schuldzuweisungen, nur konstruktive Kritik

Vermeidet im Post-Mortem-Meeting – und in der anschließenden Dokumentation eurer Erkenntnisse – Formulierungen, die einzelne Personen als persönlich verantwortlich für den Vorfall herausstellen. Konzentriert euch stattdessen auf Aktionen, Ergebnisse und Auswirkungen.

Auch wenn es wichtig ist, das Gespräch sicher und objektiv zu halten, muss die Ursache des Vorfalls ermittelt werden, um sie beheben zu können. Hierfür kannst du im Meeting die Technik der 5 Warum-Fragen anwenden. Zunächst sollten sich alle einig sein, was das Problem ist. Frage dann, warum dies passiert ist, und stelle wieder eine Warum-Frage zur Antwort auf diese Frage. Wiederhole dies mindestens fünfmal, um sicherzustellen, dass ihr alle zugrunde liegenden Faktoren, die zu dem Problem beitragen, aufgedeckt habt. Achte darauf, dass die Teilnehmer nicht versuchen, einer unangenehmen Wahrheit auszuweichen oder einen bequemen Konsens zu erreichen. In unserem Playbook-Spiel erfährst du mehr über die 5 Warum-Fragen.

Aufarbeitung aller Post-Mortem-Analysen und Umsetzung der gewonnenen Erkenntnisse

Einen Post-Mortem-Bericht, der nicht gelesen wird, kann man sich genauso gut sparen. Sobald der Entwurf eines Post-Mortem-Berichts über einen Vorfall erstellt wurde, ist es wichtig, ihn durchzusehen, um ungelöste Probleme abzuschließen, Ideen zu erfassen, die in Zukunft zu berücksichtigen sind, und den Bericht fertigzustellen. Im Prinzip ist der Vorfall erst dann wirklich erledigt, wenn diese Aufarbeitung stattgefunden hat.

Wie sorgst du am besten dafür? Plane ein mindestens monatlich stattfindendes Meeting mit den Entwicklern (und allen anderen Personen, die ein Interesse haben könnten, wie Kundensupport oder Account Manager) zur Aufarbeitung des Post-Mortem-Berichts. In diesen Meetings könnt ihr aktuelle Berichte durchsehen oder auch ältere Berichte überprüfen und Erkenntnisse austauschen, die auch heute noch relevant sind.

Ein effektiver Plan für Post-Mortem-Analysen

Damit Post-Mortem-Analysen effektiv sind und den Aufbau einer Kultur der kontinuierlichen Verbesserung ermöglichen, benötigst du einen einfachen, wiederholbaren Prozess, in den sich jeder einbringen kann. Wie sich dieser gestaltet, hängt von eurer Kultur und deinem Team ab. Bei Atlassian haben wir eine Methode entwickelt, die für uns funktioniert, und wir haben sie ausführlich in unserem Handbuch für Vorfälle beschrieben.

Hier ein paar Tipps für den Einstieg:

Tipp 1: Lege einen Schwellenwert fest

Vorfälle in deinem Unternehmen sollten in eindeutige und messbare Schweregrade eingeteilt werden können. Diese Schweregrade können verwendet werden, um den Post-Mortem-Analyseprozess einzuleiten. Zum Beispiel könnte jeder Vorfall mit Schweregrad 1 oder höher einen Post-Mortem-Analyseprozess einleiten, während die Post-Mortem-Analyse für weniger schwere Vorfälle optional sein könnte. Es ist empfehlenswert, Teamleitern oder Managern die Möglichkeit zu geben, eine Post-Mortem-Analyse auch für Vorfälle anzufordern, die die festgelegte Schwelle nicht erreicht haben.

Tipp 2: Zögere die Analyse nicht hinaus

Es ist wichtig, nach einem Vorfall eine Pause einzulegen und sich ein wenig auszuruhen. Aber zögere die Dokumentation der Post-Mortem-Analyse nicht hinaus. Wenn du zu lange wartest, gehen wichtige Details möglicherweise verloren oder geraten in Vergessenheit. Idealerweise wird unmittelbar nach einem Meeting zur Nachbesprechung des Vorfalls ein Entwurf verfasst. Dieses Meeting sollte möglichst innerhalb von 24 - 48 Stunden nach der Behebung des Vorfalls und nicht später als höchstens fünf Werktage danach abgehalten werden.

Tipp 3: Weise Rollen und Besitzer zu

In der Nachbesprechung eines Vorfalls werden die Details zusammengetragen, die im Post-Mortem-Bericht des Vorfalls dokumentiert werden. Es ist sinnvoll, eine bestimmte Person mit dem Entwurf des Post-Mortem-Berichts zu beauftragen. Diese Person sollte idealerweise mit dem Vorfall vertraut sein und über das erforderliche technische und organisatorische Wissen verfügen, um die Ursachen und Problemminderungen zu verstehen.

Tipp 4: Arbeite mit einer Vorlage

Eine Vorlage kann verhindern, dass wichtige Details ausgelassen werden. Und sie sorgt für Konsistenz bei deinen Post-Mortem-Analysen.

Tipp 5: Gib eine Zeitleiste an

Eine Zeitleiste ist sehr hilfreich bei der Dokumentation von Vorfällen. Oft zieht sie als erstes den Blick des Lesers auf sich, um schnell einzuschätzen, was passiert ist. Versuche, so klar und konkret wie möglich zu sein. Schreibe zum Beispiel "11:14 Uhr Pacific Standard Time", nicht einfach "um 11". Genaue Zeitangaben sorgen für die Abbildung einer zuverlässigen Ereigniskette, die für die Identifizierung von Verbesserungsmöglichkeiten von Nutzen ist. Du könntest anhand der Zeitleiste beispielsweise feststellen, dass der Zeitraum zwischen dem Beginn der Auswirkungen und dem Zeitpunkt, an dem Kunden benachrichtigt wurden, zu lang war.

Wichtige Zeiten für die Zeitleiste:

  • Erste Warnmeldung bzw. erstes Ticket
  • Erste interne oder externe Ankündigung in den Kommunikationskanälen
  • Aktualisierungszeiten der Statusseite
  • Zeitpunkte etwaiger Behebungsversuche (Code-Rollbacks usw.)
  • Zeitpunkt der Lösung

Tipp 6: Details, Details, Details

Das Auslassen von Details ist eine sichere Methode, unbrauchbare und unklare Post-Mortem-Analysen zu erstellen. Füge so viele Details wie möglich über das Geschehen und die Aktionen während des Vorfalls hinzu. Anstatt "dann wurde eine öffentliche Mitteilung gesendet", schreibst du besser "Wir haben eine Mitteilung veröffentlicht, die den Vorfall auf unserer öffentlichen Statusseite und auf unserem Twitter-Konto bekannt gibt".

Füge, wo immer möglich, Links zu Tickets und Statusupdates sowie Links zu Vorfallstatusdokumenten und Überwachungsdiagrammen hinzu. Zögere nicht, auch Screenshots relevanter Grafiken oder Dashboards hinzuzufügen. Ein Diagramm aus deinem Überwachungssystem, das die Start- und Endzeiten des Vorfalls deutlich zeigt (z. B. ein Rückgang der Anfragerate gefolgt von einer Rückkehr zur Normalität), ist sehr wertvoll, da es eindeutige Informationen liefert. Noch effektiver ist eine Kombination mit Diagrammen, die zeigen, was in dieser Zeit hinter den Kulissen passiert ist, zum Beispiel Datenbankverbindungen, Netzwerkverbindungsstatus oder CPU-/Speicher-/IO-/Bandbreitenverbrauch im selben Zeitraum.

Tipp 7: Erfasse Metriken zu Vorfällen

Wenn du Metriken in deiner Post-Mortem-Analyse erfasst, wendest du konkrete Daten auf die Probleme und ihre Auswirkungen an. Mit diesen Datenpunkten kannst du feststellen, ob dein Team die richtige Richtung eingeschlagen hat, um die Anzahl der Vorfälle, ihren Schweregrad und die Ausfallzeiten zu reduzieren. Wenn konsistente Metriken gemessen werden, kannst du mit etwas Abstand die Vorfalltrends im Laufe der Zeit betrachten.

Einige Metriken, die du bei der Nachverfolgung deines Vorfalls berücksichtigen solltest:

  • Die Ausfallzeit in Minuten, damit du nachverfolgen kannst, ob die Dauer zu- oder abnimmt
  • Der Schweregrad des Vorfalls, damit du die relative Zuverlässigkeit deiner Systeme bestimmen kannst
  • Die Mean Time to Resolution (MTTR), die die durchschnittliche Zeit misst, die ab dem ursprünglichem Meldungszeitpunkt bis zur Lösung eines Vorfalls benötigt wird

Der wichtigste Tipp? Überspringe keine Schritte. Entscheidend für Post-Mortem-Analysen, die wirklich helfen, die Arbeit deines Teams und deine Systeme zu verbessern, ist das Vorhandensein eines Prozesses und dessen genaue Befolgung.

Optimierung des Prozesses mithilfe einer Vorlage für Post-Mortem-Analysen von Vorfällen

Um sicherzustellen, dass dein Team eine Kultur der Post-Mortem-Analysen entwickelt, solltest du es ihm mit wiederverwendbaren Checklisten und Vorlagen leicht machen, Informationen zu erfassen, Meetings zu planen und den Abschlussbericht zu veröffentlichen. Ein wiederholbarer Prozess bietet Konsistenz. So wissen deine Mitarbeiter, was sie erwartet, und können mit einer produktiven Geisteshaltung in den Prozess hineingehen.

Typische Checklistenpunkte für den Post-Mortem-Analyseprozess:

Meetings, die abgehalten werden müssen:

  • Meeting zum Zusammentragen von Informationen
  • Überprüfung des Berichts
  • Präsentation des Berichts

Informationen, die im Voraus gesammelt werden müssen:

  • Standardagenden für jedes Meeting
  • Teilnehmer, Stakeholder, Prüfer
  • Vorlage für einen standardisierten Post-Mortem-Bericht
Weiter geht's
Template