Close

Der Weg zu einem besseren Vorfallmanagement beginnt hier

Dein Weg zu besseren Incident Timelines (und ihre Bedeutung)

Je komplexer die Technologie, umso komplizierter das Vorfallmanagement und mit ihm die Dokumentation und Kommunikation.

Aus diesem Grund nutzen immer mehr Unternehmen Incident Timelines (Vorfallzeitleisten). Dies ist ein zentralisierter Aktivitäten-Feed für Vorfälle, der Teams während eines Vorfalls auf demselben Stand hält und ihnen eine Aufzeichnung liefert, mit der sie nach einem Vorfall die grundlegenden Ursachen ermitteln und die zukünftige Leistung verbessern können.

Was ist eine Incident Timeline?

Eine Incident Timeline ist eine vollständige Echtzeitaufzeichnung eines Vorfalls. Sie enthält häufig manuelle Einträge (Chat), konsolidierte Aufzeichnungen von Seiten, Warnmeldungen und Bestätigungen sowie automatische Systemaktualisierungen (z. B. die Benachrichtigung, dass jemand den Schweregrad eines Vorfalls geändert oder ihn als gelöst markiert hat). Sie wird auch oft mit einem Chat oder einem Slack-Channel synchronisiert.

Die Incident Timeline soll das Team auf demselben Stand halten, neue Teammitglieder schnell informieren und den Prozess der Post-Mortem-Analyse eines Vorfalls vereinfachen.

"Besorge mir eine Liste aller in den letzten drei Tagen vorgenommenen Änderungen. Ohne genaue Zeitleiste können wir Ursache und Wirkung nicht ermitteln, und es kommt wahrscheinlich erneut zu einem Ausfall."

– aus "The Phoenix Project",
Gene Kim, Kevin Behr, George Spafford

Vorteile einer Incident Timeline

Zentrale Echtzeitansicht

Wenn Teams oder Stakeholder nicht ausreichend kommunizieren, gerät ein Vorfall schnell außer Kontrolle. Eine Incident Timeline reduziert dieses Risiko, weil damit allen Beteiligten dieselben Informationen in Echtzeit in einer einheitlichen Ansicht zur Verfügung stehen. Das heißt, alle – von den auf den Vorfall angesetzten Entwicklern über das für die Kundenmitteilungen zuständige Kommunikationsteam bis hin zur Unternehmensführung – bleiben auf dem Laufenden, ohne sich ständig per Telefon, E-Mail oder Chat mit den anderen verständigen zu müssen.

Die einheitliche Echtzeitansicht erleichtert es den Stakeholdern, das dem Vorfall zugrunde liegende Kernproblem zu ermitteln. Außerdem werden Risiken und potenzielle Probleme bei miteinander verbundenen Systemen sichtbar. Wenn du mehreren Teams Zugriff auf eine Incident Timeline gewährst, können diese potenzielle Probleme, Ursachen oder Risiken in miteinander verbundenen Systemen leichter identifizieren.

Fundiertere Post-Mortem-Analysen

Bei Atlassian sind Post-Mortem-Analysen von Vorfällen ein wesentlicher Bestandteil unserer Vorfall- und Problemmanagementprozesse. Dabei kommen die Beteiligten zusammen, um herauszufinden, was passiert ist, warum es passiert ist und was wir tun können, um dies in Zukunft zu verhindern. Um diesen Fragen auf den Grund zu gehen, ist es hilfreich, sämtliche Vorkommnisse während eines Vorfalls detailliert zu dokumentieren – von Warnmeldungen über Stakeholder-Updates bis hin zur endgültigen Problembehebung.

Für viele Unternehmen ist die Incident Timeline diese detaillierte Aufzeichnung. Sie dient nicht nur als Tool zur Echtzeitzusammenarbeit bei Vorfällen, sondern bietet auch eine einheitliche Ansicht dessen, was wann und manchmal auch warum passiert ist. Dank dieser Informationen können Teams in der Post-Mortem-Analyse- und Review-Phase viele Stunden Zeit sparen.

Mehr Einblick in KPIs

Eine Incident Timeline hilft Teams oft dabei, einem einzelnen Vorfall auf den Grund zu gehen. Darüber hinaus kann sie auch zusammen mit den Incident Timelines ähnlicher Vorfälle verwendet werden, damit Teams leichter Muster erkennen und größere Probleme mit wichtigen KPIs diagnostizieren können.

Woran lag es, wenn das Lösen eines Vorfalls überdurchschnittlich lange dauerte? Wie passt das mit anderen ähnlichen Vorfällen zusammen? Welche Teile des Prozesses müssen genauer betrachtet werden? Gibt es ein Muster, das auf ein größeres Problem bei der Prozess-, Technologie- oder Teameinrichtung hindeutet? Werden Warnmeldungen nach Bedarf ausgegeben, oder müssen wir unsere Warnschwellenwerte überprüfen? Bietet der Bereitschaftsplan eine ausreichende Abdeckung für Vorfälle? Sind unsere Teams richtig strukturiert?

Eine Incident Timeline kann als einzelner Datenpunkt für die Überprüfung oder als einer von vielen Datenpunkten in einer Untersuchung von SLA- und SLO-Problemen dienen.

Incident Timelines im Vergleich mit ChatOps

Incident Timelines werden in der Regel von Vorfallmanagementsystemen wie Opsgenie bereitgestellt und innerhalb dieser verwendet, um alle Informationen zu einem Vorfall zentral zusammenzustellen.

ChatOps für das Vorfallmanagement hat das gleiche Ziel. Der einzige Unterschied besteht darin, dass bei ChatOps die Zeitleiste in der Regel nicht in einem Vorfallmanagementsystem bereitgestellt wird, sondern zentral in einem Chatprogramm wie Slack. Die Informationen werden mit Vorfallmanagementplattformen wie Opsgenie und anderen relevanten Quellen synchronisiert und von dort abgerufen.

Die Vorteile von ChatOps – teamübergreifender Zugriff auf dieselben Informationen, Kommunikation und Mitteilungen in Echtzeit, weniger Kontextwechsel, keine Telefonketten mehr und ein integrierter Datensatz für Post-Mortem-Analysen – sind dieselben wie bei Incident Timelines. Der Hauptunterschied besteht lediglich im Speicherort und der Informationsmenge. Bei den meisten Vorfallteams enthält der ChatOps-Feed neben den tatsächlich wichtigen Informationen in der Regel viel Unwichtiges. Es ist hilfreich, die umfangreichen Details in die Incident Timeline zu ziehen und das Chatprotokoll für zukünftige Referenzzwecke zu behalten.

Weiter geht's
5 whys