Vorfallmanagement für High-Velocity-Teams
Reaktion auf einen Vorfall
In den folgenden Abschnitten wird der Atlassian-Prozess zur Reaktion auf Vorfälle beschrieben. Der Vorfallsmanager (Incident Manager, IM) führt eine Reihe von Schritten durch, um den Vorfall von der Erkennung bis zur Lösung zu führen.
Jira-Feld | Typ | Hilfetext |
Zusammenfassung | Text | Worin besteht der Notfall? |
Beschreibung | Text | Welche Auswirkungen hat der Vorfall auf die Kunden? Gib deine Kontaktdaten an, damit du für Personen, die auf den Vorfall reagieren, erreichbar bist. |
Schweregrad | Einzelauswahl | (Hyperlink zu einer Confluence-Seite mit unserer Schweregradskala) Wenn du Schweregrad 1 oder 2 auswählst, muss das Problem deiner Meinung nach sofort behoben werden. Die Zuständigen werden direkt benachrichtigt. |
Fehlerhafter Service | Einzelauswahl | Der Service, in dem der Fehler vorliegt, der den Vorfall verursacht hat. Wenn du dir nicht sicher bist, gib eine Vermutung an. Falls du gar keine Ahnung hast, wähle "Unbekannt" aus. |
Betroffene Produkte | Kontrollkästchen | Welche Produkte sind von dem Vorfall betroffen? Wähle alle betroffenen Produkte aus. |
Sobald der Vorfall erstellt wurde, verwenden wir den entsprechenden Issue-Schlüssel in der gesamten internen Kommunikation zum Vorfall.
Oft erstellen Kunden ein Supportticket zu Vorfällen, von denen sie betroffen sind. Wenn unsere Kundensupportteams zu dem Schluss kommen, dass sich alle diese Tickets auf denselben Vorfall beziehen, kennzeichnen sie diese Tickets mit dem Issue-Schlüssel des Vorfalls, um die Auswirkungen auf die Kunden zu verfolgen und sich nach der Erledigung des Vorfalls leichter an die betroffenen Kunden wenden zu können.
Schweregrad | Beschreibung | Beispiele |
1 | Ein kritischer Vorfall mit sehr großen Auswirkungen |
|
2 | Ein größerer Vorfall mit bedeutenden Auswirkungen |
|
3 | Ein kleinerer Vorfall mit geringen Auswirkungen |
|
Nachdem die Auswirkungen des Vorfalls geklärt sind, solltest du den Schweregrad des Vorfalls-Issues anpassen oder bestätigen und ihn dem Team mitteilen. Unserer Erfahrung nach ist es für eine klare Kommunikation sehr hilfreich, den Schweregrad konkret zu beziffern.
Bei Atlassian werden Vorfälle mit Schweregrad 3 an die Bereitstellungsteams weitergeleitet, die das Problem dann innerhalb der Geschäftszeiten beheben. Bei Schweregrad 1 und 2 hingegen werden die Teammitglieder direkt benachrichtigt, damit sie sofort mit der Problembehebung beginnen können. Die Unterschiede in der Reaktion auf Schweregrad 1 und Schweregrad 2 sind gering und richten sich nach dem betroffenen Service.
Für eine konsistente Reaktion auf Vorfälle je nach Auswirkung auf die Kunden sollte eine Matrix der Schweregrade erstellt und mit allen Teams abgestimmt werden.
Interne Statusseite | Externe Statusseite | |
Bezeichnung des Vorfalls | | Untersuchung eines Vorfalls bei |
Nachricht | Wir untersuchen derzeit einen Vorfall, der | Wir untersuchen derzeit Probleme bei |
Zusätzlich zur Erstellung einer Statusseite für den Vorfall senden wir eine E-Mail an eine Verteilerliste für die Vorfallskommunikation, in der die Leiter unserer Entwicklungsteams, die für größere Vorfälle zuständigen Manager und andere interessierte Mitarbeiter enthalten sind. Diese E-Mail hat denselben Inhalt wie die interne Statusseite zum Vorfall. Auf E-Mails können Mitarbeiter antworten, wenn sie Fragen haben, während sich Statuspage eher für die unidirektionale Kommunikation eignet.
Tipp: Wir achten darauf, dass alle internen Mitteilungen über den Vorfall den Jira-Issue-Schlüssel des Vorfalls beinhalten, damit die Mitarbeiter wissen, in welchem Chatraum sie weitere Fragen stellen können.
Einrichten eines Bereitschaftsplans mit Opsgenie
In diesem Tutorial erfährst du, wie du einen Bereitschaftsplan einrichtest, Regeln für Außerkraftsetzungen anwendest, Bereitschaftsbenachrichtigungen konfigurierst und vieles mehr – und das alles in Opsgenie.
Dieses Tutorial ansehenWie wir Post-Mortem-Analysen zu Vorfällen durchführen
Durch Post-Mortem-Analysen ohne Schuldzuweisungen können wir die grundlegende Ursache von Vorfällen leichter ermitteln und beheben. In unserem Handbuch erfährst du, wie wir bei Atlassian Post-Mortem-Analysen nach Vorfällen durchführen.
Diesen Artikel lesen