Close

Vorfallmanagement für High-Velocity-Teams

So erstellst du ein Playbook zur Incident Response

Lasse dich von unserem Handbuch leiten.

Wir bei Atlassian möchten das volle Potenzial eines jeden Teams entfalten. Und was haben alle erfolgreichen Teams gemeinsam? Sie verwenden Playbooks, um die vielen Prozesse zu verwalten, die für den reibungslosen Betrieb ihres Unternehmens formuliert wurden.

In diesem Artikel werden fünf wichtige Schritte zur Erstellung eines effektiven Incident-Response-Playbooks behandelt. Wir werden unser eigenes Atlassian-Handbuch zum Vorfallmanagement als Vorlage verwenden, um einen Incident-Response-Plan zu entwickeln.

Deshalb brauchen agile Teams ein Playbook für Vorfälle

Ein Incident-Response-Playbook stellt Teams Standardverfahren und Schritte zur Verfügung, mit denen sie in Echtzeit auf Vorfälle reagieren und diese beheben können. Playbooks können auch Schulungen und Übungen für ruhigere Zeiten beinhalten, die das Team auf den nächsten Vorfall vorbereiten.

Die Vorfallmanagementteams bei Atlassian bilden sich ständig weiter und verfeinern, testen und verbessern unseren Vorfallmanagementprozess. Unser Playbook für die Incident Response haben wir zu folgendem Zweck entwickelt:

  • Als Anleitung für eigenständige Entscheider und Teams bei Vorfällen und bei der Post-Mortem-Analyse
  • Zum Aufbau einer konsistenten Teamkultur, die vorgibt, wie Vorfälle identifiziert, gehandhabt und zum Kenntniserwerb genutzt werden
  • Zur Ausrichtung von Teams, die gegenüber der Identifizierung, Lösung und rückwirkenden Betrachtung von Vorfällen dieselbe Haltung einnehmen sollten

Was steht in einem Incident-Response-Playbook?

Playbooks sind eine wichtige Komponente des Vorfallmanagements, und zwar nicht nur von DevOps- und IT-Operations-Teams, sondern auch von Cybersicherheitsteams. Sie legen die Richtlinien und Praktiken des Unternehmens für die Reaktion auf ungeplante Ausfälle fest, helfen Teams dabei, Ordnung ins Chaos zu bringen, und stellen sicher, dass alle auf konsistente Weise auf Vorfälle und Sicherheitsbedrohungen reagieren.

Ein Handbuch für das Vorfallmanagement gibt deinem Team diverse Prozesse an die Hand, mit denen es auf jeden Vorfall reagieren, ihn beheben und daraus lernen kann. Und das unabhängig davon, ob es sich um ein Sicherheitsproblem oder eine andere neue Schwachstelle handelt. Der Inhalt kann von Runbooks und Checklisten bis hin zu Vorlagen, Trainingsübungen, Sicherheitsangriffsszenarien und Simulationsübungen alles umfassen.

Erstellung eines Incident-Response-Playbooks

Bei der Erstellung unseres eigenen Atlassian-Handbuchs zum Vorfallmanagement haben wir fünf Best Practices für das Management eines Vorfalls ausgemacht. Diese Schritte können auf eine Vielzahl von DevOps- und IT-Operations-Teams übertragen werden und helfen bei der Erstellung eines effektiven Incident-Response-Playbooks.

1. Definiere Vorfälle für dein Unternehmen

Wichtige Punkte: Genaue Definition eines Vorfalls

Begründung: Du kannst einen Vorfall nicht effektiv beheben, wenn du nicht weißt, was vor sich geht. Jedes Team definiert Vorfälle auf seine Weise. Wenn etwas schiefgeht, zählt jede Sekunde, und Kollegen sollten nicht wegen der Wortbedeutung diskutieren müssen.

Beispiel:

Im Atlassian-Handbuch zum Vorfallmanagement wird ein Vorfall wie folgt definiert:

Was ist ein Vorfall?

Wir definieren einen Vorfall als ein Ereignis, das zu einer Unterbrechung im Service oder zu einer Abnahme der Servicequalität führt und eine Notfallreaktion erfordert. Teams, die ITIL- oder ITSM-Verfahren nutzen, sprechen in diesem Fall möglicherweise von einem "größeren Vorfall".

Ein Vorfall gilt als erledigt, wenn der betroffene Service wieder normal funktioniert. Dabei geht es nur um die vollständige Wiederherstellung der Funktionalität von erforderlichen Aufgaben, und nicht um Folgeaufgaben wie die Identifizierung von Ursachen und deren Minderung, die Teil der Post-Mortem-Analyse sind.

Post-Mortem-Analysen von Vorfällen erfolgen jeweils nach dem Vorfall. Das Team ermittelt die grundlegende Ursache des Vorfalls und weist Aufgaben zu, die ein erneutes Auftreten verhindern sollen.

2. Richte vorab festgelegte Rollen ein

Wichtige Punkte: Rollen und Verantwortlichkeiten bei Vorfällen

Begründung: Ein für die Incident Response geeignetes Playbook legt klare Rollen und Verantwortlichkeiten fest. Auf diese Weise sind die Mitglieder des Incident-Response-Teams mit den Rollen vertraut und wissen, wofür sie bei einem Vorfall verantwortlich sind.

Beispiel:

Die Rollen, die wir bei Atlassian verwenden, sorgen dafür, dass alle notwendigen Schritte abgedeckt sind, Arbeiten nicht doppelt verrichtet werden und eine reibungslose und effektive Kommunikation stattfindet.

  • Der Vorfallmanager trägt die Gesamtverantwortung und ist für den Vorfall zuständig. Er darf alle erdenklichen Maßnahmen zur Behebung des Vorfalls ergreifen und kann beispielsweise weitere Reagierende im Unternehmen benachrichtigen und dafür sorgen, dass sich alle an einem Vorfall beteiligten Personen ganz auf die schnellstmögliche Wiederherstellung des Service konzentrieren.
  • Der technische Leiter ist ein erfahrener Mitarbeiter, der sich um technische Aspekte kümmert. Er ist dafür zuständig, Theorien über das Problem und seine Ursache zu entwickeln, über Änderungen zu entscheiden und das technische Team zu leiten. Er arbeitet eng mit dem Vorfallmanager zusammen.
  • Der Kommunikationsmanager kennt sich mit der öffentlichen Kommunikation aus und ist beispielsweise ein Mitglied des Kundensupportteams oder der PR-Abteilung. Er ist dafür zuständig, interne und externe Mitteilungen zu verfassen und zu versenden.

3. Setze einen konsistenten Prozess durch

Wichtige Punkte: Prozessschritte und Workflows

Begründung: Kein Vorfall ähnelt dem anderen. Das muss aber nicht bedeuten, dass deine Reagierenden keinen konsistenten Workflow für die Reaktion auf Vorfälle einführen können.

Beschreibe die wichtigsten Schritte und Phasen und stelle sicher, dass die Teammitglieder wissen, was in jeder Phase erwartet wird und welcher Schritt als Nächstes kommt. Atlassian legt zum Beispiel den Ablauf der Incident Response in sieben Schritten und drei Phasen dar – von der Erkennung eines Vorfalls bis zu seiner Behebung.

Beispiel:

Miniaturansicht zur Incident Response

Sobald ein neuer Vorfall erkannt wird, beginnt der Vorfallmanager, die interne Kommunikation in die Wege zu leiten und die Reaktion zu organisieren. Dann kann das Team mit der Behebung der Vorfallursache beginnen und eine Lösung für das Problem finden. Eine konsequente Führung, die von einer regen Kommunikation geprägt ist, erleichtert in dieser Phase das Ergreifen von Maßnahmen. Die Einhaltung eines konsistenten Prozesses führt zu einer schnelleren Lösung, die eine Post-Mortem-Analyse beinhaltet, über die wir im Folgenden sprechen werden.

4. Ermögliche eine schnelle Reaktion

Wichtige Punkte: Vorlagen und Checklisten

Begründung: Playbooks für Vorfälle müssen so einfach gehalten sein, dass Teams sie auch unter stressigen Bedingungen verstehen können. Unser eigener Prozess umfasst einen Spickzettel für Major Incident Manager, in dem wichtige Schritte wie Bewertung, Eskalation und Delegierung auf einer Seite beschrieben sind.

Wenn du einen vorab festgelegten Incident-Response-Prozess befolgst, muss das nicht heißen, dass du nicht davon abweichen darfst. Stattdessen musst du flexibel bleiben und wissen, wann du dich an eine neue Situation anpassen solltest. Vorfälle sind per se Szenarien, in denen etwas nicht nach Plan verläuft. Das bedeutet jedoch nicht, dass du diese nicht vorausplanen kannst. Teams, die mehrere Spiele durchgespielt haben, beheben Vorfälle in der Regel erfolgreich.

Tue Folgendes:

Spiele das Spiel Werte für die Reaktion auf Vorfälle durch, um den Teamzusammenhalt zu verbessern und mögliche Missverständnisse vor einem Vorfall aus der Welt zu schaffen. Nutze unsere Ressource, das Atlassian Team-Playbook, um den Prozess deines Teams besser zu verstehen und ein dynamisches Playbook zu erstellen.

5. Erleichtere umfassende Post-Mortem-Analysen

Wichtige Punkte: Beschreibung des Post-Mortem-Analyseprozesses und der Vorgangsfelder

Begründung: Mit einer Post-Mortem-Analyse soll der bestmögliche Nutzen aus einem Vorfall gezogen werden. Es wird versucht, alle Mitursachen nachzuvollziehen, den Vorfall zu späteren Referenzzwecken zu dokumentieren und Muster zu erkennen. Zudem werden effektive präventive Maßnahmen verordnet, durch die die Wahrscheinlichkeit eines erneuten Auftretens verringert werden soll.

Wenn du einen Vorfall als eine außerplanmäßige Investition in die Zuverlässigkeit deines Systems betrachtest, dann ist die Post-Mortem-Analyse das Mittel, mit dem du die Rendite dieser Investition maximieren kannst.

Probiere Folgendes:

Wenn Post-Mortem-Analysen Wirkung zeigen sollen, muss der Prozess den Teams die Identifizierung und Behebung von Ursachen erleichtern. Welche Methoden du dabei genau verwendest, hängt von deiner Teamkultur ab. Wir bei Atlassian nutzen eine Kombination aus verschiedenen Methoden, die sich für unsere Post-Mortem-Teams als sinnvoll erwiesen hat:

  • Persönliche Meetings unterstützen eine richtige Analyse und bringen alle im Team auf denselben Stand darüber, welches Problem gelöst werden muss.
  • Genehmigungen von Post-Mortem-Analysen durch Manager des Bereitstellungs- und Operations-Teams spornen Mitarbeiter an, diese gründlich durchzuführen.
  • Bestimme vorrangige Aktionen und weise ihnen Service Level Objectives (SLO) mit Erinnerungen und Berichten zu, um ihre Erledigung sicherzustellen.

Eine detaillierte Beschreibung einer Post-Mortem-Analyse der Incident Response bei Atlassian findest du auf Seite 46 unseres Handbuchs zum Vorfallmanagement.

Ein Incident-Response-Playbook sollte eigentlich dazu verwendet werden, um Teams zu einer effektiven Zusammenarbeit zu motivieren und so Vorfälle möglichst schnell zu beheben. Wenn sich ein Vorfall ereignet, hat niemand Zeit, über Best Practices zu diskutieren oder mit dem Finger auf andere zu zeigen. Mit detaillierten, gut gestalteten Playbooks erzielen Teams die beste Leistung. Der Leitfaden von Atlassian zu all diesen Spielen ist in unserem Handbuch zum Vorfallmanagement aufgeführt.

Up Next
On call