Die Warnmeldungs- und Bereitschaftsfunktionen von Opsgenie sind jetzt in Jira Service Management und Compass verfügbar. Migriere deine bestehenden Opsgenie-Daten und -Konfigurationen vor dem 5. April 2027 mit unserem automatisierten Migrationstool.

Was ist Vorfallmanagement?

Das Vorfallmanagement ist der Prozess, den Entwickler- und IT-Operations-Teams verwenden, um auf ein ungeplantes Ereignis oder eine Serviceunterbrechung zu reagieren und den Servicebetrieb wiederherzustellen.

Wir bei Atlassian definieren einen Vorfall als ein Ereignis, das zu einer Störung oder einer Verringerung der Servicequalität führt und eine Notfallreaktion erfordert. Teams, die ITIL- oder ITSM-Praktiken befolgen, verwenden dafür manchmal den Begriff "größerer Vorfall".

Lade dir unser Handbuch zum Vorfallmanagement herunter

Lade das PDF herunter, um die Vorfallmanagement-Prinzipien und -Praktiken zu lernen und zu erfahren, wie du diese Erkenntnisse mit Jira Service Management anwenden kannst.

Incidents are events of any kind that disrupt or reduce the quality of service (or threaten to do so). A business application going down is an incident. A crawling-but-not-yet-dead web server can be an incident, too. It’s running slowly and interfering with productivity. Worse yet, it poses the even-greater risk of complete failure. Incidents can vary widely in severity, ranging from an entire global web service crashing to a small number of users having intermittent errors. An incident is resolved when the affected service resumes functioning in its intended state. This includes only those tasks required to mitigate impact and restore functionality.

Kostenlose Vorlage für wöchentlichen ITSM-Bericht über größere Vorfälle verwenden

So wichtig ist das Vorfallmanagement

Die Werte von Atlassian für das Vorfallmanagement

Das Vorfallmanagement ist einer der wichtigsten Prozesse, die ein Unternehmen beherrschen muss. Serviceausfälle können für das Unternehmen kostspielig sein und die Teams benötigen eine effiziente Methode, um schnell auf diese Probleme zu reagieren und sie zu lösen. Du benötigst zudem eine zuverlässige Methode, um Vorfälle zu priorisieren, schneller zu beheben und den Benutzern einen besseren Service zu bieten.

Wenn Teams es mit einem Vorfall zu tun bekommen, muss ein Plan her, der ihnen hilft:

  • effektiv zu reagieren, damit sie sich schnell erholen können;
  • klar und deutlich mit Kunden, Stakeholdern, Service Ownern und anderen Mitarbeitern des Unternehmens zu kommunizieren;
  • effektiv zusammenzuarbeiten, um den Vorgang als Team schneller zu lösen und Hindernisse zu beseitigen, die sie an der Lösung des Vorgangs hindern;
  • sich kontinuierlich zu verbessern, um aus diesen Ausfällen zu lernen und die daraus gewonnenen Erkenntnisse anzuwenden, um einen Service zu verbessern und den Prozess für die Zukunft zu präzisieren.

Interessiert dich, wie Atlassian mit schwerwiegenden Vorfällen umgeht? Wir haben ein internes Handbuch zum Vorfallmanagement herausgegeben. Du kannst es gerne nutzen, um daraus zu lernen, die beschriebenen Prozesse individuell anzupassen und auf deine eigene Weise davon zu profitieren.

Verschiedene Arten von Vorfallmanagementprozess

Verschiedene Unternehmenstypen tendieren in der Regel zu anderen Arten von Vorfallmanagementprozessen. Es gibt keinen einzelnen Prozess, der für alle Unternehmen gleich gut geeignet ist, daher wirst du wahrscheinlich verschiedene Ansätze in verschiedenen Unternehmen feststellen.

Viele Teams verlassen sich auf einen herkömmlichen Vorfallmanagementprozess für den IT-Bereich, wie er beispielsweise in den ITIL-Zertifizierungen beschrieben ist. Andere Teams bevorzugen eher einen Vorfallmanagementprozess, der sich an Site Reliability Engineers (SRE) oder DevOps richtet.

IT-Vorfallmanagementprozess

Ein Vorfallmanagementprozess hilft IT-Teams dabei, Serviceunterbrechungen oder -ausfälle zu untersuchen, aufzuzeichnen und zu beheben. Der ITIL-Workflow für das Vorfallmanagement zielt darauf ab, Ausfälle zu reduzieren und die Auswirkungen von Vorfällen auf die Produktivität der Mitarbeiter zu minimieren. Mit Vorlagen für die Verwaltung von Vorfällen kannst du einen wiederholbaren Workflow für das Vorfallmanagement erstellen, der sicherstellt, dass Teams Vorfälle protokollieren, diagnostizieren und lösen und so einen Nachweis ihrer Aktivitäten erstellen.

Das ITIL-Framework wird hauptsächlich von IT-Teams verwendet, die Services innerhalb von Unternehmen ausführen. In der Regel entnehmen Teams alles Nötige der ITIL, die fast alle Arten von Vorfällen, Vorgängen und Prozessen abdeckt, mit denen IT-Teams konfrontiert sein könnten, und lassen den Rest außen vor. Die ITIL ist großartig, wenn es Teams primär darum geht, Fehler aktiv zu beheben. Die vorgeschriebenen Prozesse helfen Teams dabei, Vorfälle und Aktionen konsequent zu verfolgen, was die Berichterstattung und Analyse verbessert und zur Verbesserung der Serviceintegrität und zum Teamerfolg führen kann.

Schritte beim IT-Vorfallmanagement

Einen Vorfall identifizieren und protokollieren

Ein Vorfall kann durch alles Mögliche verursacht werden: durch Mitarbeiter, Kunden, Anbieter oder Überwachungssysteme. Unabhängig davon, wer dafür verantwortlich ist, sind die ersten zwei Maßnahmen einfach: Jemand identifiziert einen Vorfall, dann wird er protokolliert. Diese Vorfallprotokolle (oder auch Tickets) enthalten in der Regel folgende Informationen:

  • Den Namen der Person, die den Vorfall meldet
  • Das Datum und die Uhrzeit, zu der der Vorfall gemeldet wurde
  • Eine Beschreibung des Vorfalls (was ist ausgefallen oder funktioniert nicht ordnungsgemäß)
  • Eine eindeutige Identifikationsnummer, die dem Vorfall zur besseren Nachverfolgung zugewiesen wird

Kategorisieren

Weise jedem Vorfall eine logische, intuitive Kategorie (und ggf. auch Unterkategorie) zu. So kannst du deine Daten analysieren und nach Trends und Mustern suchen – ein wichtiger Bestandteil eines effektiven Problemmanagements, um zukünftige Vorfälle zu verhindern.

Priorisieren

Jedem Vorfall muss ein Schweregrad zugeordnet werden. Beginne mit der Bewertung der Auswirkungen auf das Unternehmen. Berücksichtige die Anzahl der betroffenen Personen, die betroffenen Service Level Agreements (SLAs) und die potenziellen Auswirkungen des Vorfalls auf die Finanzen, Sicherheit und Compliance. Vergleiche diesen Vorfall mit allen anderen offenen Vorfällen, um seine relative Priorität zu ermitteln. Als Best Practice solltest du deine Schweregrade und Prioritätsstufen definieren, bevor ein Vorfall eintritt. So können Vorfallmanager die Priorität schneller ermitteln. 

Reagieren

  • Erstdiagnose: Im Idealfall kann dein Support-Team an vorderster Front einen Vorfall von der Diagnose bis zur Behebung verfolgen. Wenn dies nicht der Fall ist, besteht der nächste Schritt darin, alle relevanten Informationen zu protokollieren und an das nächste Team zu eskalieren.
  • Eskalieren: Das nächste Team nimmt die protokollierten Daten und fährt mit dem Diagnoseprozess fort. Wenn das nächste Team den Vorfall nicht diagnostizieren kann, eskaliert es diesen an das nächste Team.
  • Kommunizieren: Das Team informiert regelmäßig die betroffenen internen und externen Stakeholder.
  • Untersuchung und Diagnose: Dieser Prozess läuft so lange weiter, bis die Art des Vorfalls identifiziert ist. Manchmal ziehen Teams externe Ressourcen oder andere Abteilungsmitglieder hinzu, um sich zu beraten und Unterstützung bei der Behebung zu erhalten.
  • Behebung und Wiederherstellung: Bei diesem Schritt erstellt das Team eine Diagnose und führt die notwendigen Schritte durch, um den Vorfall zu beheben. Eine Wiederherstellung bedeutet einfach die Zeitdauer, bis betriebliche Abläufe vollständig wiederhergestellt sind. Denn einige Korrekturen (wie Bug-Patches usw.) können Tests und Deployments erfordern, auch wenn die richtige Lösung gefunden wurde.
  • Abschluss: Wenn der Vorfall eskaliert wurde, wird er schließlich an den Servicedesk zur Schließung weitergeleitet. Um die Qualität aufrechtzuerhalten und einen reibungslosen Ablauf zu gewährleisten, dürfen nur Servicedesk-Mitarbeiter Vorfälle schließen. Zudem sollte der Vorfall-Verantwortliche bei der Person nachfragen, die den Vorfall gemeldet hat, ob die Lösung zufriedenstellend ist und der Vorfall tatsächlich geschlossen werden kann.

DevOps- und SRE-Vorfallmanagementprozess

Bei einem DevOps- oder SRE-Ansatz für das Vorfallmanagement führt das Team, das den Service erstellt, diesen auch aus und behebt eventuell vorliegende Probleme. Dieser Ansatz hat mit der Zunahme von stets verfügbaren Cloud-Services, weltweit aufrufbaren Webanwendungen, Microservices und Software as a Service an Popularität gewonnen.

Die Software, auf die du dich privat und bei der Arbeit verlässt, wird immer häufiger nicht auf einem Server gehostet, der sich am selben physischen Standort befindet wie du. Es handelt sich dabei wahrscheinlich um eine über das Internet zugängliche Anwendung, die in einem Rechenzentrum für Tausende oder Millionen Benutzer auf der ganzen Welt bereitgestellt wird. Für Teams, die mit der Ausführung dieser Services beauftragt sind, sind Agilität und Geschwindigkeit von größter Bedeutung. Denn jeder Ausfall kann Tausende Unternehmen treffen, nicht nur eines.

Ein Vorteil des Prinzips "You build it, you run it" besteht darin, dass es agilen Teams die benötigte Flexibilität bietet. Es kann allerdings auch verschleiern, wer zu einem bestimmten Zeitpunkt für eine Aufgabe verantwortlich ist. Für DevOps-Teams sind weniger strukturierte Entwicklungsprozesse vollkommen ausreichend und dazu erfolgversprechend. Du solltest dich jedoch im Idealfall auf eine Reihe von Kernprozessen für das Vorfallmanagement verständigen, damit klar ist, wie während eines Vorfalls reagiert werden sollte. Das erlaubt dir, Vorgänge nachzuverfolgen und Berichte zu deren Behebung zu erstellen.

Drei Überzeugungen von DevOps-Vorfallmanagementteams

  • Beim Bereitschaftsdienst abwechseln: Anstatt bestimmte Teammitglieder dauerhaft für den Bereitschaftsdienst festzulegen, wechseln sich DevOps-Teams in der Regel nach einem Bereitschaftszeitplan ab. Es besteht also für jedes Teammitglied die Möglichkeit, dass es mitten in der Nacht auf einen Vorfall reagieren muss.
  • Wer den Service entwickelt (Techniker), behebt auch damit verbundene Probleme: Die zentrale Idee hinter "You build it, you run it" besteht darin, dass Personen, die mit dem Service am besten vertraut sind (die Entwickler), auch am besten zur Behebung von Ausfällen geeignet sind.
  • Schnell, aber verantwortungsbewusst entwickeln: Wenn Technikern bewusst ist, dass ihre Teamkollegen bei Ausfällen in die Bresche springen müssen, ist dies ein weiterer Anreiz dafür, sicherzustellen, dass der bereitgestellte Code fehlerfrei ist.

Durch diesen Ansatz werden schnelle Reaktionszeiten und noch schnelleres Feedback an Teams sichergestellt, die wissen müssen, wie ein zuverlässiger Service erstellt wird.

In unserem Atlassian-Handbuch für Vorfälle beschreiben wir einen DevOps-freundlichen Ansatz für das Vorfallmanagement.

Tools für das Vorfallmanagement

Das Vorfallmanagement wird nicht nur mit einem einzigen Tool gehandhabt, sondern mit der richtigen Mischung aus Tools, Praktiken und Mitarbeitern.

  • Vorfallverfolgung: Jeder Vorfall sollte verfolgt und dokumentiert werden, damit du Trends erkennen und im Laufe der Zeit Vergleiche anstellen kannst.
  • Chaträume: Textkommunikation in Echtzeit ist der Schlüssel für die Diagnose und Lösung eines Vorfalls als Team. Sie bietet zudem eine Vielzahl von Daten für die spätere Analyse der Reaktion.
  • Videochat: Bei vielen Vorfällen ergänzt der Videochat den Textchat. Der Team-Videochat kann helfen, die Ergebnisse zu besprechen und eine Reaktionsstrategie auszuarbeiten.
  • Warnsystem: Ein Tool wie Jira Service Management lässt sich in dein Überwachungssystem integrieren und verwaltet Rotationsverfahren und Eskalationen im Bereitschaftsdienst.
  • Dokumentationstool: Ein Tool wie Confluence kann Dokumente zum Status von Vorfällen und Post-Mortem-Analysen erfassen.
  • Statuspage: Die Kommunikation des Status sowohl mit internen Stakeholdern als auch mit Kunden über Statuspage hilft dabei, alle auf dem Laufenden zu halten.

Themen rund um das Vorfallmanagement

Das Atlassian-Handbuch zum Vorfallmanagement

In diesem Handbuch findest du echte Prozesse für das Vorfallmanagement, die wir als globales Unternehmen mit Tausenden von Mitarbeitern und mehr als 200.000 Kunden erarbeitet haben.

Best Practices für die Vorfallkommunikation

Unter Vorfallkommunikation versteht man den Prozess für die Benachrichtigung von Benutzern, wenn ein Service ausfällt oder nicht mit der gewohnten Leistung arbeitet.

Incident Response

Informiere dich über wichtige Incident Response-Techniken, um kritische Vorgänge in deiner Organisation schnell anzugehen und zu lösen.

Bereitschaftsdienst

Bereitschaftsteams entwickeln sich rasant weiter. Hier kannst du dich über die Vor- und Nachteile unterschiedlicher Ansätze für das Bereitschaftsmanagement informieren.

Tools

Entdecke die wichtigsten Funktionen der Vorfallmanagementsoftware. Erfahre, wie du die richtigen Tools für eine effektive Incident Response und einen reibungslosen Betrieb auswählst.

Post-Mortem-Analyse

Die Post-Mortem-Analyse eines Vorfalls, auch als Post-Incident Review bekannt, ist die beste Methode, einen Vorfall aufzuarbeiten und die daraus gezogenen Lehren zu dokumentieren.

DevOps

Für Teams, die DevOps praktizieren, konzentriert sich der Vorfallmanagementprozess auf Transparenz und kontinuierliche Verbesserungen am Lebenszyklus von Vorfällen.

Empfohlene Tutorials

Tutorial

Informationen zu Vorfällen

In diesem Tutorial zeigen wir dir, wie du mithilfe von Vorfallvorlagen bei Ausfällen effektiv kommunizierst. Sie sind an viele Arten von Serviceunterbrechungen anpassbar.

Tutorial

Bereitschaftsplan

In diesem Tutorial erfährst du, wie du einen Bereitschaftsplan einrichtest, Regeln für Außerkraftsetzungen anwendest, Bereitschaftsbenachrichtigungen konfigurierst und vieles mehr – und das alles in Opsgenie.

Weitere Informationen zum Vorfallmanagement in Jira Service Management

Für dich empfohlen

Tutorial

Mit Opsgenie einen Bereitschaftsplan einrichten

In diesem Tutorial erfährst du, wie du einen Bereitschaftsplan einrichtest, Regeln für Außerkraftsetzungen anwendest, Bereitschaftsbenachrichtigungen konfigurierst und vieles mehr – und das alles in Opsgenie.

Artikel

Vor- und Nachteile unterschiedlicher Ansätze für das Bereitschaftsmanagement

Bereitschaftsteams entwickeln sich rasant weiter. Hier kannst du dich über die Vor- und Nachteile unterschiedlicher Ansätze für das Bereitschaftsmanagement informieren.

Artikel

Was ist MTTR?

MTTR und andere Metriken für Vorfälle zu verstehen, hilft Teams, die Geschwindigkeit und Effektivität der Incident Response zu messen und zu verbessern.