Close

Bereit für High-Velocity-ITSM?

Was ist Vorfallmanagement?

Das Vorfallmanagement ist ein Prozess zur Reaktion auf ein ungeplantes Ereignis oder eine Serviceunterbrechung, um den normalen Servicebetrieb wiederherzustellen. Laut ITIL (IT Infrastructure Library) "stellt der Vorfallmanagementprozess sicher, dass der normale Servicebetrieb so schnell wie möglich wiederhergestellt wird und geschäftliche Auswirkungen minimiert werden."

Vorfälle sind Ereignisse jeglicher Art, die die Servicequalität stören oder (mit großer Wahrscheinlichkeit) beeinträchtigen werden. Wenn eine Geschäftsanwendung ausfällt, handelt es sich um einen Vorfall. Ein Webserver, der gerade noch so funktioniert, aber noch nicht ausgefallen ist, kann ebenfalls ein Vorfall sein. Er läuft langsam und beeinträchtigt die Produktivität. Und was noch schlimmer ist: Er läuft Gefahr, komplett auszufallen.

Damit alle Bescheid wissen, worüber wir reden, folgen hier einige Definitionen der zugehörigen Begriffe:

ITSM (IT-Servicemanagement) ist ein gängiger Ansatz zur Erstellung, Unterstützung und Verwaltung von IT-Services. Im Grunde folgt ITSM der Überzeugung, dass die IT als Service bereitgestellt werden sollte. Und eine der wesentlichen Praktiken von ITSM ist das Vorfallmanagement.

ITIL ist eine Reihe von Best Practices für ITSM (betrachte sie als eine Art Playbook).

Ein Problem ist die bisher nicht bekannte Ursache für einen oder mehrere Vorfälle. Für die beiden oben genannten Vorfälle, bei denen beispielsweise das Netzwerk nur noch gerade so funktioniert oder eine Geschäftsanwendung ausgefallen ist, könnte ein falsch konfigurierter Router verantwortlich sein.

Die Bedeutung des Vorfallmanagements als eine ITSM-Praktik

Da sich Unternehmen heutzutage auf zahlreiche Softwareservices verlassen, gibt es mehr potenzielle Fehlerquellen als jemals zuvor. Und die Auswirkungen eines Vorfalls können enorm sein. Untersuchungen zufolge können größere Systemausfälle 300.000 US-Dollar pro Stunde kosten. Bei einigen webbasierten Services liegt diese Zahl unter Umständen noch deutlich höher.

Mithilfe eines klar definierten Vorfallmanagementprozesses ist es möglich, diese Kosten drastisch zu senken. Zu den Vorteilen eines klar definierten Prozesses zählen:

  • Schnellere Behebung von Vorfällen
  • Geringere Kosten oder Umsatzverluste infolge von Vorfällen für das Unternehmen
  • Bessere interne und externe Kommunikation bei Vorfällen
  • Kontinuierliche Weiterbildung und Verbesserung

Der Vorfallmanagementprozess

Beim Vorfallmanagement kommt es hauptsächlich darauf an, einen gut funktionierenden Prozess zu erstellen und sich an diesen zu halten. Das allein kann schon als Herausforderung erscheinen, aber die gute Nachricht ist, dass du aus den Erfahrungen Tausender anderer IT-Serviceteams lernen kannst.

Einer der größten Fehler von vielbeschäftigten, wachsenden IT-Organisationen besteht darin, das Rad neu erfinden und Prozesse von Grund auf neu erstellen zu wollen. Greife auf Best Practices zurück und verschwende keine Zeit mit der Entwicklung eines eigenen Tools für die Ticketerstellung.

Hier folgt ein Überblick über die wichtigen Schritte einer Vorfallmanagementpraktik:

Identifiziere einen Vorfall und protokolliere ihn

Ein Vorfall kann viele Ursachen haben. Vielleicht ruft ein Mitarbeiter an, um ihn zu melden, oder dir kann ein unglücklich platzierter Netzwerkhub wegen eines undichten Daches buchstäblich durch die Deckenplatte auf den Schoß fallen. (Nicht, dass wir aus Erfahrung sprechen …)

Was immer die Ursache ist – die ersten beiden Schritte sind ganz einfach: Jemand identifiziert einen Vorfall und ein anderer protokolliert ihn.

Wenn der Vorfall bei dir eingeht und er bereits über den Servicedesk protokolliert wurde, wurden diese ersten beiden Schritte bereits für dich erledigt. Wenn du einen Anruf erhältst oder der Vorfall per E-Mail, SMS oder Brieftaube gemeldet wird, ist es Aufgabe des Servicedesk-Teams, ihn ordnungsgemäß in deinem Servicedesk zu protokollieren.

Diese Vorfallprotokolle (d. h. Tickets) umfassen normalerweise Folgendes:

  • Name der Person, die den Vorfall meldet
  • Datum und Uhrzeit der Meldung des Vorfalls
  • Beschreibung des Vorfalls (was ausgefallen ist oder nicht richtig funktioniert)
  • Eine dem Vorfall zugewiesene eindeutige Identifikationsnummer zur Nachverfolgung

Kategorisiere den Vorfall

Weise jedem Vorfall eine logische, intuitive Kategorie (oder ggf. auch Unterkategorie) zu. Falls du diesen Schritt auslässt, hast du später keine Möglichkeit mehr, deine Daten zu analysieren und nach Trends und Mustern zu suchen. Das ist aber ein wichtiger Bestandteil eines effektiven Problemmanagements, um zukünftige Vorfälle zu verhindern. Stelle auch sicher, dass du eine ITSM-Servicedesk-Lösung auswählst, mit der du Vorfallkategorien problemlos anpassen kannst.

Priorisiere den Vorfall

Jedem Vorfall muss ein Schweregrad zugeordnet werden. Beginne zunächst mit der Bewertung der Auswirkungen auf das Unternehmen. Berücksichtige die Anzahl der betroffenen Personen und die potenziellen Auswirkungen auf die Finanzen, Sicherheit und Compliance. So kannst du leichter feststellen, wie viel Schaden der Vorfall anrichtet und wie dringend das Unternehmen ihn beheben muss.

Die Best Practice besteht in diesem Fall darin, deine Schweregrade und Prioritätsstufen zu definieren, bevor ein Vorfall eintritt. Das macht es für Vorfallmanager einfacher, die Priorität schnell zu ermitteln.

Wenn du Zweifel bezüglich der Prioritätsstufe hast, nimmst du die nächsthöhere. Vorsicht ist schließlich besser als Nachsicht, und so verhinderst du, dass dir etwas Gravierendes durch die Maschen schlüpft.

Nachdem du diese Prioritäten festgelegt hast, gehst du auf alle offenen Vorfälle nach ihrer Priorität ein. Die meisten Unternehmen legen klare Servicevereinbarungen für jede Prioritätsstufe fest, damit Kunden wissen, wie schnell sie eine Antwort und Lösung erwarten können.

Reagieren

Die Incident Response ist ein ziemlich breit gefasster Begriff, deshalb werden wir sie auf die Schritte herunterbrechen, die du mit großer Wahrscheinlichkeit ausführen wirst, sobald du einen Vorfall identifiziert, kategorisiert und priorisiert hast.

Erste Diagnose

Betrachte dies wie eine Triage, die in Krankenhäusern an neuen Patienten vorgenommen wird. Servicedesk-Mitarbeiter stellen eine schnelle Hypothese über das mögliche Problem auf, um dieses selbst zu beheben, oder sie halten sich an geeignete Verfahren, um die richtigen Ressourcen zur Lösung des Problems zusammenzustellen. Bei diesem Schritt können sich Wissensdatenbanken und Diagnosehandbücher als nützliche Hilfsmittel erweisen.

Wenn ein Agent als Erster auf den Vorfall reagiert und ihn basierend auf seiner Erstdiagnose und den verfügbaren Kenntnissen und Tools beheben kann, ist der Vorfall erledigt. Wenn nicht, muss der Vorfall eskaliert werden.

Eskalation von Vorfällen

Dein Supportteam an vorderster Front sollte in der Lage sein, den Großteil der häufigsten Vorfälle zu lösen, ohne sie zu eskalieren. In den Fällen, bei denen dies nicht möglich ist, müssen die richtigen Informationen gesammelt und protokolliert werden, damit der Support schnell informiert wird und den Vorfall umgehend beheben kann.

Untersuchung und Diagnose

ITIL beansprucht dies als eigenen und einzigen Schritt für sich. Tatsächlich zieht er sich durch den gesamten Vorfalllebenszyklus.

Supportmitarbeiter, die als erste auf einen Vorfall reagieren, führen bereits auf gewisse Weise Untersuchungen durch, indem sie Informationen dazu sammeln. Eventuell können sie sogar eine richtige Diagnose stellen und den Vorfall auch ohne Eskalation beheben. In diesem Fall hast du direkt ein paar Schritte übersprungen: Behebung, Wiederherstellung und Schließung von Vorfällen.

In anderen Fällen werden die Schritte "Untersuchung" und "Diagnose" während der Eskalation durchgeführt und Fachleute von außen für die Problemlösung zurate gezogen.

Behebung und Wiederherstellung

Zum Schluss – und idealerweise im Rahmen deines festgelegten Service Level Agreement (SLA) – werden Diagnosen erstellt und die notwendigen Schritte zur Behebung des Vorfalls durchgeführt. Die Wiederherstellung bezieht sich schlicht auf die Zeitdauer, bis Vorgänge vollständig wiederhergestellt werden können. Denn einige Fehlerkorrekturen (wie Bug-Patches usw.) erfordern eventuell noch Tests oder müssen bereitgestellt werden, obwohl die richtige Lösung bereits identifiziert wurde.

Schließung von Vorfällen

Der Vorfall wird anschließend an den Servicedesk zurückgegeben (falls er eskaliert wurde), damit dieser ihn schließt. Um die Qualität aufrechtzuerhalten und einen reibungslosen Ablauf zu gewährleisten, dürfen nur Servicedesk-Mitarbeiter Vorfälle schließen. Der Vorfallverantwortliche sollte sich bei der Person, die den Vorfall gemeldet hat, erkundigen, ob die Lösung zufriedenstellend war und der Vorfall tatsächlich geschlossen werden kann.

Zusammenfassung

Der Vorfallmanagementprozess scheint unnötigerweise bürokratisch zu sein, insbesondere für Mitarbeiter in kleineren Unternehmen. Unabhängig von deiner Teamstruktur ist der Lebenszyklus von Vorfällen jedoch immer derselbe und Eskalationen werden häufig erforderlich sein. Lasse deshalb keine Schritte aus!

Vorfälle gehören zum Alltag. Aber mit einem soliden Vorfallmanagementprozess kannst du die Auswirkungen von Vorfällen reduzieren und Services schnell wiederherstellen.