Close

Vorfallmanagement für High-Velocity-Teams

Optimierung des Vorfallmanagements für den IT-Betrieb

Ausfälle wirken sich auf das Geschäftsergebnis aus.

Ausfallzeiten bedeuten oft nicht nur Umsatzeinbußen, sondern auch Imageschäden, (behördliche) Strafen wegen Nichteinhaltung von Vorschriften, Verlust von Kunden und eine Zunahme der Betriebskosten und Verzögerungen, weil IT-Experten zur Lösung von Vorfällen von anderen Projekten abgezogen werden.

Laut einem Bericht von IHS belaufen sich die Ausfallkosten in nordamerikanischen Unternehmen auf über 700 Milliarden US-Dollar pro Jahr; 78 % dieser Kosten sind auf die verlorene Mitarbeiterproduktivität zurückzuführen.

Die Grafik auf Seite 9 zeigt IT-Ausfallzeiten. Sie hebt hervor, dass die Mitarbeiterproduktivität bei Weitem die größten Kosten verursacht. IT-Ausfallzeiten kosten Unternehmen in Nordamerika jährlich 700 Milliarden US-Dollar, die hauptsächlich auf Verluste bei der Mitarbeiterproduktivität zurückzuführen sind.

Zahlen wie diese machen deutlich, dass entgangene Einnahmen weder die einzige noch die wichtigste Priorität für das Vorfallmanagement sind. Ein optimierter Vorfallmanagementprozess muss auch auf die realen, sehr teuren Herausforderungen von Mitarbeitern, Prozessen und Technologien hinter dem Vorfallmanagement eingehen.

Die Herausforderungen des modernen IT-Vorfallmanagements

Voneinander getrennte Prozesse und Technologien

Ein Nebeneffekt von 40 Jahren Innovationen im Computing-Bereich besteht darin, dass viele Unternehmen heute eine vielseitige Mischung aus Anwendungen und Systemen betreiben.F Einige Anwendungen sind in ihren eigenen Rechenzentren untergebracht, in denen sie eng kontrolliert werden können; andere werden hingegen in der Cloud bereitgestellt und von Drittanbietern verwaltet.

Dieses Sammelsurium an Anwendungen, Services und Systemen führt häufig zu einem lose verbundenen Patchwork aus Lösungen und Prozessen für die Protokollierung, Überwachung und Alarmierung. Es ist nicht ungewöhnlich, dass Unternehmen täglich Dutzende von Überwachungstools verwenden, um Tausende von Anwendungsereignissen oder Warnmeldungen nachzuverfolgen.

Dieser Patchwork-Ansatz kann zu einer überwältigenden Anzahl an Warnmeldungen, zum Zusammenbruch der Kommunikation und zum Fehlen von klaren Prioritäten für Bereitschaftsmitarbeiter führen. Es kann zudem passieren, dass das Scheitern einer Phase dieses Patchwork-Prozesses den übergeordneten Prozess zum Erliegen bringt.

Eine überwältigende Anzahl Warnmeldungen/Vorfälle

Viele IT-Abteilungen leiten Warnmeldungen an E-Mail-Posteingänge weiter, um dem Volumen Herr zu werden. Aber das macht die Sache nur noch schlimmer, weil E-Mails rund um die Uhr von höherrangigen Mitarbeitern überwacht werden müssen, die für die Priorisierung von Vorfällen und die Eskalation kritischer Nachrichten zuständig sind.

Dieser nie endende Strom von Warnmeldungen kann überwältigend sein und zu Alarm-Fatigue, Burn-out, Unzufriedenheit mit der Arbeit, Ängsten und längeren Reaktionszeiten führen. Dies wirkt sich sowohl auf das Wohlergehen der Mitarbeiter am Arbeitsplatz als auch auf die Produktivität aus. Und das spiegelt sich direkt im Geschäftsergebnis wider.

Steigende Betriebskosten

Während die Infrastrukturkosten gesunken sind, sind die Betriebskosten gestiegen. Das liegt teilweise daran, dass die Behebung von Fehlern komplex ist, wenn du nicht das gesamte System kontrollierst.

Messen der falschen Erfolgsmetriken

Der Erfolg des Servicedesk-Betriebs wurde häufig mit Metriken wie dem Anrufdurchsatz und der mittleren Gesprächsdauer gemessen, von denen keine zur Effektivität des Vorfallmanagements beiträgt oder zur direkten Messung desselben taugt.

Sogar nützliche Metriken wie die MTTR (durchschnittliche Wiederherstellungszeit) und die MTBF (durchschnittliche Zeit zwischen Ausfällen) reichen allein nicht aus, um die Leistung des Vorfallmanagements zu verbessern. Sie unterstützen uns bei der Identifizierung von Vorfällen, können aber die kniffligeren, quantitativen Fragen nicht beantworten. Beispielsweise warum und wie Vorfälle auftreten, wie sie behoben werden und wie diese Metriken verbessert werden können.

Veraltete Strukturen im Incident-Response-Team

Noch vor zehn Jahren war das Reagieren auf IT-Vorfälle in erster Linie die Aufgabe von Operations-Teams. Unternehmen hatten in der Regel eine gestaffelte Teamstruktur (d. h. Level 1, Level 2, Level 3), um auf Vorfälle zu reagieren, die von Kunden oder Überwachungstools gemeldet wurden.

Damals waren die Ziele des Vorfallmanagements dieselben: Minimierung der Betriebskosten bei gleichzeitiger Einhaltung der Servicelevel. Aus diesem Grund waren Vorfallverantwortliche auf Level 1 in der Regel geringer bezahlte Berufseinsteiger. Wenn sie einen Vorfall nicht beheben konnten, eskalierten sie ihn an Level 2 (in der Regel Kollegen mit mehr Berufserfahrung). Dieser Eskalationsprozess wurde fortgesetzt, bis der Vorgang erledigt war.

Bei diesem Prozess werden vor allem Kosteneinsparungen priorisiert, darunter leidet aber die Agilität. Die langsamere Reaktionszeit eines Teams, das Vorfälle zunächst von Berufseinsteigern handhaben lässt und mehrere Eskalationsebenen erfordert, kann sich unmittelbar auf die Zeitpläne zur Behebung von Vorfällen auswirken. Und das wirkt sich direkt auf die Reputation des Unternehmens aus, weil Kunden ihrem Ärger in den sozialen Medien Luft machen.

Da Unternehmen beim Vorfallmanagement 78 % an Mitarbeiterproduktivität einbüßen, ist es ziemlich klar, dass ein Eskalationsmodell einem Unternehmen keine Einsparungen bringt. Wenn der Entwickler der Software den Fehler in 15 Minuten beheben kann, der Berufsneuling aber zwei Stunden daran arbeitet und ihn trotzdem eskalieren muss, ist das kein effizientes System.

In einer Welt, in der Services rund um die Uhr verfügbar sein müssen, ist Agilität wichtiger denn je geworden. Metriken wie die mittlere Reaktionszeit und die mittlere Problemlösungszeit haben gerade deshalb Fuß gefasst, weil Unternehmen die Agilität maximieren müssen, um die Kosten zu verringern.

So optimierst du deinen IT-Vorfallmanagementprozess

Es ist eindeutig an der Zeit für eine Neuausrichtung unseres Vorfallmanagements mit Prozessen, Teamstrukturen und Verfahren, die die aktuellen Geschäftsgegebenheiten widerspiegeln. Aber wie sieht dieser Umorientierungsprozess aus?

Priorisiere und konsolidiere Warnmeldungen

Die große Anzahl bedeutungsloser Warnmeldungen, auf die nicht reagiert werden muss, ist die Hauptursache für Alarm-Fatigue und trägt erheblich zu Produktivitätseinbußen bei. Die einfachste Lösung? Identifiziere kritische Systeme, dedupliziere redundante Benachrichtigungen und erstelle eine klare Hierarchie für die Priorisierung von Warnmeldungen.

Erstelle einen Bereitschaftsplan, der auf deine Teams zugeschnitten ist

Die Vermeidung von Alarm-Fatigue, Burnout und Ineffizienzen bedeutet auch, einen Bereitschaftsplan zu erstellen, der auf deine Teams zugeschnitten ist. Das bedeutet, dass du keine Person und kein Team überlastest, bei Bedarf zusätzliche Unterstützung bereitstellst und die Effektivität deines Zeitplans regelmäßig neu bewertest.

Automatisiere, wo immer dies möglich ist

Wenn du Dutzende von Berichten manuell durchsuchen musst, um die wirklich wichtigen zu identifizieren und zu eskalieren, kannst du schon mal den Überblick verlieren. Glücklicherweise ist dies kein Vorgang mehr, der von einem Teammitglied manuell durchgeführt werden muss. Du kannst Produktivitätsverluste und Alarm-Fatigue vermeiden, indem du Berichte mithilfe von Automatisierung aus der Aufgabenliste entfernst.

Die Weiterleitung von Warnmeldungen, Benachrichtigungen, Deduplizierung, Nachrichtenworkflows, Erstellung von Konferenzschaltungen, Aktualisierungen der Statusseite, Erstellung von Bereitschaftsplänen, Eskalationsprozesse und KPI-Nachverfolgung können ebenfalls ganz oder teilweise automatisiert werden. So kann das Team Zeit sparen und menschliche Fehler bei vorgegebenen, repetitiven Aufgaben reduzieren. Abgesehen davon bringt die Automatisierung dem Unternehmen mit der Zeit Einsparungen.

Kommuniziere effektiv über mehrere Kanäle und mit allen Stakeholdern

Vorfälle betreffen eine Vielzahl von Stakeholdern – häufig sowohl intern als auch extern – und diese Stakeholder müssen informiert werden. Studien zeigen, dass 87 % der geschäftlichen Stakeholder über Vorfälle informiert werden wollen (56 % ärgern sich stärker über mangelnde Kommunikation als über den Vorfall selbst). Das Gleiche gilt definitiv auch für Kunden.

In einer Zeit, in der eine durchgängige Verfügbarkeit erwartet wird, ist das Vorhandensein eines soliden Plans zur Kommunikation von Vorfällen ein wesentlicher Bestandteil des Optimierungsprozesses.

Vereinfache die Nachverfolgung der richtigen Metriken

Je einfacher du Erfolgsmetriken nachverfolgen und überprüfen kannst, desto wahrscheinlicher ist es, dass dein Team sich an diese hält. Automatisiere die Berichterstellung, wo es möglich ist, und kläre im Voraus ab, welche Metriken für dein Team wichtig sind und warum.

Führe Post-Mortem-Analysen ohne Schuldzuweisungen durch

Ein Vorfall ist noch nicht beendet, nur weil die Anwendung oder die Datenbank wieder online ist. Um Vorfälle zu vermeiden, den Zeitaufwand für zukünftige Vorfälle zu reduzieren und besser nachvollziehen zu können, wie sich deine Prozesse, Teams und Richtlinien auf dein Vorfallmanagement auswirken, musst du Post-Mortem-Analysen durchführen.

Bei Atlassian werden Post-Mortem-Analysen ohne Schuldzuweisungen durchgeführt. Das heißt, dass sie sich auf die Verbesserung der Leistung und das weitere Vorgehen konzentrieren und nicht darauf, einen Schuldigen zu suchen.

Entscheide dich für eine Technologie, die deine Prozesse und Anforderungen unterstützt

Automatisierung. Priorisierung von Warnmeldungen. Bereitschaftspläne. KPI-Nachverfolgung. Damit jeder dieser Prozesse effektiv sein kann, benötigt er eine Technologie, die ihn unterstützt. Bevor du dich für eine Technologie entscheidest, solltest du sicherstellen, dass du deine Ziele, Prozesse und Teamanforderungen verstehst. Wenn du Warnmeldungen automatisch organisieren, deduplizieren und priorisieren möchtest, benötigst du eine Lösung mit den entsprechenden Funktionen – wie zum Beispiel Jira Service Management.