Close

Vorfallmanagement für High-Velocity-Teams

Best Practices für die Kommunikation rund um Vorfälle

Vorfälle haben für Mitarbeiter in den Bereichen IT und Ops schon immer dazugehört. Heutzutage erhalten auch Teams für DevOps und Kundensupport einen Intensivkurs zur Kommunikation bei Vorfällen.

Unter Vorfallkommunikation versteht man den Prozess für die Benachrichtigung von Benutzern, wenn ein Service ausfällt oder nicht mit der gewohnten Leistung arbeitet. Dies ist besonders bei Web- und Software-Services von Bedeutung, da hier nahtlose Verfügbarkeit erwartet wird.

In Web-Unternehmen reicht es zur Kommunikation bei Vorfällen nicht aus, nur eine Massen-E-Mail zu senden. Es gilt, unterschiedliche Zielgruppen, unterschiedliche Schwellenwerte für Benachrichtigungen und Reaktionserwartungen zu berücksichtigen.

Da gewisse Ausfallzeiten unvermeidbar sind, solltest du am besten vorausplanen und sicherstellen, dass dein Team bereit ist.

Dies ist unser Leitfaden für Best Practices zur Kommunikation bei Vorfällen. Folgende Themen werden behandelt:

  • Warum Kommunikation bei Vorfällen wichtig ist
  • Vorbereiten der Kommunikation bei Vorfällen
  • Wie Profis die Kommunikation bei Vorfällen angehen
  • Warum die Kommunikation bei Vorfällen nicht nach dem Vorfall endet
Diagramm zur Kommunikation bei Vorfällen

Kommunikation bei Vorfällen: Für wen ist sie wichtig?

Kunden und Kollegen möchten benachrichtigt werden, wenn ein Service ausfällt. Werden Ausfälle nicht angemessen gehandhabt, kann dies die Erfahrung deiner Kunden und Teams stark negativ beeinflussen, was sich auf das Geschäftsergebnis auswirken kann. Einige deiner Kunden befürchten vielleicht, dass es zu weiteren Ausfällen kommt, und wechseln zu einem Mitbewerber. Aufgrund mangelnden Vertrauens verlierst du künftige Kunden. Die Teammoral kann leiden und zu einer geringeren Produktivität führen. Und auch Empfehlungen über Mundpropaganda werden rasant abnehmen.

Glücklicherweise müssen ungeplante Ausfälle nicht zu einem Albtraum für den Kundenservice werden. In Wirklichkeit bringen Kunden in der Regel Verständnis auf und reagieren nicht negativ auf die Situation, wenn du sie auf dem Laufenden hältst und ihnen mitteilst, was los ist und was du dagegen unternimmst.

Vorbereiten der Kommunikation bei Vorfällen

"Prior proper preparation prevents poor performance" (Eine gute Vorbereitung verhindert schlechte Leistungen): Diesen Leitgedanken solltest du auch auf deine Strategie für die Kommunikation bei Vorfällen anwenden. Ist ein Vorfall erst einmal aufgetreten, wirst du froh sein, dass du schon vorab Zeit in die Kommunikation investiert hast.

Definieren, was als Vorfall gilt

Bevor wir Vorfälle kommunizieren können, müssen wir entscheiden, was einen Vorfall ausmacht. Viele Web-Unternehmen verwenden dafür ein standardisiertes vierstufiges System zur Definition des Schweregrads. Hier findest du einen hilfreichen Leitfaden zu Schweregraddefinitionen aus unserem eigenen Handbuch zum Vorfallmanagement.

Unabhängig von deinen Schwellenwerten für den Schweregrad von Vorfällen ist es wichtig, klare Grenzen zu ziehen (idealerweise unter Verwendung einer messbaren Metrik). Wenn du einem Vorfall den Schweregrad 1 zuweist, sollte jeder in deinem Team genau wissen, was das bedeutet.

Ein Schweregradsystem ist auch hilfreich, um die mit Ausfällen verbundenen Grauzonen zu vermeiden.

Ganz gleich, für welches System du dich entscheidest: Wir empfehlen dir für alle Vorfälle, bei denen es um Sicherheitsprobleme oder Datenverlust geht, einen Null-Toleranz-Kommunikationsplan.

Kommunikationslösungen, Kanäle und Nachrichtenvorlagen im Voraus auswählen

Professionelle Supportteams und Site Reliability Engineers überlegen sich nicht spontan, über welche Kanäle sie kommunizieren. Sie erstellen im Voraus einen Plan.

Für die Kommunikation bei Vorfällen gibt es im Wesentlichen sechs Kommunikationskanäle:

  • Eine dedizierte Statusseite
  • Integrierter Status
  • E-Mail
  • Chattool am Arbeitsplatz
  • Soziale Medien
  • SMS

Dedizierte Statusseite

Wir empfehlen Teams, als primäre Lösung für die Kommunikation rund um Vorfälle eine dedizierte Statusseite zu verwenden. Egal, ob du sie selbst erstellst oder eine gehostete Lösung wie Statuspage verwendest: Es ist wichtig, deinen Kunden und Kollegen während eines Vorfalls eine eindeutige Informationsquelle zur Verfügung zu stellen. Statuspage bietet deinen Benutzern auch die Möglichkeit, Updates zu abonnieren und sie so unmittelbar nach der Veröffentlichung zu erhalten. Dies entlastet die Teams, die sich voll und ganz auf die Behebung des Problems konzentrieren sollten, von Supportaufgaben.

Integrierter Status

Mit Statuspage können unsere Kunden Statusinformationen direkt in jede Website einbetten, die sie betreiben. Wir wissen, dass die meisten Besucher wahrscheinlich auf der Startseite oder Supportseite eines Anbieters nachsehen, bevor sie nach einer Statusseite suchen. Das eingebettete Widget (hier ein Beispiel) ist eine einfache Möglichkeit, diese Besucher wissen zu lassen, ob ein Vorfall aufgetreten ist. Besucher können auch per Klick auf das Widget zur Statusseite gelangen.

E-Mail

Mit einem Produkt wie Statuspage kannst du deiner Zielgruppe die Möglichkeit geben, E-Mail-Updates zu abonnieren. Egal, ob du Nachrichten direkt von deinem E-Mail-Programm aus versendest oder eine Statusseite nutzt, um den Versand von E-Mails auszulösen, E-Mail ist ein zuverlässiger Kanal für die Kommunikation von Vorfällen.

Chattools

Reduziere Kontextwechsel und Informationslücken für Mitarbeiter und Agenten mit Jira Service Management Chat. Jira Service Management Chat synchronisiert Unterhaltungen in Slack oder Microsoft Teams mit deinen Tickets. Der nahtlose Austausch mit dem Support über gängige Chat-Tools vereinfacht es, Kontext zu einem Problem bereitzustellen, was eine schnelle Lösung befördert.

Soziale Medien

Viele Teams kommunizieren während eines Vorfalls über Social Media wie Twitter. Soziale Netzwerke sind als Bestandteil deiner Strategie durchaus sinnvoll, sollten aber nicht das einzige Kommunikationsmittel sein.

SMS

SMS- oder Textnachrichten bieten die Möglichkeit, jemanden direkt zu erreichen. Viele Menschen bevorzugen diesen Kommunikationsweg, wenn es um wichtige Warnungen wie die Bekanntgabe eines Ausfalls geht. Bei diesem Kanal besteht jedoch auch das Risiko, dass die Benachrichtigungen den Benutzern zu viel werden und sie sich abmelden, wenn sie zu viele Nachrichten erhalten, die für sie nicht relevant sind.

Keiner dieser Kanäle bietet eine Patentlösung für die Kommunikation bei Vorfällen. Sie haben alle unterschiedliche Vorteile und entfalten erst in Kombination ihre volle Wirkung. Wir veröffentlichen Vorfälle beispielsweise auf einer Statusseite, übertragen diese Updates aber auch an Twitter. Auch auf unserem Jira Service Management-Portal wird der Vorfall gemeldet. Benutzer werden über entsprechende Nachrichten zur Statusseite weitergeleitet, wo weitere Details zum Vorfall zu finden sind. Die Vorfallverwaltung in Jira Service Management unterstützt mehrere Kanäle, ohne dass es zu Fehlkommunikationen kommt oder das Kundenvertrauen auf der Suche nach einer Lösung leidet.

Warnmeldungen und Nachrichten zielgruppengerecht gestalten

Kommt es zu einem Vorfall, gilt es, den richtigen Ansprechpartner mit möglichst wenig Aufwand so schnell wie möglich zu erreichen, möchte man keinen Kundenservice-Albtraum oder ein Kommunikationschaos riskieren. Am besten gelingt dies, indem man von innen nach außen arbeitet, beginnend mit einem Notfallreaktionsteam und der anschließenden Vorbereitung von Nachrichten an die jeweiligen Zielgruppen.

Jede Organisation ist anders aufgebaut, im Wesentlichen aber betrifft die Kommunikation 5 Zielgruppen:

  1. On-Call-Kernteam: Die ersten Mitarbeiter, die bei Auftreten eines Problems fast sofort mitbekommen, dass etwas nicht stimmt (normalerweise über Überwachungs- und Alarmierungstools). Hinter den Kulissen arbeiten die internen Teams daran, Vorfälle zu identifizieren, zu isolieren, mit mehr Kontext zu versehen und zu lösen. Dabei nutzen sie Teamkommunikationstools.
  2. Frontline-Supportteam: Diese Mitarbeiter stehen in direktem Kundenkontakt, beantworten Fragen und halten die Kunden über die aktuelle Entwicklung auf dem Laufenden. Diesem Team fällt eine zentrale Rolle zu und es muss mit korrekten Informationen versorgt werden, die es an die Endbenutzer weitergeben kann.
  3. Management und Führungsteam: Das Kernteam informiert diese Gruppe über die aktuellen Entwicklungen, die möglichen Auswirkungen auf die beiden nachgeordneten Teams und die geschätzte Dauer bis zur Lösung des Problems.
  4. Alle anderen Mitarbeiter: Das restliche Personal muss über den Verfügbarkeitsstatus arbeitsrelevanter Services informiert werden. Es empfiehlt sich, diese Benutzergruppe aktiv auf dem Laufenden zu halten, um ständige Nachfragen und duplizierte IT-Supporttickets zu vermeiden. Dadurch bleibt mehr Zeit für die Suche nach einer Lösung für das Problem.
  5. Externe Kunden: Sind von dem Vorfall externe Kunden betroffen, sollte eine Mitteilung verschickt werden, in der das Problem erläutert und eine zeitliche Prognose für eine Lösung abgegeben wird. Auf jeden Fall sind regelmäßige Updates erforderlich. Bei Problemen, die die Nutzung deines Produkts durch deine Kunden anhaltend beeinträchtigen, empfehlen wir, mindestens jede Stunde ein Update zu senden. Gib auch immer an, wann das nächste Update zu erwarten ist. Wenn es sich um einen schwerwiegenden Vorfall handelt – zum Beispiel die Sicherheit oder Datenverlust betreffend –, solltest du die externe Kommunikation beschleunigen und relevante andere Teams (Rechtsabteilung, Personalabteilung, Sicherheit usw.) hinzuziehen.

Vorlagen für die Kommunikation bei Vorfällen und Ausfällen erstellen

Wenn es bei einem Vorfall hoch hergeht, hast du sicher nicht die Nerven, dir Gedanken über die Formulierung einer Mitteilung zum Vorfall zu machen. Eine falsche Formulierung kann allerdings eine Steilvorlage für nichttechnische Manager sein, die ohnehin nach einem Grund suchen, den Reaktionsprozess deines Teams zu kritisieren.

Lege vorab gängige Formulierungen fest, lasse sie von deinen Managern genehmigen, und speichere sie in einer Vorlage. Im Bedarfsfall können dann ganz einfach die relevanten Details hinzugefügt werden, und die Ankündigung ist bereit zum Versenden.

Hier sind zwei der Vorfallvorlagen, die wir für unsere eigene Statusseite verwenden:

  • Die Website hat derzeit eine höhere Auslastung als normal, was dazu führen kann, dass Seiten langsam oder gar nicht geladen werden. Wir untersuchen das Problem gerade und werden so schnell wie möglich aktuelle Informationen zur Verfügung stellen.
  • Bei unserem Speicheranbieter für Daten zu öffentlichen Metriken treten derzeit Infrastrukturprobleme auf. Sobald uns weitere Informationen vorliegen, werden wir diese mitteilen.

Sieh dir in unserer Bibliothek für Vorfallvorlagen weitere Beispiele an.

Professionelles Kommunikationsmanagement

Der Lebenszyklus eines Vorfalls umfasst wahrscheinlich mehrere Kontaktpunkte. Im Idealfall verläuft ein Vorfall in drei Phasen: erster Kontakt, Aktualisierungen während des Vorfalls, Behebung und Post-Mortem-Analyse.

Prolog: Zentralisierte interne Teamkommunikation

Das wichtigste Hilfsmittel für interne Teams im Backend eines Vorfalls ist eine etablierte Kommunikationsplattform, die es ihnen ermöglicht, sofort an die Arbeit zu gehen, sobald ein Problem auftritt.

Durch eine Zentralisierung und Filterung von Warnmeldungen aus den vorhandenen Überwachungs-, Protokollierungs- und CI/CD-Tools ist sichergestellt, dass dein Team schnell reagieren kann. Mit einer Plattform wie Jira Service Management können Teams Vorfälle schnell bearbeiten, Informationen darüber gewinnen und während der gesamten Dauer eines Vorfalls in Kontakt bleiben.

Teil 1: Erster Kontakt

Die erste Benachrichtigung ist die wichtigste. Was du sagst, wie du es sagst und wann du es sagst, wirkt sich darauf aus, wie deine Reaktion wahrgenommen wird. Hier ist es wirklich hilfreich, eine vorab erstellte Vorlage zur Hand zu haben.

Dein Ziel sollte es sein, das Problem schnell einzuräumen, die bekannten Auswirkungen kurz zusammenzufassen, weitere aktuelle Informationen zu versprechen und nach Möglichkeit Bedenken hinsichtlich Sicherheit oder Datenverlust auszuräumen. Selbst wenn dir noch keine näheren Details bekannt sind, ist es wichtig anzuerkennen, dass ein Problem vorliegt.

Teil 2: Regelmäßige aktuelle Informationen während des Vorfalls

Die Kommunikation während eines Vorfalls ist von entscheidender Bedeutung.

Laut den SRE-Teams bei Google zählt der Communication Lead zu den Schlüsselrollen, die während eines Vorfalls ausgefüllt werden sollten.

Im Buch "Site Reliability Engineering" von Google ist zur Rolle des Communication Lead Folgendes zu lesen:

"Diese Person ist das öffentliche Gesicht der Task Force zur Incident Response. Zu ihren Aufgaben gehört auf jeden Fall die regelmäßige Weitergabe aktueller Informationen an das Incident-Response-Team und die Stakeholder (normalerweise per E-Mail). Eine weitere Aufgabe besteht darin, dafür zu sorgen, dass die Vorfalldokumentation korrekt und auf dem aktuellen Stand ist.

Diese Person ist auch dafür zuständig, bei Veränderungen die Statusseite weiter zu aktualisieren oder neue Informationen in anderen Kanälen zu veröffentlichen. Sogar eine Mitteilung wie "Wir arbeiten immer noch am Problem. Derzeit gibt es nichts Neues zu berichten." ist besser, als nichts zu sagen und die Zielgruppen in der Luft hängen zu lassen. Wer im Dunkeln gelassen wird, geht vom Schlimmsten aus.

Die betroffenen Nutzer und Stakeholder müssen regelmäßig informiert werden. Jede Kommunikation sollte über vorher festgelegte Kanäle erfolgen. Auf einer Homepage kann dies eine Statuspage-Warnung sein, die Kunden gegenüber klarstellt, dass sich dein Team des Problems bewusst ist und sich darum kümmert. Das entlastet auch deine Supportmitarbeiter, die nicht auf ständige Nachfragen antworten müssen. Um die Kunden auf dem Laufenden zu halten, können Benachrichtigungen über verschiedene Kanäle wie SMS, E-Mails und Push-Benachrichtigungen auf Mobilgeräten verwendet werden.

Welches Tool du auch verwendest, wir empfehlen, eines davon als primäres Kommunikationsmittel zu definieren und alle Anfragen aus anderen Kanälen dorthin umzuleiten. Wenn du für deine Vorfallkommunikation Jira Service Management verwendest, kannst du sicher sein, dass deine Nachrichten die richtigen Personen erreichen.

Teil 3: Behebung, Post-Mortem-Analyse, nächste Schritte

Im Jahr 2010 erlebte Facebook seinen bisher größten Ausfall. Etwa 2,5 Stunden lang war das soziale Netzwerk für Millionen seiner damals 0,5 Milliarden Benutzer nicht verfügbar.

Der Zeitpunkt hätte für den aufstrebenden Technologieriesen nicht ungünstiger sein können: Er befand sich am Beginn seines explosiven Benutzerwachstums und war noch dabei, der Geschäftswelt zu beweisen, dass der Service den Hype wert war.

Als sich die Aufregung legte, veröffentlichte ein Facebook-Techniker eine 395 Wörter lange Zusammenfassung des Engineering-Blogs des Unternehmens zum Vorfall.

Aus dem Blog:

Heute Morgen war Facebook für viele von euch etwa 2,5 Stunden lang nicht erreichbar. Dies ist der schlimmste Ausfall, den wir seit über vier Jahren hatten, und wir möchten uns zuallererst dafür entschuldigen. Außerdem möchten wir näher auf die technischen Details des Vorfalls eingehen und eine wichtige Lektion mit euch teilen, die wir bei dieser Gelegenheit gelernt haben.

Die Post-Mortem-Analyse lässt sich ganz einfach folgendermaßen skizzieren:

  • Das Problem eingestehen, Verständnis für die Betroffenen zeigen und sich entschuldigen
  • Erklären, was schiefgelaufen ist und warum
  • Erklären, was getan wurde, um den Vorfall zu beheben, und was unternommen wurde, um weitere Vorfälle dieser Art zu vermeiden
  • Noch einmal das Problem eingestehen, Verständnis zeigen und sich entschuldigen

Bei derartigen Mitteilungen braucht es keine blumige Sprache oder großspurige Versprechungen. Halte es einfach und direkt. Ein Beispiel aus dem Facebook-Blog:

Wir entschuldigen uns noch einmal für den Ausfall der Website und möchten euch versichern, dass wir die Leistung und Zuverlässigkeit von Facebook sehr ernst nehmen.

Eine solche Ausdrucksweise lässt Kunden und Kollegen darauf vertrauen, dass du ein souveränes Team hast und an dem Problem dranbleibst. Schau dir für weitere Anregungen unsere Vorlage für die Post-Mortem-Analyse von Vorfallreaktionen an.

Die Realität beim Betrieb ständig verfügbarer Services ist, dass es manchmal zu unerwarteten Vorfällen kommt. Eine effektive Kommunikation bei einem Ausfall kann Vertrauen bei Kollegen und Kunden schaffen. Entscheidend ist eine angemessene Reaktion. Wir haben auch dieses einfache Tool entwickelt, um dir zu helfen, bei Vorfällen schnell effektive Mitteilungen zu erstellen.

Dargestellte Produkte
Statuspage-Logo

Informiere Benutzer in Echtzeit über den Status von Services.

Weiter geht's
Templates