Close

Der Weg zu einem besseren Vorfallmanagement beginnt hier

Best Practices für die Kommunikation rund um Vorfälle

Incidents have always been a fact of life for people in IT and Ops. Today, it’s also DevOps and customer support teams getting a crash course in incident communication.

Unter Vorfallkommunikation versteht man den Prozess für die Benachrichtigung von Benutzern, wenn ein Service ausfällt oder nicht mit der gewohnten Leistung arbeitet. Dies ist besonders bei Web- und Software-Services von Bedeutung, da hier nahtlose Verfügbarkeit erwartet wird.

In Web-Unternehmen reicht es zur Kommunikation bei Vorfällen nicht aus, nur eine Massen-E-Mail zu senden. Es gilt, unterschiedliche Zielgruppen, unterschiedliche Schwellenwerte für Benachrichtigungen und Reaktionserwartungen zu berücksichtigen.

Da gewisse Ausfallzeiten unvermeidbar sind, solltest du am besten vorausplanen und sicherstellen, dass dein Team bereit ist.

Dies ist unser Leitfaden für Best Practices zur Kommunikation bei Vorfällen. Folgende Themen werden behandelt:

  • Warum Kommunikation bei Vorfällen wichtig ist
  • Vorbereiten der Kommunikation bei Vorfällen
  • Wie Profis die Kommunikation bei Vorfällen angehen
  • Warum die Kommunikation bei Vorfällen nicht nach dem Vorfall endet
Diagramm zur Kommunikation bei Vorfällen

Kommunikation bei Vorfällen: Für wen ist sie wichtig?

Kunden und Kollegen möchten benachrichtigt werden, wenn ein Service ausfällt. Werden Ausfälle nicht angemessen gehandhabt, kann dies die Erfahrung deiner Kunden und Teams stark negativ beeinflussen, was sich auf das Geschäftsergebnis auswirken kann. Einige deiner Kunden befürchten vielleicht, dass es zu weiteren Ausfällen kommt, und wechseln zu einem Mitbewerber. Aufgrund mangelnden Vertrauens verlierst du künftige Kunden. Die Teammoral kann leiden und zu einer geringeren Produktivität führen. Und auch Empfehlungen über Mundpropaganda werden rasant abnehmen.

Glücklicherweise müssen ungeplante Ausfälle nicht zu einem Albtraum für den Kundenservice werden. In Wirklichkeit bringen Kunden in der Regel Verständnis auf und reagieren nicht negativ auf die Situation, wenn du sie auf dem Laufenden hältst und ihnen mitteilst, was los ist und was du dagegen unternimmst.

Vorbereiten der Kommunikation bei Vorfällen

"Prior proper preparation prevents poor performance" (Eine gute Vorbereitung verhindert schlechte Leistungen): Diesen Leitgedanken solltest du auch auf deine Strategie für die Kommunikation bei Vorfällen anwenden. Ist ein Vorfall erst einmal aufgetreten, wirst du froh sein, dass du schon vorab Zeit in die Kommunikation investiert hast.

Definieren, was als Vorfall gilt

Bevor wir Vorfälle kommunizieren können, müssen wir entscheiden, was einen Vorfall ausmacht. Viele Web-Unternehmen verwenden dafür ein standardisiertes vierstufiges System zur Definition des Schweregrads. Hier findest du einen hilfreichen Leitfaden zu Schweregraddefinitionen aus unserem eigenen Handbuch zum Vorfallmanagement.

Unabhängig von deinen Schwellenwerten für den Schweregrad von Vorfällen ist es wichtig, klare Grenzen zu ziehen (idealerweise unter Verwendung einer messbaren Metrik). Wenn du einem Vorfall den Schweregrad 1 zuweist, sollte jeder in deinem Team genau wissen, was das bedeutet.

Ein Schweregradsystem ist auch hilfreich, um die mit Ausfällen verbundenen Grauzonen zu vermeiden.

Ganz gleich, für welches System du dich entscheidest: Wir empfehlen dir für alle Vorfälle, bei denen es um Sicherheitsprobleme oder Datenverlust geht, einen Null-Toleranz-Kommunikationsplan.

Kommunikationslösungen, Kanäle und Nachrichtenvorlagen im Voraus auswählen

Professionelle Supportteams und Site Reliability Engineers überlegen sich nicht spontan, über welche Kanäle sie kommunizieren. Sie erstellen im Voraus einen Plan.

Für die Kommunikation bei Vorfällen gibt es im Wesentlichen sechs Kommunikationskanäle:

  • Eine dedizierte Statusseite
  • Integrierter Status
  • E-Mail
  • Chattool am Arbeitsplatz
  • Soziale Medien
  • SMS

Dedizierte Statusseite

Wir empfehlen Teams, als primäre Lösung für die Kommunikation rund um Vorfälle eine dedizierte Statusseite zu verwenden. Egal, ob du sie selbst erstellst oder eine gehostete Lösung wie Statuspage verwendest: Es ist wichtig, deinen Kunden und Kollegen während eines Vorfalls eine eindeutige Informationsquelle zur Verfügung zu stellen. Statuspage bietet deinen Benutzern auch die Möglichkeit, Updates zu abonnieren und sie so unmittelbar nach der Veröffentlichung zu erhalten. Dies entlastet die Teams, die sich voll und ganz auf die Behebung des Problems konzentrieren sollten, von Supportaufgaben.

Integrierter Status

Mit Statuspage können unsere Kunden Statusinformationen direkt in jede Website einbetten, die sie betreiben. Wir wissen, dass die meisten Besucher wahrscheinlich auf der Startseite oder Supportseite eines Anbieters nachsehen, bevor sie nach einer Statusseite suchen. Das eingebettete Widget (hier ein Beispiel) ist eine einfache Möglichkeit, diese Besucher wissen zu lassen, ob ein Vorfall aufgetreten ist. Besucher können auch per Klick auf das Widget zur Statusseite gelangen.

E-Mail

Wie wir gerade erwähnt haben, bietet ein gutes Statusseiten-Tool deiner Zielgruppe die Möglichkeit, E-Mail-Updates zu abonnieren. Selbst wenn du Nachrichten direkt über dein E-Mail-Tool sendest, statt zum Auslösen von E-Mail-Nachrichten eine Statusseite zu verwenden, ist dies ein guter Kanal für die Kommunikation bei Vorfällen.

Chattools

Chattools wie Slack sind seit einigen Jahren aus den meisten Unternehmen nicht mehr wegzudenken. Viele Teams richten eine eigene Einsatzzentrale für die Kommunikation rund um Vorfälle ein oder eröffnen für jeden Vorfall einen neuen Raum. Du kannst dir hier unsere Integrationen mit Chattools ansehen.

Soziale Medien

Viele Teams kommunizieren während eines Vorfalls über Social Media wie Twitter. Soziale Netzwerke sind als Bestandteil deiner Strategie durchaus sinnvoll, sollten aber nicht das einzige Kommunikationsmittel sein.

Keiner dieser Kanäle bietet eine Patentlösung für die Kommunikation bei Vorfällen. Sie haben alle unterschiedliche Vorteile und entfalten erst in Kombination ihre volle Wirkung. Wir veröffentlichen Vorfälle beispielsweise auf einer Statusseite, übertragen diese Updates aber auch an Twitter. Auch unsere Web-App ist integriert. Benutzer werden über entsprechende Nachrichten zur Statusseite weitergeleitet, wo weitere Details zum Vorfall zu finden sind. Wir empfehlen dir, einen Kanal als zentrales Kommunikationsmittel festzulegen und alle Benutzer aus den anderen Kanälen dorthin weiterzuleiten.

SMS

SMS- oder Textnachrichten bieten dir häufig die Möglichkeit, jemanden direkt zu erreichen. Viele Menschen bevorzugen diesen Kommunikationsweg, wenn es um wichtige Warnungen wie die Bekanntgabe eines Ausfalls geht. Bei diesem Kanal besteht jedoch auch das große Risiko, dass die Benachrichtigungen den Benutzern zu viel werden und sie sich abmelden, wenn sie zu viele Nachrichten erhalten, die für sie nicht relevant sind.

Vorlagen für die Kommunikation bei Vorfällen und Ausfällen erstellen

Wenn es bei einem Vorfall hoch hergeht, hast du sicher nicht die Nerven, dir Gedanken über die Formulierung einer Mitteilung zum Vorfall zu machen. Eine falsche Formulierung kann allerdings eine Steilvorlage für nichttechnische Manager sein, die ohnehin nach einem Grund suchen, den Reaktionsprozess deines Teams zu kritisieren.

Lege vorab gängige Formulierungen fest, lasse sie von deinen Managern genehmigen, und speichere sie in einer Vorlage. Im Bedarfsfall können dann ganz einfach die relevanten Details hinzugefügt werden, und die Ankündigung ist bereit zum Versenden.

Hier sind zwei der Vorfallvorlagen, die wir für unsere eigene Statusseite verwenden:

  • Die Website hat derzeit eine höhere Auslastung als normal, was dazu führen kann, dass Seiten langsam oder gar nicht geladen werden. Wir untersuchen das Problem gerade und werden so schnell wie möglich aktuelle Informationen zur Verfügung stellen.
  • Bei unserem Speicheranbieter für Daten zu öffentlichen Metriken treten derzeit Infrastrukturprobleme auf. Sobald uns weitere Informationen vorliegen, werden wir diese mitteilen.

Sieh dir in unserer Bibliothek für Vorfallvorlagen weitere Beispiele an.

Professionelles Kommunikationsmanagement

Der Lebenszyklus eines Vorfalls umfasst wahrscheinlich mehrere Kontaktpunkte. Im Idealfall verläuft ein Vorfall in drei Phasen: erster Kontakt, Aktualisierungen während des Vorfalls, Behebung und Post-Mortem-Analyse.

Teil 1: Erster Kontakt

Die erste Benachrichtigung ist die wichtigste. Was du sagst, wie du es sagst und wann du es sagst, wirkt sich darauf aus, wie deine Reaktion wahrgenommen wird. Hier ist es wirklich hilfreich, eine vorab erstellte Vorlage zur Hand zu haben.

Dein Ziel sollte es sein, das Problem schnell einzuräumen, die bekannten Auswirkungen kurz zusammenzufassen, weitere aktuelle Informationen zu versprechen und nach Möglichkeit Bedenken hinsichtlich Sicherheit oder Datenverlust auszuräumen. Selbst wenn dir noch keine näheren Details bekannt sind, ist es wichtig anzuerkennen, dass ein Problem vorliegt.

Teil 2: Regelmäßige aktuelle Informationen während des Vorfalls

Die Kommunikation während eines Vorfalls ist von entscheidender Bedeutung.

Laut den SRE-Teams bei Google zählt der Communication Lead zu den Schlüsselrollen, die während eines Vorfalls ausgefüllt werden sollten.

Im Buch "Site Reliability Engineering" von Google ist zur Rolle des Communication Lead Folgendes zu lesen:

"Diese Person ist das öffentliche Gesicht der Task Force zur Incident Response. Zu ihren Aufgaben gehört auf jeden Fall die regelmäßige Weitergabe aktueller Informationen an das Incident-Response-Team und die Stakeholder (normalerweise per E-Mail). Eine weitere Aufgabe besteht darin, dafür zu sorgen, dass die Vorfalldokumentation korrekt und auf dem aktuellen Stand ist.

Diese Person ist auch dafür zuständig, bei Veränderungen die Statusseite weiter zu aktualisieren oder neue Informationen in anderen Kanälen zu veröffentlichen. Sogar eine Mitteilung wie "Wir arbeiten immer noch am Problem. Derzeit gibt es nichts Neues zu berichten." ist besser, als nichts zu sagen und die Zielgruppen in der Luft hängen zu lassen. Wer im Dunkeln gelassen wird, geht vom Schlimmsten aus."

Teil 3: Behebung, Post-Mortem-Analyse, nächste Schritte

Im Jahr 2010 erlebte Facebook seinen bisher größten Ausfall. Etwa 2,5 Stunden lang war das soziale Netzwerk für Millionen seiner damals 0,5 Milliarden Benutzer nicht verfügbar.

Der Zeitpunkt hätte für den aufstrebenden Technologieriesen nicht ungünstiger sein können: Er befand sich am Beginn seines explosiven Benutzerwachstums und war noch dabei, der Geschäftswelt zu beweisen, dass der Service den Hype wert war.

Als sich die Aufregung legte, veröffentlichte ein Facebook-Techniker eine 395 Wörter lange Zusammenfassung des Engineering-Blogs des Unternehmens zum Vorfall.

Aus dem Blog:

Heute Morgen war Facebook für viele von euch etwa 2,5 Stunden lang nicht erreichbar. Dies ist der schlimmste Ausfall, den wir seit über vier Jahren hatten, und wir möchten uns zuallererst dafür entschuldigen. Außerdem möchten wir näher auf die technischen Details des Vorfalls eingehen und eine wichtige Lektion mit euch teilen, die wir bei dieser Gelegenheit gelernt haben.

Die Post-Mortem-Analyse lässt sich ganz einfach folgendermaßen skizzieren:

  • Das Problem eingestehen, Verständnis für die Betroffenen zeigen und sich entschuldigen
  • Erklären, was schiefgelaufen ist und warum
  • Erklären, was getan wurde, um den Vorfall zu beheben, und was unternommen wurde, um weitere Vorfälle dieser Art zu vermeiden
  • Noch einmal das Problem eingestehen, Verständnis zeigen und sich entschuldigen

Bei derartigen Mitteilungen braucht es keine blumige Sprache oder großspurige Versprechungen. Halte es einfach und direkt. Ein Beispiel aus dem Facebook-Blog:

Wir entschuldigen uns noch einmal für den Ausfall der Website und möchten euch versichern, dass wir die Leistung und Zuverlässigkeit von Facebook sehr ernst nehmen.

Eine solche Ausdrucksweise lässt Kunden und Kollegen darauf vertrauen, dass du ein souveränes Team hast und an dem Problem dranbleibst.

Die Realität beim Betrieb ständig verfügbarer Services ist, dass es manchmal zu unerwarteten Vorfällen kommt. Eine effektive Kommunikation bei einem Ausfall kann Vertrauen bei Kollegen und Kunden schaffen. Entscheidend ist eine angemessene Reaktion. Wir haben auch dieses einfache Tool entwickelt, um dir zu helfen, bei Vorfällen schnell effektive Mitteilungen zu erstellen.

Dargestellte Produkte
Statuspage-Logo

Informiere Benutzer in Echtzeit über den Status von Services.

Weiter geht's
On call schedule