Agile Problemlösung: das fehlende Puzzleteil deines Reaktionsplans im Falle von Vorfällen

Mit den Werten aus dem Agile-Manifest kannst du die Reaktion auf Vorfälle umkrempeln und das Vertrauen der Benutzer stärken. 

 

Shannon Winter Shannon Winter
Browse topics

Agile-Methoden werden zunehmend auch außerhalb ihres angestammten Bereichs, der Softwareentwicklung, genutzt – selbst im Marketingbereich! Dies hat uns veranlasst, darüber nachzudenken, wie Agile in der Welt des Vorfallmanagements aussehen könnte. Bei Atlassian definieren wir Agile als einen strukturierten und iterativen Ansatz bei Projektmanagement und Produktentwicklung. Agile versetzt dein Team in die Lage, auf Änderungen zu reagieren, ohne dabei vom Kurs abzuweichen.

Da Bugs in der Produktion, Vorfälle und Ausfallzeiten eindeutig als Kursabweichungen betrachtet werden können, ist für uns die logische Schlussfolgerung, im Vorfallmanagement oder genauer gesagt in der Kommunikation von Vorfällen eine Methode wie Agile anzuwenden. Denn diese ist schließlich dazu konzipiert, Teams auf Kurs zu halten.

Die Anwendung agiler Grundsätze in der Reaktion auf Vorfälle

An Tools zur Erkennung, Warnung, Versammlung zu und Behebung von Vorfällen mangelt es sicher nicht. Aber Tools alleine können eine klare Kommunikation mit den Stakeholdern nicht ersetzen. Und seien wir ehrlich: Oft steht sehr viel auf dem Spiel. Der Ruf des Unternehmens, Kundenabwanderung, der Zeitaufwand für die Schadensbegrenzung sind nur einige wenige Punkte. Agile-Methoden können dazu beitragen, diese Risiken so gering wie möglich zu halten. 

Viele von euch kennen die vier zentralen Werte aus dem Agile-Manifest wahrscheinlich schon: 1) Einzelpersonen und Interaktionen haben Vorrang vor Tools. 2) Funktionierende Software hat Vorrang vor umfassender Dokumentation. 3) Die Zusammenarbeit mit den Kunden hat Vorrang vor Vertragsverhandlungen. 4) Die Reaktion auf Veränderungen hat Vorrang vor der Befolgung des Plans. Betrachten wir die einzelnen Werte nun ein wenig näher und sehen uns an, wie sie für eine agilere Kommunikation bei Vorfällen genutzt werden können.

Grundsatz zur Kommunikation rund um Vorfälle: Menschliche Interaktion im Mittelpunkt

Dieser Grundsatz basiert auf dem Agile-Wert "Einzelpersonen und Interaktionen haben Vorrang vor Tools". Prozesse und Tools sind in jedem Vorfallmanagementprozess von großer Bedeutung, aber nutzlos, wenn man sie nicht in Verbindung mit den Personen, von denen sie angewendet werden, und der Kultur, von der sie umgeben sind, betrachtet. Was ist das verbindende Element zwischen Personen, Prozessen und Tools? Natürlich Kommunikation! 

Kommunikation ist entscheidend, wenn ein Problem besteht, egal ob es sich um einen kleinen Bug in der Produktion oder einen ausgewachsenen Systemausfall handelt. Selbst bei einem quasi lückenlosen Vorfallsplan ist regelmäßige Kommunikation erforderlich, um zu einer Lösung zu gelangen und das Vertrauen aufrechtzuerhalten. 

Während eines Vorfalls erleben die betroffenen Benutzer höchstwahrscheinlich frustrierende Fehler, die möglicherweise sogar alles lahmlegen. Deshalb müssen sie so schnell wie möglich informiert werden, was gerade geschieht. Viele werden bereits E-Mails, Tweets und/oder Tickets zum Problem versenden. Es ist also im Interesse aller, die Situation proaktiv anzugehen und den Benutzern mitzuteilen, dass sich die Verantwortlichen des Problems bewusst sind und nach einer Lösung suchen. Bei Atlassian verwenden wir Statuspage zur Kommunikation mit internen und externen Stakeholdern während Ausfällen. Dies wäre sicherlich auch für dich ein sinnvolles Tool zur schnellen, skalierbaren Mitteilung von Vorfallinformationen an deine Benutzer. Tatsächlich hat Statuspage die Geschwindigkeit der Kommunikation seiner Benutzer zu Vorfällen um sagenhafte 50 % erhöht.

Möchtest du das Ganze mal ausprobieren?

Registriere dich, oder logge dich bei Statuspage ein. >>  

 

Sobald du Zugriff hast, kannst du dich über Best Practices für die Einbeziehung von Benutzern und für eine effektive Kommunikation bei Vorfällen informieren:

 

Ganz gleich, mit welchem Tool du deine Kunden informierst: Der Wert menschlicher Kommunikation ist nicht zu unterschätzen. Die vom Problem betroffenen Benutzer sind echte Menschen, die sich auf deinen Service verlassen und von dir erwarten, dass du sie auf dem Laufenden hältst, wenn etwas nicht funktioniert. Vorlagen sind in einer perfekten Welt natürlich toll, aber menschliche Mitarbeiter, die knappe, klare, verständnisvolle und relevante Nachrichten verfassen können, sind unverzichtbar, um auch in den schwierigsten Zeiten das Vertrauen des Kunden aufzubauen. Sehen wir uns als Beispiel Dyn an. Das Unternehmen hatte bei einem der größten DDoS-Angriffe der Geschichte mit einem gewaltigen Ausfall zu kämpfen, und trotzdem haben sich die Benutzer für die Offenheit während des Serviceausfalls bedankt:

Wie Werner Vogels, Chief Technology Officer von AWS, sagte, als er über den großen AWS S3-Ausfall im Februar 2017 sprach:

"Kunden möchten keine Ratschläge nach dem Motto 'Wartet einfach ab, und verhaltet euch ruhig' hören. Stattdessen erwarten sie aussagekräftige Informationen, damit sie das Geschehen nachvollziehen können. Nach Möglichkeit solltest du ihnen auch mitteilen, wann sie mit der Wiederherstellung des Service rechnen können."

Grundsatz zur Kommunikation rund um Vorfälle: Hindernisfreie Seitenerstellung und Vorfallsupdates

Dieser Grundsatz beruht auf dem Agile-Wert "Funktionierende Software hat Vorrang vor umfassender Dokumentation.". Die Dokumentation zu deinem Produkt sollte klar und benutzerfreundlich sein, und das Gleiche sollte unserer Meinung nach auch für Updates zu Vorfällen gelten. Deine Benutzer sollten nicht zwischen den Zeilen lesen (oder lange Textabschnitte überfliegen) müssen, um zu erfahren, was nicht funktioniert und wann sie mit der Behebung des Fehlers rechnen können. Obwohl du dir durchaus Gedanken über deine Updates zu Vorfällen machen und sicherstellen solltest, dass die Kommunikation verständnisvoll und menschlich ist, dürfen Genehmigungsprozesse oder mehrfache Überarbeitungen nicht verhindern, dass in kurzen Zeitabständen ehrliche Updates veröffentlicht werden. 

Wenn wir uns noch einmal den Vorfall bei Dyn ansehen, wird deutlich, dass das Team Updates seinen Benutzern umgehend mitgeteilt hat. Im Laufe des über 11 Stunden andauernden Vorfalls wurde die Statusseite 11-mal aktualisiert (im Durchschnitt lagen 61 Minuten zwischen den Updates). Die Statusseite wurde als zentrale Anlaufstelle zur Kommunikation rund um den Vorfall genutzt, statt Zeit mit der Suche nach Mailinglisten für E-Mail-Benachrichtigungen oder mit der Bastelei an 140 Zeichen langen Twitter-Updates zu verschwenden. Mit anderen Worten: Das Unternehmen hat seine Benutzer gut informiert, sich aber trotzdem in erster Linie um die Wiederherstellung des Service gekümmert. 

Das Schöne an einem sofort einsatzbereiten Statuskommunikationstool ist, dass du in kürzester Zeit über eine solide, funktionsfähige Seite verfügst. Die Erstellung einer Statusseite dauert keine halbe Stunde und wie bei Agile kann und sollte deine Statusseite iterativ sein. Du kannst zunächst eine funktionierende Seite für deine Kunden online stellen und sie dann mit der Zeit optimieren. Nach den ersten paar Vorfällen, bei denen die Statusseite Teil deines Prozesses war, kannst du kleine Änderungen vornehmen, damit sie fortlaufend besser wird.

Bist du bereit für deine eigene Statusseite? Registriere dich, oder logge dich bei Statuspage ein. >>

Warte mit der Erstellung einer Statusseite nicht bis zum nächsten Vorfall. Investiere lieber vorab ein paar Minuten, damit du dich in der bestmöglichen Ausgangsposition befindest, wenn es zu einem Ausfall kommt. Denke daran: Es wird nicht lange dauern, bis du eine funktionsfähige Seite erstellt hast.

Grundsatz zur Kommunikation rund um Vorfälle: Transparente Kommunikation während, vor und nach Vorfällen

Gemäß dem Agile-Wert "Die Zusammenarbeit mit den Kunden hat Vorrang vor Vertragsverhandlungen" ist die Zusammenarbeit mit deinen Kunden zentral, um das Produkt und die Erfahrung damit bestmöglich zu gestalten. Für uns heißt das, dass wir geeignete Feedbackkanäle einrichten müssen, damit die Kunden uns ihre Anliegen mitteilen und uns über jegliche Probleme informieren können (mit Tools wie Jira Service Desk, Twitter usw.). Unternehmen von Weltrang wissen, dass die Kunden eine Reaktion auf ihr Feedback erwarten und in die Verbesserung der Produkte sowie den Vorfallprozess eingebunden werden möchten. Ein wenig Verständnis und ein paar Erklärungen bewirken hier viel – und die Kunden scheuen sich nicht, dies zu fordern – wie sich in diesen Tweets zeigt:

Das bedeutet auch, hinsichtlich der Verfügbarkeit deines Service transparent zu bleiben, damit die Benutzer bei ihrer Registrierung genau wissen, was sie erwarten können. Wenn du dich für einen Cloud-Service registrierst, erwartest du, dass dieser Service zuverlässig ist. Du schließt nicht in allen Fällen einen physischen Vertrag ab, sondern eher einen inhärenten Vertrag zwischen Kunde und Serviceanbieter, dass, wenn etwas schiefgeht, die beiden Parteien zusammenarbeiten, um das Problem schnell zu lösen. Dabei werden alle von der Untersuchungsphase bis zur Problemlösung auf dem Laufenden gehalten. Dies führt uns auch schon zu unserem letzten Grundsatz zur Reaktion auf Veränderungen …

Grundsatz zur Kommunikation rund um Vorfälle: Agile Retrospektiven

Selbst die besten Pläne … nun, du weißt schon. In Anlehnung an den Agile-Wert "Die Reaktion auf Veränderungen hat Vorrang vor der Befolgung des Plans" wissen wir, dass auch die ausgefeiltesten Pläne während und nach einem Vorfall unweigerlich geändert werden müssen. Im Zentrum von Agile steht die Fähigkeit, jederzeit umzuschwenken und schnell fortlaufendes Feedback einzuholen, das dein Produkt und deine Kultur verbessert.

Wistia, ein Internetvideo-Hosting- und -Analyseunternehmen, lernte 2013 während eines unerwarteten Vorfalls, bei dem die Statistikinfrastruktur zum völligen Stillstand kam, wie wichtig die Aufrechterhaltung der Agilität ist. Das Unternehmen war darauf nicht vorbereitet und ging in der Flut an Supporttickets von verärgerten Kunden regelrecht unter. Die erste Änderung war die Erstellung einer eigenen Statusseite, um den Teams in solchen Situationen das Leben zu erleichtern. Ein selbst erstelltes Statuskommunikationstool muss jedoch auch zusätzlich zu den Kernprodukten unterstützt werden. Schnell wurde klar, dass sich das 20-köpfige Team die Kosten hierfür zur damaligen Zeit nicht leisten konnte. Also wurde von der hauseigenen Lösung zu Statuspage gewechselt. 

Jordan Munson, Support Enginner bei Wistia, beschreibt diesen Wechsel so: "Nachdem wir einige Monate lang von unserer zwar hilfreichen, aber Feature-armen hauseigenen Lösung leicht frustriert waren, beschlossen wir, dass wir etwas mehr benötigten und uns gleichzeitig weniger Wartungsaufwand wünschten. Hier kam Statuspage ins Spiel. Seit dem Wechsel zu Statuspage konnten wir endlich schnell und einfach unsere Kunden zum Status unserer Anwendung auf dem Laufenden halten – was ja eigentlich von Anfang an unser Ziel war. Allerdings brauchte es einen massiven Ausfall und die Erstellung eines neuen Produkts, bis wir unser Ziel erreicht hatten. Ein paar Jahre später sieht unser Prozess deutlich reibungsloser aus. Die Benutzer erhalten bei Ausfällen direkt von uns Updates. Sie wissen, wo sie diese finden, und Updates unserer Statusseite erscheinen automatisch auch an bestimmten anderen Orten."

Munsons Team hat aus dem Ausfall 2013 wahrlich das Beste herausgeholt (einen neuen und verbesserten – und skalierbaren – Prozess zur Kommunikation rund um Vorfälle). Dies ist eine agile Reaktion auf Veränderungen vom Feinsten. 

Retrospektiven sind für diesen Agile-Wert ebenfalls sehr wichtig. Eine Retrospektive gibt deinem Team die Möglichkeit, mit etwas Abstand zu diskutieren, was bei der Kommunikation während des Vorfalls gut funktioniert hat, was nicht und vor allem was ihr zur Vorbeugung vor ähnlichen Problemen machen könnt. Lass dich nicht dazu verleiten, eine Retrospektive nicht durchzuführen, nachdem ein Vorfall als "gelöst" gekennzeichnet wurde oder wenn du findest, dass dein Team hervorragende Arbeit geleistet hat. Es gibt in der Kommunikation zu Vorfällen immer etwas zu verbessern, was immer auch eine Chance ist, die Beziehungen zu den Benutzern zu stärken und ihr Vertrauen in euch zu stärken. 

Profitipp:

Probiere das Spiel zu Retrospektiven aus dem Atlassian-Team-Playbook aus. Damit schaffst du einen sicheren Rahmen, in dem dein Team überlegen und besprechen kann, was gut funktioniert und was nicht. Diese Erkenntnisse bilden die Grundlage für Verbesserungen.

Kommen wir auf den ersten Wert aus dem Agil-Manifest zurück: Retrospektiven erfordern unbedingt menschliche Kommunikation, um erfolgreich zu sein und langfristige Ergebnisse zu liefern. Unten siehst du ein paar Beispiele für die Begriffe, die bei der Besprechung der Vorfallbehebung in einem Retrospektiv-Meeting berücksichtigt werden sollten. Einige dieser Begriffe sollten auch Teil des Post-Mortem-Berichts bzw. des Reviews nach Vorfällen (PIR) sein, den du den Benutzern nach der Servicewiederherstellung zukommen lässt. Agile bedeutet, kontinuierlich an Verbesserungen zu arbeiten – nicht nur bei der Vorfallbearbeitung, sondern auch bei den Beziehungen zu deinen Teamkollegen und der Ausübung deiner Rolle in Stresssituationen. 

Personenbezogene Begriffe

Produktbezogene Begriffe

Annahmen, Hoffnungen, Befürchtungen

Tasks, Vorgänge, Aktionen

Motivation, Missverständnisse, Verhalten

Sprints, Epics, Storys, Releases

Vorlieben, Beziehungen, Respekt

Meilensteine, Abhängigkeiten, Termine

Rollen und Zuständigkeiten

Meetings, Kalender, E-Mails, Dateien

Vertrauen ist unerlässlich

Wir sprechen im Zusammenhang mit Agile sehr viel über Vertrauen, und auch dieser Use Case ist hierbei keine Ausnahme. Eine effektive Kommunikation rund um Vorfälle ist nur mit Vertrauen und den nötigen Berechtigungen möglich. Alle Teams im Unternehmen sollten über die Berechtigung und das Wissen verfügen, um den Benutzern Informationen zu Vorfällen mitzuteilen. Darüber hinaus sollten die einzelnen Mitarbeiter darauf vertrauen können, dass jeder seine zugewiesene Aufgabe während einer Reaktion auf Vorfälle erledigt – und bei unerwarteten Vorkommnissen ohne zu zögern einspringt, auch wenn dadurch vom Prozess abgewichen wird. Wenn du deinen Teams die effektive Kommunikation rund um Vorfälle anvertraust, werden die Kunden schneller informiert, wodurch wiederum das Vertrauen und die Treue der Kunden steigt (67 % der Kunden von Statuspage berichten, dass Statuspage das Vertrauen ihrer Benutzer gestärkt hat!). Ein Gewinn für alle Beteiligten.