Close

ITSM für High-Velocity-Teams

Was ist das Management der IT-Servicekontinuität?

Das IT Service Continuity Management (ITSCM) ist eine wichtige Komponente der ITIL-Servicebereitstellung. Es konzentriert sich auf die Planung zur Vermeidung, Vorhersage und Handhabung von Vorfällen, um die Serviceverfügbarkeit und -leistung vor, während und nach einem katastrophalen Vorfall auf möglichst hohem Niveau zu halten.

Das Ziel von ITSCM ist es, Ausfälle, Kosten und geschäftliche Auswirkungen von Vorfällen zu reduzieren, indem effektive, standardisierte Prozesse eingeführt werden, bevor Vorfälle eintreten.

Ohne einen geeigneten Plan gibt es viele Faktoren, die eine Wiederherstellung nach einem Vorfall verlangsamen oder stoppen können. Es ist ja gut möglich, dass ein müder Bereitschaftstechniker morgens um 3 Uhr auf einen Vorfall reagieren muss. Vielleicht kennt er sich mit dem Code nicht mehr so gut aus, weil er sich wochen- oder monatelang mit etwas anderem beschäftigt hat. Vielleicht bricht angesichts des katastrophalen Vorfalls auch Panik aus. Oder es handelt sich um das neueste Mitglied des Disaster-Recovery-Teams, das noch nicht viel Erfahrung mit der Behebung von Vorfällen hat.

Ein sorgfältig dokumentierter und klarer Plan für das Service Continuity Management trägt dazu bei, Verzögerungen zu minimieren, die durch Lernkurven, den Zeitraum, in dem man sich nicht mit dem Code beschäftigt hat, Panik in Katastrophensituationen oder mitternächtlichen Alarme verursacht werden.

ITSCM und ITIL 4

In ITIL 4 ist das Service Continuity Management ein Prozess, der das Business Continuity Management (BCM) unterstützt. Mithilfe des Prozesses soll sichergestellt werden, dass die Services innerhalb des vereinbarten Geschäftszeitrahmens nach größeren Serviceunterbrechungen wieder ausgeführt werden.

ITSCM oder Vorfallmanagement

ITIL 4 unterscheidet zwischen dem Vorfallmanagement, das Vorfälle verschiedener Schweregrade behandelt, und dem ITSCM, bei dem es um die Planung für große Katastrophenfälle geht.

Was genau versteht man unter einer Katastrophe? Die Antwort darauf kann für jedes Unternehmen unterschiedlich ausfallen. Das Business Continuity Institute definiert sie aber als "ein plötzliches ungeplantes Ereignis, das einem Unternehmen großen Schaden oder ernsthafte Verluste zufügt. Eine Katastrophe führt dazu, dass ein Unternehmen auf bestimmte Zeit keine kritischen Geschäftsfunktionen bereitstellen kann."

Das Ausmaß dessen, was wir als Katastrophe bezeichnen, die Mindestdauer und die Definition kritischer Geschäftsfunktionen sind drei Aspekte, die jedes Unternehmen selbst definieren und dokumentieren muss.

ITSCM und Business Continuity Management (BCM)

Das Business Continuity Management ist ein Prozess, der außerhalb der IT verwaltet wird. Er identifiziert Risiken für das Unternehmen und hilft dabei, diese Risiken zu mindern. Einige Risiken können mit der IT zusammenhängen, einschließlich katastrophaler Vorfälle. Auf andere Risiken hat die IT keinen Einfluss, etwa bei Naturkatastrophen oder einem Brand in einer Anlage.

Da das Business Continuity Management sowohl das ITSCM als auch andere Prozesse zur Reduzierung von Risiken umfasst, ist es sinnvoll, wenn IT-Teams eng mit dem BCM-Team zusammenarbeiten, um Folgendes zu erstellen:

  • Einen Business Continuity Plan (BCP), der Pläne für die Prävention und Behebung von katastrophalen IT-Vorfällen enthält
  • Business Impact Analyses (BIA), die die potenziellen geschäftlichen Auswirkungen einer IT-Katastrophe ermitteln

ITSCM-Ziele

Aus geschäftlicher Sicht besteht das Ziel von ITSCM darin, die Ausfallzeiten, Kosten und geschäftlichen Auswirkungen von katastrophalen Vorfällen zu reduzieren. Auf der taktischen Ebene lauten die Ziele wie folgt:

  • Enge Zusammenarbeit mit dem BCM, um die allgemeine Business Continuity zu gewährleisten
  • Erstellung und Verwaltung von Plänen für die Kontinuität und Wiederherstellung von IT-Services im Katastrophenfall
  • Zusammenarbeit mit Anbietern, um die Auswirkungen von Ausfällen in ihren Produkten und Services, die das Unternehmen betreffen, zu minimieren
  • Analyse der Risiken und Auswirkungen sowie eine entsprechende Überarbeitung der Pläne im Laufe der Zeit

Der ITSCM-Prozess

Unser eigener Business Continuity-Plan bei Atlassian basiert auf der Annahme, dass der Prozess der Katastrophenplanung fortlaufend ist, von Führungskräften gefördert und gründlich getestet wird. Wir sind entschlossen, unsere Kunden nicht hinters Licht zu führen. Deshalb umfasst unser Prozess Planung, Kommunikation, klare Verantwortlichkeiten, Tests und kontinuierliche Verbesserungen.

Planung

Der Planungsprozess beginnt damit, allgemeine Fragen zu stellen und dann einen Plan zu entwickeln, der auf deinen Antworten basiert. Folgende Fragen solltest du dir stellen:

  • Wie sieht unsere Incident Response aus?
  • Welchen Werten folgen wir?
  • Für welche Art von Katastrophen müssen wir planen? Welche Risiken und Bedrohungen sind für unser Unternehmen typisch?
  • Welche Systeme müssen wir unterstützen? Welche sind kritisch?
  • Wie werden wir im Falle einer Katastrophe reagieren?
  • Wo finden wir die nötigen Informationen, um kritische Systeme zu unterstützen und wiederherzustellen?
  • Wie können wir diese Informationen zentralisieren und die Wiederherstellungsprozesse vereinfachen?
  • Können Teams die Informationen und die Prozessdokumentation, die sie verwalten werden, gemeinsam nutzen und einsehen?

Sobald du diese Fragen beantwortet hast, definiere im nächsten Schritt anhand deiner Antworten Folgendes:

  • Richtlinien für die Disaster Recovery
  • Den Umfang der IT-Verantwortlichkeiten
  • Den Umfang der geschäftlichen Auswirkungen jedes Risikos
  • Pläne und Prozesse für jedes Risikoszenario
  • Personal- und Dokumentationsanforderungen

Der Schlüssel zu einer erfolgreichen ITSCM-Planungsphase besteht darin, den endgültigen Plan zu dokumentieren und zu analysieren, damit er klar und nachvollziehbar ist. Ressourcen wie ein Incident Response Playbook oder andere Runbooks dienen Vorfallsverantwortlichen in kritischen Situationen als Informationsquelle und erleichtern die Organisation.

Im Sinne von ITSCM ermöglicht eine Lösung mit Zugriff auf eine integrierte Wissensdatenbank – wie Jira Service Management mit Confluence – eine kontinuierliche Dokumentation für die Überarbeitung, Optimierung und Zusammenarbeit. Auf diese Weise haben die Verantwortlichen Zugriff auf ältere Lösungsdokumentationen und aktuelle Ressourcen.

Klare Verantwortlichkeiten

Wer ist im Katastrophenfall verantwortlich? Wer ist verantwortlich für die Verwaltung und Aktualisierung von Plänen, Prozessen und Dokumentationen? Beim ITSCM sollten die Rollen und Verantwortlichkeiten immer klar sein, und zwar nicht nur im Katastrophenfall, sondern auch für die kontinuierliche Überwachung und Verbesserung. Mit Jira Service Management können die Vorfallsverantwortlichen die für Vorgänge relevanten Parteien oder Personen kennzeichnen, um Verantwortlichkeiten ordnungsgemäß zu verteilen und funktionsübergreifende Zusammenarbeit zu ermöglichen.

Ein Teil des Atlassian-Ansatzes besteht darin, regelmäßige Disaster-Recovery-Meetings mit unseren Site Reliability Engineers und unserem Risk and Compliance-Team abzuhalten. Diese diskutieren Diskrepanzen bei der Disaster Recovery und ermitteln, wo zusätzliche Pläne, Verbesserungen, Bewertungen oder Änderungen erforderlich werden.

Kommunikation

Offenheit zählt zu den Grundwerten bei Atlassian und wir glauben, dass diese Pläne umso effektiver sein werden, je besser dein Unternehmen über deine ITSCM-Pläne informiert ist.

Über flexible Kommunikationskanäle für den gesamten Incident-Response-Prozess können Teams auf ihre bevorzugte Weise in Kontakt bleiben. In Jira Service Management sind zahlreiche Kommunikationskanäle integriert, um Ausfälle zu minimieren. Dazu zählen ein einbettbares Status-Widget, eine dedizierte Statusseite, E-Mails, Chat-Tools, Social Media und SMS.

Kommunikation dient nicht nur dazu, Stakeholder auf dem Laufenden zu halten – sie hilft der Führungsriege auch, während eines katastrophalen Vorfalls nicht in Panik zu verfallen. Dank Kommunikation können Teams bei Bedarf Hilfe von anderen Teams anfordern. Außerdem kann so das Risiko von Konflikten gemindert werden, die durch Verwirrung im Unternehmen entstehen.

Testen

Woher weißt du, ob deine Pläne funktionieren, wenn du sie nicht testest? Dies ist eine grundlegende Frage für das ITSCM und der Grund dafür, dass Tests und Vorfallmanagement-Testläufe für den Erfolg der Praktik eine entscheidende Rolle spielen.

Tests können dir dabei helfen, Schwachstellen in deinem Prozess und unvorhergesehene Probleme zu identifizieren, für die Teams eventuell erneut geschult werden oder eine bessere Dokumentation erhalten müssen.

Bewerten und verbessern

ITSCM ist kein einmaliger Prozess. Es erfordert eine sorgfältige Planung im Vorfeld sowie fortlaufende Schulungen, Bewertungen und Verbesserungen. Aus diesem Grund halten wir regelmäßige Disaster-Recovery-Meetings ab, testen System-Backups und führen Testläufe für den Fall durch, dass ein Rechenzentrum oder eine AWS-Region ausfällt. Und das ist auch der Grund, weshalb jeder ITSCM-Plan, der etwas taugt, ständig überwacht wird und sich laufend ändert.

Die meisten Unternehmen stellen den ITSCM-Prozess als eine Reihe von Schritten dar. Wir stellen ihn uns aber eher wie einen Kreis vor. Während der Planung sollten Rollen und Verantwortlichkeiten definiert werden. Ausgehend davon sollte das Team unternehmensübergreifend kommunizieren, erneut testen, bewerten, überwachen und verbessern und während dieser Verbesserungen den Plan weiter aktualisieren, Rollen definieren und weiterhin kommunizieren.

Auch hier kommt eine integrierte und kollaborative Wissensdatenbank ins Spiel. Die darin enthaltenen Artikel sind eine wertvolle Ressource für die Bewertung und Dokumentation. Post-Mortem-Analysen nach Vorfällen sind ausschlaggebend für die Überarbeitung und Behebung, dienen langfristig jedoch auch als Ressource zur Unterstützung bei künftigen Problemen. Jira Service Management mit Confluence bietet eine leistungsstarke Plattform für die Zusammenarbeit, um Bewertungen und Verbesserungen durchzuführen.

ITSCM-Rollen und Verantwortlichkeiten

Um ITSCM-Praktiken für das gesamte Unternehmen effektiv zu planen und umzusetzen, ernennen viele Unternehmen einen Service Continuity Manager und ein Service Continuity Recovery Team.

Service Continuity Manager (SCM)

Wie der Name schon sagt, ist der Service Continuity Manager für die Überwachung der Servicekontinuität verantwortlich. Diese Person kümmert sich in der Regel um sämtliche Aspekte des Prozesses. Sie leitet die Ausarbeitung des Plans, verwaltet die laufende Überwachung und Bewertung und beaufsichtigt die Pläne im Einsatz, wenn ein Katastrophenfall eintritt.

Es handelt sich normalerweise um einen gut geschulten und erfahrenen technischen Supportmitarbeiter, der aber auch eine Managementrolle innehaben kann und sich nicht direkt mit alltäglichen Technologieangelegenheiten befassen muss.

Service Continuity Recovery-Team

Unter der Leitung des SCM ist dieses Team für die Durchführung von Tests, von Vorfalltestläufen und die kontinuierliche Verbesserung des ITSCM verantwortlich. Zum Team gehören in der Regel technische Mitarbeiter, QA-Experten oder Testbenutzer sowie Vertreter von diversen Unternehmensabteilungen, deren Aufgabe es ist, die Kommunikationswege zwischen dem ITSCM und ihren Teams offenzuhalten.

Warum spielt ITSCM eine so wichtige Rolle?

Unternehmen mit klar definierten Plänen für die Disaster Recovery werden sich im Katastrophenfall schneller und umfassender erholen.

Beim ITSCM geht es nicht darum, sich auf alltägliche Ausfälle einzustellen. Es ist dazu da, um auf Worst-Case-Szenarien zu reagieren und sicherzustellen, dass Kunden und Mitarbeiter in solchen Fällen nur minimal beeinträchtigt werden.

Hier sind drei eindeutige Vorteile einer guten ITSCM-Praktik:

  • Wenn eine Katastrophe eintritt, kann mit einem guten ITSCM-Plan die Verfügbarkeit wichtiger Services schnell wiederhergestellt werden.
  • Das Unternehmen ist immer auf eine größere Katastrophe vorbereitet und kann schnell und angemessen reagieren.
  • Jeder im Unternehmen versteht, was im Katastrophenfall passieren wird, und weiß, wie lange die Systeme ausfallen werden.

Erfahre, wie ITSCM mit Jira Service Management den Kundenservice verbessert und Ausfälle im Unternehmen minimiert.