Close

Vorfallmanagement für High-Velocity-Teams

Tipps zur Auswahl eines Tools für das Vorfallmanagement

Kategorien, wichtige Funktionen und worauf du achten solltest

Es gibt kein für alle Teams geeignetes Universaltool für das Vorfallmanagement.

Die erfolgreichsten Incident Response-Teams nutzen eine Kombination aus für sie passenden Tools, Praktiken und Fachleuten.

Einige dieser Tools sind konkret auf das Vorfallmanagement zugeschnitten, andere sind allgemeiner und werden von den Teams auch für andere Aufgaben verwendet. Vielleicht entwickelt dein Team sogar ganz eigene Tools mit verschiedenen Integrationen und Anpassungen.

Unabhängig vom Verwendungszweck haben gute Tools für das Vorfallmanagement einige Gemeinsamkeiten: Sie sind alle offen, zuverlässig und anpassbar.

Offen: Bei einem Vorfall stehen alle Beteiligten unter Druck. Daher ist entscheidend, dass die richtigen Personen sofort Zugriff auf die richtigen Tools und Informationen haben. Dies gilt nicht nur für die Reaktionsverantwortlichen, sondern auch für Stakeholder aus dem Unternehmen, die Einblick in die Abläufe bei der Reaktion benötigen.

Zuverlässig: Der Worst Case bei der Incident Response tritt ein, wenn auch noch die für die Reaktion benötigten Tools ausfallen. Mit Cloud-Tools wie Slack und Opsgenie minimierst du das Risiko, dass sich ein Ausfall deiner Infrastruktur auch auf deine Reaktionstools auswirkt.

Anpassbar: Faktoren wie Integrationsmöglichkeiten, Workflows, Add-ons, Anpassbarkeit und APIs eröffnen dir über das Produkt hinaus neue Möglichkeiten. Für den Anfang genügt vielleicht eine vorgefertigte Konfiguration, aber wenn deine Praktiken und Prozesse reifen, sollten die Tools flexibel genug sein, um sich an deine wechselnden Anforderungen anzupassen.

Vor dem Vorfall

Überwachung

Mit Überwachungssystemen können DevOps- und IT-Ops-Teams Daten aus mehreren Tausend verschiedenen Services in Echtzeit sammeln, aggregieren und zum Auslösen von Warnmeldungen nutzen. Diese sind entscheidend für einen vollständigen Einblick in den Zustand deiner Services und lösen bei einem Vorfall häufig den ersten Alarm aus.

Vorteile

Mit Überwachungstools hat dein Team ständig Einblick in den Zustand der Infrastruktur. Moderne Überwachungstools lösen außerdem bei unerwarteten Aktivitäten proaktiv Warnmeldungen aus.

Vorteile

Mit Überwachungstools hat dein Team ständig Einblick in den Zustand der Infrastruktur. Moderne Überwachungstools lösen außerdem bei unerwarteten Aktivitäten proaktiv Warnmeldungen aus.

Funktionen

Monitoring tools give your team constant insight into the health of the infrastructure. Modern monitoring tools also proactively trigger alerts during unexpected activity.

 

 

Feature Set

Questions to ask

24/7 coverage and analytics

Does the tool have visibility into all my servers and infrastructures?

Integrates with alerting tools

Can my team see real time analytics and dashboards and set alerting thresholds?

 

Does the product integrate with my alerting and on-call tool?

Servicedesk

Servicedesk-Software bietet Kunden und Mitarbeitern eine Anlaufstelle, um potenzielle und offensichtliche Vorfälle zu melden.

Vorteile

Neben ihren vielen anderen Anwendungsgebieten (Serviceanfragen, IT-Helpdesk) ermöglichen Servicedesks es deinem Team, schnell über Vorfälle informiert zu werden – und zwar von den Personen, die am wichtigsten sind: euren Benutzern und Kunden.

Funktionen

 

 

Feature set

Questions to ask

Enable self serve

Can customers quickly file tickeCan customers quickly file tickets through a self-service support portal?

 

Can customers find the help they need with automated knowledge-based suggestions?

Unsere Empfehlung: Jira Service Management

Warnmeldungen und Bereitschaft

Sofortige und zuverlässige Warnmeldungen sind ein wichtiger Bestandteil der Incident Response. Auf diese Weise können Teams sichergehen, dass bei einem Vorfall die richtigen Personen benachrichtigt werden.

Vorteile

Warntools benachrichtigen die für die Reaktion zuständigen Mitarbeiter im Rahmen einer ausgefeilten Kombination aus Zeitplänen, Eskalationspfaden und Benachrichtigungen.

Funktionen

 

 

Feature set

Questions to ask

Works globally

Can I send notifications (SMS, voice, email) to almost anywhere?

Multiple notification methods

Can I send notifications using multiple notification methods like email, SMS, phone, and mobile app push and try them multiple times?

Unsere Empfehlung: Opsgenie

Während des Vorfalls

Schnellere Lösung mit einer Configuration Management Database (CMDB)

Nur wenn du die Abhängigkeiten innerhalb deiner Infrastruktur kennst, kannst du die Auswirkungen eines Vorfalls genau ermitteln und die Problembehebung beschleunigen.

Vorteile

Eine CMDB hilft dir, die Beziehungen und Abhängigkeiten innerhalb deiner IT-Infrastruktur nachzuvollziehen. Wenn etwas schiefgeht, kannst du so Folgendes schneller ermitteln:

  • Mögliche Ursachen für den Vorfall. Du kannst beispielsweise mit nur einem Mausklick feststellen, auf welchem Host ein Service ausgeführt wird.
  • Nachgelagerte Auswirkungen des Vorfalls. Vielleicht stellt sich heraus, dass andere Services auf demselben fehlerbehafteten Host ausgeführt werden.

Auf diese Weise kannst du alle Aspekte des Vorfalls schnell untersuchen und kommunizieren.

 

 

Feature set

Questions to ask

Multiple channels

How flexible is the CMDB? Can I store any CI or asset?

Integrations

Can I visualize my infrastructure graphically?

 

Can I link CIs/assets with my service desk issues?

 

Can I link CIs/assets to change requests?

Unsere Empfehlung: Insight

Logo: Insight

Schnellere Reaktion auf Vorfälle

In Jira kannst du deine Infrastruktur und die entsprechenden Abhängigkeiten nativ zuordnen. So findest du die Ursache schneller und kannst sie früher beheben, was die Verfügbarkeit erhöht.

Teamkommunikation

Eine klare und zuverlässige Kommunikation ist beim Vorfallmanagement unverzichtbar.

Vorteile

Eine solide Kommunikationsplattform hilft Teams bei der Kommunikation und beim Austausch von Beobachtungen, Links und Screenshots. Dabei werden alle Interaktionen mit einem Zeitstempel versehen und aufbewahrt. So kommen bei einem Vorfall die richtigen Informationen und Personen zusammen, und es entsteht ein umfassender Datensatz, aus dem das Team nach dem Vorfall Erkenntnisse ziehen kann.

Funktionen

 

 

Feature set

Questions to ask

Multiple channels

Can my incident response team quickly spin up a dedicated channel for an incident?

Integrations

Can other tools in my incident toolchain post into my team's communication channel?

Unsere Empfehlung: Slack (Text), Zoom (Video)

Kommunikation mit Kunden

Tools für die Kundenkommunikation tragen dazu bei, Kunden während eines Vorfalls auf dem Laufenden zu halten.

Vorteile

Es lässt sich nicht leugnen: In aller Regel sind Vorfälle eine negative Erfahrung für Kunden. Wer die Kunden durchgehend informiert, stärkt das Vertrauen und beschleunigt die Reaktion. Durch die Kommunikation mit Kunden wissen diese, dass ihr über den Vorfall Bescheid wisst und an einer Lösung arbeitet.

Funktionen

 

 

Feature set

Questions to ask

Off of my infrastructure

Will my communication tool be operational and accessible even if my internal infrastructure is down?

Subscribers and notifications

Can customers opt in to get notifications when I post about an incident?

Unsere Empfehlung: Statuspage

Incident Command Center

Das Incident Command Center befindet sich dort, wo die Aufzeichnungen und die wichtigsten Details zum Vorfall aufbewahrt werden. Dies könnte ein Vorfallmanagementtool wie Opsgenie oder ein Tool zur Vorgangsverfolgung wie Jira sein.

Vorteile

Ein Command Center-Tool ist eine zentrale Anlaufstelle, bei der sich während und nach einem Vorfall alle auf den neuesten Stand bringen können. Dort werden wichtige Details wie der Vorfallstatus, die zugehörigen Warnmeldungen und Mitteilungen aufgeführt. Es liefert auch eine Aufzeichnung des Vorfalls und der damit verbundenen Reaktionsmaßnahmen im zeitlichen Verlauf.

Funktionen

 

 

Feature set

Questions to ask

Source of truth

Can team members and stakeholders use this record to locate all the other details of the incident and response activities?

Timeline

Does the tool aggregate a chronological timeline of key events?

 

Can team members and stakeholders quickly get up to speed on the incident?

Unsere Empfehlung: Opsgenie

Nach dem Vorfall

Post-Mortem-Analyse

Post-Mortem-Analysen sind eine schriftliche Aufzeichnung dessen, was während eines Vorfalls passiert ist und welche Maßnahmen danach ergriffen wurden, um ein erneutes Auftreten zu verhindern.

Vorteile

Auch nachdem ein Vorfall gelöst ist, kennen die Teams oft noch nicht die Ursachen. So besteht die Gefahr, dass sich der Vorfall wiederholt. Post-Mortem-Analysen mindern dieses Risiko, weil das Team nach dem Vorfall eine gründliche Analyse durchführt.

Funktionen

 

 

Feature set

Questions to ask

Templates

Can my team use a template to fill out a postmortem?

Map out next actions

Can my team plan out next actions and remediation work during a postmortem?

Unsere Empfehlung: Opsgenie

Vorgangsverfolgung

Ein Tool zur Vorgangsverfolgung hilft dem Team beim Planen künftig nötiger Korrekturmaßnahmen.

Vorteile

Oft sorgt eine Problembehebung dafür, dass der Service wieder verfügbar ist, ohne jedoch die Ursachen zu beseitigen. In der Regel müssen weitere technische Arbeiten durchgeführt werden, um die Ursachen zu beheben und sicherzustellen, dass sich der Vorfall nicht wiederholt. Mit Tools zur Vorgangs- und Aufgabenverfolgung – die dein Team hoffentlich bereits für andere Entwicklungsarbeiten verwendet – kannst du sicherstellen, dass diese Arbeit priorisiert und nicht vergessen wird.

Funktionen

 

 

Feature set

Questions to ask

Shared workflow pipeline

Can my team plan any incident remediation work alongside their other work and priorities?

Integrations

Can my team pull in data and content from my other incident tools?

Unsere Empfehlung: Jira Software

Weiter geht's
KPIs