Close

Gestion des incidents pour les équipes haute vélocité

Comment choisir des outils de gestion des incidents

Catégories, fonctionnalités clés, et que rechercher

Il n'existe pas d'outil unique pour la gestion des incidents.

Les équipes les plus performantes utilisent un ensemble d'outils, de pratiques et de personnes adéquats.

Certains outils sont spécifiques à la gestion des incidents, d'autres sont des outils plus généraux que votre équipe utilise également pour d'autres tâches. Et certains outils peuvent être une expérience totalement personnalisée, conçue sur des couches d'intégration et de personnalisation.

Quel que soit le cas d'usage, les bons outils de gestion des incidents ont quelques points communs. Les meilleurs outils de gestion des incidents sont ouverts, fiables et adaptables.

Ouverture : dans un environnement stressant tel qu'un incident, il est essentiel que les bonnes personnes aient accès aux bons outils et aux bonnes informations immédiatement. Cela vaut non seulement pour les personnes répondant aux incidents (intervenants), mais également pour les parties prenantes de l'entreprise qui ont besoin de visibilité sur les efforts d'intervention.

Fiabilité : il y a peu de choses qui sont pires lors d'une réponse aux incidents que de voir ses principaux outils d'intervention tomber en panne. L'utilisation d'outils cloud, tels que Slack et Opsgenie, réduit le risque de panne sur votre infrastructure qui pourraient engendrer une panne de vos outils de réponse.

Adaptabilité : des éléments tels que les intégrations, les workflows, les extensions, les personnalisations et les API ouvrent toutes les possibilités derrière le produit. Vous souhaiterez peut-être vous lancer avec une configuration prête à l'emploi, mais à mesure que vos pratiques et processus évoluent, vous préfèrerez peut-être que vos outils soient suffisamment flexibles pour répondre à l'évolution des besoins.

Avant l'incident

Monitoring

Surveiller les systèmes permet aux équipes DevOps et des opérations informatiques de collecter, d'agréger et de déclencher des alertes sur les données provenant de milliers de services différents en temps réel. Ces éléments sont essentiels pour fournir une visibilité complète sur la santé de vos services et déclenchent souvent la première sonnette d'alarme lors d'un incident.

Avantages

Les outils de surveillance offrent à votre équipe des informations constantes sur la santé de l'infrastructure. Les outils de surveillance modernes déclenchent également des alertes de façon proactive lors d'activités inattendues.

Avantages

Les outils de surveillance offrent à votre équipe des informations constantes sur la santé de l'infrastructure. Les outils de surveillance modernes déclenchent également des alertes de façon proactive lors d'activités inattendues.

Fonctionnalités

Monitoring tools give your team constant insight into the health of the infrastructure. Modern monitoring tools also proactively trigger alerts during unexpected activity.

 

 

Feature Set

Questions to ask

24/7 coverage and analytics

Does the tool have visibility into all my servers and infrastructures?

Integrates with alerting tools

Can my team see real time analytics and dashboards and set alerting thresholds?

 

Does the product integrate with my alerting and on-call tool?

Service d'assistance

Les logiciels de centre de services offrent aux clients et aux employés un endroit où signaler les incidents ainsi que les incidents potentiels.

Avantages

Avec leurs nombreux autres cas d'utilisation (demandes de service, centre d'assistance informatique), les centres de service permettent à votre équipe d'être rapidement informée des incidents par les personnes qui comptent le plus : vos utilisateurs et vos clients.

Fonctionnalités

 

 

Feature set

Questions to ask

Enable self serve

Can customers quickly file tickeCan customers quickly file tickets through a self-service support portal?

 

Can customers find the help they need with automated knowledge-based suggestions?

Notre recommandation : Jira Service Management

Alertes et astreintes

Les alertes rapides et fiables sont une étape essentielle à la réponse aux incidents. C'est la manière dont les équipes s'assurent que les bonnes personnes sont informées d'un incident.

Avantages

Les outils d'alertes informent les intervenants d'astreinte désignés grâce à une combinaison sophistiquée de planification, de processus de remontée et de notifications.

Fonctionnalités

 

 

Feature set

Questions to ask

Works globally

Can I send notifications (SMS, voice, email) to almost anywhere?

Multiple notification methods

Can I send notifications using multiple notification methods like email, SMS, phone, and mobile app push and try them multiple times?

Notre recommandation : Opsgenie

Durant l'incident

Exploitez une base de données de gestion des configurations (CMDB) pour une résolution plus rapide

Pour déterminer l'impact total de l'incident et parvenir à une solution plus rapide, il est essentiel de comprendre les interdépendances au sein de votre infrastructure.

Avantages

Une CMDB vous aide à comprendre les relations et dépendances au sein de votre infrastructure informatique. Si une panne survient, cette carte vous permet de trouver rapidement ce qui suit :

  • Les causes potentielles de l'incident. Par exemple, déterminer sur quel hébergement un service s'exécute en cliquant sur un bouton.
  • Les retombées de l'incident. Par exemple, la découverte d'autres services qui s'exécutent sur le même hébergeur problématique.

Cela signifie que vous pouvez rapidement enquêter et communiquer sur tous les aspects de l'incident.

 

 

Feature set

Questions to ask

Multiple channels

How flexible is the CMDB? Can I store any CI or asset?

Integrations

Can I visualize my infrastructure graphically?

 

Can I link CIs/assets with my service desk issues?

 

Can I link CIs/assets to change requests?

Notre recommandation : Insight

Logo Insight

Répondez plus rapidement aux incidents

Mappez votre infrastructure et ses dépendances de façon native dans Jira. Trouvez et résolvez rapidement la cause des incidents, et augmentez le temps de disponibilité !

Communication entre équipes

Une communication claire et fiable est indéniablement essentielle lors de la gestion des incidents.

Avantages

Une solide plateforme de communication aide les équipes à communiquer, et à partager des observations, des liens, ainsi que des captures d'écran de manière horodatée et préservée. Cela permet de rassembler les bonnes informations et les bonnes personnes lors d'un incident, et de créer un enregistrement détaillé dont tirer des leçons après l'incident.

Fonctionnalités

 

 

Feature set

Questions to ask

Multiple channels

Can my incident response team quickly spin up a dedicated channel for an incident?

Integrations

Can other tools in my incident toolchain post into my team's communication channel?

Notre recommandation : Slack (texte), Zoom (vidéo)

Communication avec les clients

Les outils de communication avec les clients permettent de tenir les clients informés lors d'un incident.

Avantages

À n'en pas douter, les incidents sont généralement une mauvaise expérience pour vos clients. Tenir les clients informés renforce la confiance et accélère les efforts de réponse. Communiquez avec les clients pour leur montrer que vous êtes au courant de l'incident et que vous travaillez sur une correction.

Fonctionnalités

 

 

Feature set

Questions to ask

Off of my infrastructure

Will my communication tool be operational and accessible even if my internal infrastructure is down?

Subscribers and notifications

Can customers opt in to get notifications when I post about an incident?

Notre recommandation : Statuspage

Centre de commande des incidents (ICC)

Le centre de commande des incidents (ICC) est l'espace dans lequel vous stockez votre enregistrement unique de l'incident ainsi que ses informations clés. Il peut s'agir d'un outil de gestion des incidents comme Opsgenie, ou d'un outil de suivi des tickets comme Jira.

Avantages

Un outil de centre de commande offre un espace unique pour mettre tout le monde à la page pendant et après un incident, lister des informations clés telles que l'état de l'incident, les alertes associées, les mises à jour, et plus encore. Il fournit également un historique de l'incident ainsi que les efforts de réponse associés.

Fonctionnalités

 

 

Feature set

Questions to ask

Source of truth

Can team members and stakeholders use this record to locate all the other details of the incident and response activities?

Timeline

Does the tool aggregate a chronological timeline of key events?

 

Can team members and stakeholders quickly get up to speed on the incident?

Notre recommandation : Opsgenie

Après l'incident

Post-mortem et analyses

Les post-mortems sont un rapport écrit de ce qui s'est passé durant l'incident et de toutes les actions de suivi entreprises pour éviter que l'incident ne se reproduise.

Avantages

Une fois l'incident résolu, il arrive encore souvent que les équipes ne connaissent pas les causes profondes et courent le risque que le même incident se reproduise. Les post-mortems permettent d'éviter cela en rassemblant l'équipe pour une analyse post-incident.

Fonctionnalités

 

 

Feature set

Questions to ask

Templates

Can my team use a template to fill out a postmortem?

Map out next actions

Can my team plan out next actions and remediation work during a postmortem?

Notre recommandation : Opsgenie

Suivi des tickets

Un outil de suivi des tickets aide les équipes à cartographier de futures tâches de remédiation à effectuer.

Avantages

Dans de nombreux cas, la résolution de l'incident remet le service en ligne sans s'occuper de la cause profonde. Généralement, des tâches d'ingénierie supplémentaires doivent être réalisées afin de remédier aux causes profondes et de s'assurer que l'incident ne se répète pas. Les outils de suivi des tickets et des tâches, que votre équipe utilise déjà, espérons-le, pour d'autres tâches de développement, permettent de s'assurer que ces tâches sont prioritaires et ne tombent pas aux oubliettes.

Fonctionnalités

 

 

Feature set

Questions to ask

Shared workflow pipeline

Can my team plan any incident remediation work alongside their other work and priorities?

Integrations

Can my team pull in data and content from my other incident tools?

Notre recommandation : Jira Software

suivant
KPIs