Close

Gestion des incidents pour les équipes haute vélocité

Comment choisir des outils de gestion des incidents

Catégories, fonctionnalités clés, et que rechercher

Il n'existe pas d'outil unique pour la gestion des incidents.

Les équipes les plus performantes utilisent un ensemble d'outils, de pratiques et de personnes adéquats.

Certains outils sont spécifiques à la gestion des incidents, d'autres sont des outils plus généraux que votre équipe utilise également pour d'autres tâches. Et certains outils peuvent être une expérience totalement personnalisée, conçue sur des couches d'intégration et de personnalisation.

Quel que soit le cas d'usage, les bons outils de gestion des incidents ont quelques points communs. Les meilleurs outils de gestion des incidents sont ouverts, fiables et adaptables.

Ouverture : dans un environnement stressant tel qu'un incident, il est essentiel que les bonnes personnes aient accès aux bons outils et aux bonnes informations immédiatement. Cela vaut non seulement pour les personnes répondant aux incidents (intervenants), mais également pour les parties prenantes de l'entreprise qui ont besoin de visibilité sur les efforts d'intervention.

Fiabilité : il y a peu de choses qui sont pires lors d'une réponse aux incidents que de voir ses principaux outils d'intervention tomber en panne. L'utilisation d'outils cloud, tels que Slack et Opsgenie, réduit le risque de panne sur votre infrastructure qui pourraient engendrer une panne de vos outils de réponse.

Adaptabilité : des éléments tels que les intégrations, les workflows, les extensions, les personnalisations et les API ouvrent toutes les possibilités derrière le produit. Vous souhaiterez peut-être vous lancer avec une configuration prête à l'emploi, mais à mesure que vos pratiques et processus évoluent, vous préfèrerez peut-être que vos outils soient suffisamment flexibles pour répondre à l'évolution des besoins.

Illustration de cycle de gestion des incidents

Avant l'incident

Monitoring

Surveiller les systèmes permet aux équipes DevOps et des opérations informatiques de collecter, d'agréger et de déclencher des alertes sur les données provenant de milliers de services différents en temps réel. Ces éléments sont essentiels pour fournir une visibilité complète sur la santé de vos services et déclenchent souvent la première sonnette d'alarme lors d'un incident.

Avantages

Les outils de surveillance offrent à votre équipe des informations constantes sur la santé de l'infrastructure. Les outils de surveillance modernes déclenchent également des alertes de façon proactive lors d'activités inattendues.

Fonctionnalités

 

Ensemble de fonctionnalités

Questions à poser

 

Ensemble de fonctionnalités

Couverture et analyses 24 h/24 7 j/7

Questions à poser

L'outil a-t-il une visibilité sur l'ensemble de mes serveurs et infrastructures ?

Mon équipe peut-elle voir les analyses et les tableaux de bord en temps réel et définir des seuils d'alerte ?

 

Ensemble de fonctionnalités

S'intègre aux outils d'alerte

Questions à poser

Le produit s'intègre-t-il à mon outil d'alerte et de gestion des astreintes ?

Service d'assistance

Les logiciels de centre de services offrent aux clients et aux employés un endroit où signaler les incidents ainsi que les incidents potentiels.

Avantages

Avec leurs nombreux autres cas d'utilisation (demandes de service, centre d'assistance informatique), les centres de service permettent à votre équipe d'être rapidement informée des incidents par les personnes qui comptent le plus : vos utilisateurs et vos clients.

Fonctionnalités

 

Ensemble de fonctionnalités

Questions à poser

 

Ensemble de fonctionnalités

Activer le libre-service

Questions à poser

Les clients peuvent-ils créer rapidement des tickets par le biais d'un portail de services ?

Les clients peuvent-ils trouver l'aide dont ils ont besoin grâce à des suggestions automatisées issues de la base de connaissances ?

Notre recommandation : Jira Service Management

Alertes et astreintes

Les alertes rapides et fiables sont une étape essentielle à la réponse aux incidents. C'est la manière dont les équipes s'assurent que les bonnes personnes sont informées d'un incident.

Avantages

Les outils d'alertes informent les intervenants d'astreinte désignés grâce à une combinaison sophistiquée de planification, de processus de remontée et de notifications.

Fonctionnalités

 

Ensemble de fonctionnalités

Questions à poser

 

Ensemble de fonctionnalités

Fonctionne dans le monde entier

Questions à poser

Puis-je envoyer des notifications (e-mails, SMS, appels vocaux) presque partout dans le monde ?

 

Ensemble de fonctionnalités

Plusieurs méthodes de notifications

Questions à poser

Puis-je envoyer des notifications en utilisant plusieurs méthodes de notification comme les e-mails, les SMS, les appels, les notifications Push pour l'app mobile, et les essayer plusieurs fois ?

Notre recommandation : Opsgenie

Durant l'incident

Exploitez une base de données de gestion des configurations (CMDB) pour une résolution plus rapide

Pour déterminer l'impact total de l'incident et parvenir à une solution plus rapide, il est essentiel de comprendre les interdépendances au sein de votre infrastructure.

Avantages

Une CMDB vous aide à comprendre les relations et dépendances au sein de votre infrastructure informatique. Si une panne survient, cette carte vous permet de trouver rapidement ce qui suit :

  • Les causes potentielles de l'incident. Par exemple, déterminer sur quel hébergement un service s'exécute en cliquant sur un bouton.
  • Les retombées de l'incident. Par exemple, la découverte d'autres services qui s'exécutent sur le même hébergeur problématique.

Cela signifie que vous pouvez rapidement enquêter et communiquer sur tous les aspects de l'incident.

Notre recommandation : Insight

Logo Insight

Répondez plus rapidement aux incidents

Mappez votre infrastructure et ses dépendances de façon native dans Jira. Trouvez et résolvez rapidement la cause des incidents, et augmentez le temps de disponibilité !

Communication entre équipes

Une communication claire et fiable est indéniablement essentielle lors de la gestion des incidents.

Avantages

Une solide plateforme de communication aide les équipes à communiquer, et à partager des observations, des liens, ainsi que des captures d'écran de manière horodatée et préservée. Cela permet de rassembler les bonnes informations et les bonnes personnes lors d'un incident, et de créer un enregistrement détaillé dont tirer des leçons après l'incident.

Fonctionnalités

 

Ensemble de fonctionnalités

Questions à poser

 

Ensemble de fonctionnalités

Canaux multiples

Questions à poser

Mon équipe de réponse aux incidents peut-elle rapidement mettre en place un canal dédié pour un incident ?

 

Ensemble de fonctionnalités

Intégrations

Questions à poser

Les autres outils de ma chaîne d'incidents peuvent-ils publier dans le canal de communication de mon équipe ?

Notre recommandation : Slack (texte), Zoom (vidéo)

Communication avec les clients

Les outils de communication avec les clients permettent de tenir les clients informés lors d'un incident.

Avantages

À n'en pas douter, les incidents sont généralement une mauvaise expérience pour vos clients. Tenir les clients informés renforce la confiance et accélère les efforts de réponse. Communiquez avec les clients pour leur montrer que vous êtes au courant de l'incident et que vous travaillez sur une correction.

Fonctionnalités

 

Ensemble de fonctionnalités

Questions à poser

 

Ensemble de fonctionnalités

Hors de mon infrastructure

Questions à poser

Mon outil de communication sera-t-il opérationnel et accessible même si mon infrastructure interne est en panne ?

 

Ensemble de fonctionnalités

Abonnés et notifications

Questions à poser

Les clients peuvent-ils choisir de recevoir des notifications lorsque je publie du contenu sur un incident ?

Notre recommandation : Statuspage

Centre de commande des incidents (ICC)

Le centre de commande des incidents (ICC) est l'espace dans lequel vous stockez votre enregistrement unique de l'incident ainsi que ses informations clés. Il peut s'agir d'un outil de gestion des incidents comme Opsgenie, ou d'un outil de suivi des tickets comme Jira.

Avantages

Un outil de centre de commande offre un espace unique pour mettre tout le monde à la page pendant et après un incident, lister des informations clés telles que l'état de l'incident, les alertes associées, les mises à jour, et plus encore. Il fournit également un historique de l'incident ainsi que les efforts de réponse associés.

Fonctionnalités

 

Ensemble de fonctionnalités

Questions à poser

 

Ensemble de fonctionnalités

Source de référence

Questions à poser

Les membres de l'équipe et les parties prenantes peuvent-ils être rapidement opérationnels sur l'incident ?

Les membres de l'équipe et les parties prenantes peuvent-ils utiliser cet enregistrement pour localiser toutes les autres informations relatives à l'incident et les activités de réponse ?

 

Ensemble de fonctionnalités

Chronologie

Questions à poser

L'outil permet-il d'agréger une chronologie des événements clés ?

Notre recommandation : Opsgenie

Après l'incident

Post-mortem et analyses

Les post-mortems sont un rapport écrit de ce qui s'est passé durant l'incident et de toutes les actions de suivi entreprises pour éviter que l'incident ne se reproduise.

Avantages

Une fois l'incident résolu, il arrive encore souvent que les équipes ne connaissent pas les causes profondes et courent le risque que le même incident se reproduise. Les post-mortems permettent d'éviter cela en rassemblant l'équipe pour une analyse post-incident.

Fonctionnalités

 

Ensemble de fonctionnalités

Questions à poser

 

Ensemble de fonctionnalités

Modèles

Questions à poser

Mon équipe peut-elle utiliser un modèle pour remplir un post-mortem ?

 

Ensemble de fonctionnalités

Cartographiez les actions suivantes

Questions à poser

Mon équipe peut-elle planifier les actions suivantes et les tâches de remédiation durant un post-mortem ?

Notre recommandation : Opsgenie

Suivi des tickets

Un outil de suivi des tickets aide les équipes à cartographier de futures tâches de remédiation à effectuer.

Avantages

Dans de nombreux cas, la résolution de l'incident remet le service en ligne sans s'occuper de la cause profonde. Généralement, des tâches d'ingénierie supplémentaires doivent être réalisées afin de remédier aux causes profondes et de s'assurer que l'incident ne se répète pas. Les outils de suivi des tickets et des tâches, que votre équipe utilise déjà, espérons-le, pour d'autres tâches de développement, permettent de s'assurer que ces tâches sont prioritaires et ne tombent pas aux oubliettes.

Fonctionnalités

 

Ensemble de fonctionnalités

Questions à poser

 

Ensemble de fonctionnalités

Pipeline de workflow partagé

Questions à poser

Mon équipe peut-elle planifier la remédiation d'un incident en parallèle de ses autres tâches et priorités ?

 

Ensemble de fonctionnalités

Intégrations

Questions à poser

Mon équipe peut-elle créer des données et du contenu depuis mes autres outils de gestion des incidents ?

Notre recommandation : Jira Software

Up Next
KPIs