Close

Gestion des incidents pour les équipes haute vélocité

Découvrez le cycle de vie de réponse aux incidents

Côtoyez assez longtemps des professionnels de la sécurité et de la gestion des incidents, et vous dégagerez une tendance. Les personnes les plus intelligentes évoluant dans ces secteurs pensent en termes de cycles, en non de lignes droites.

Pourquoi ? Qu'est-ce que cela signifie ? Eh bien, qu'un incident ou une panne n'est pas un événement isolé clairement délimité dans le temps (même si ça semble être le cas). Les incidents sont une opportunité d'apprentissage.

Ce n'est pas parce qu'un service est à nouveau « opérationnel » que le travail de votre équipe est terminé. Les activités post-incident devraient vous inciter à établir des plans concernant les prochaines feuilles de route, à modifier votre préparation aux futurs incidents et à découvrir de nouvelles fonctionnalités à développer qui limiteront les incidents à l'avenir. Ce cycle d'amélioration est infini, et il existe plusieurs façons de réfléchir aux différentes étapes, selon l'école de pensée à laquelle vous souscrivez.

Qu'est-ce que le cycle de vie de réponse aux incidents ?

La réponse aux incidents est le processus de réaction d'une entreprise aux menaces informatiques comme les cyberattaques, les violations de sécurité et les pannes serveur.

Le cycle de vie de réponse aux incidents constitue le framework pas-à-pas de votre organisation pour identifier une interruption de service ou une menace de sécurité et réagir en conséquence.

Cycle de vie Atlassian de réponse aux incidents

Graphique du cycle de vie Atlassian de réponse aux incidents

1. Détecter l'incident

En général, nous détectons les incidents grâce à des outils de surveillance et d'alerte. Mais ce sont parfois des clients ou des membres de l'équipe qui portent un incident à notre connaissance.

Les sources d'alertes d'incident peuvent être multiples : une solution qui intègre différents outils d'alerte et de suivi peut donc faire toute la différence entre une réponse incohérente et fastidieuse et une réponse cohérente et collaborative. Une solution comme Jira Service Management permet aux équipes de personnaliser et de filtrer les alertes sur tous les outils de surveillance, de journalisation et de CI/CD afin de s'assurer que les équipes « swarment » sur les incidents rapidement, tout en évitant la fatigue d'alerte.

2. Configurer les canaux de communication de l'équipe

La première étape importante consiste à mettre en place les canaux de communication de l'équipe chargée des incidents. L'objectif à ce stade est de rassembler les communications de l'équipe dans des endroits bien identifiés, comme un canal Slack dédié et un pont de vidéoconférence.

Dans Jira Service Management, la coordination des réponses aux incidents peut être fluide. Non seulement les équipes peuvent communiquer comme bon leur semble (sur Slack ou en vidéoconférence, par exemple), mais la communication avec les clients est également simplifiée grâce à l'automatisation et à la personnalisation. Nous aborderons la communication externe à l'étape 4.

3. Évaluer l'impact et appliquer un niveau de gravité

Il est maintenant temps d'évaluer l'impact de l'incident afin que l'équipe puisse déterminer les personnes à contacter et les informations à communiquer aux clients et aux parties prenantes. Assigner un niveau de gravité permet non seulement d'identifier l'impact de l'incident, mais également de poser les bases des plans de résolution et des communications externes. Dans Jira Service Management, faire remonter un incident et assigner une gravité déclenche des actions automatisées. De plus, des notifications sont envoyées aux intervenants afin de suivre l'avancement de la résolution.

4. Communiquer avec les clients

Nous cherchons à communiquer avec les parties prenantes internes et externes dès que possible. Communiquer rapidement et avec précision aide à établir la confiance avec vos clients et le reste de votre organisation. Comme déjà mentionné, la personnalisation de votre méthode de communication donne à votre équipe les moyens de travailler comme elle le souhaite, accélérant ainsi la résolution. La personnalisation de la communication permet également à votre équipe de contrôler les messages qu'elle souhaite communiquer et à quel moment. En outre, l'envoi automatisé de réponses directement au client depuis un ticket permet de faire gagner du temps à votre équipe en cas d'incident.

5. Faire remonter aux bons intervenants

Les intervenants initiaux doivent souvent impliquer d'autres équipes dans l'incident en les appelant à l'aide d'une fonctionnalité d'alerte dans Jira Service Management. Rassemblez les intervenants directement dans le ticket d'incident en regroupant les tickets connexes et en mentionnant les intervenants pertinents directement sur le ticket. Les notifications sont ainsi coordonnées et tout le monde dispose du contexte global.

6. Déléguer les rôles de réponse aux incidents

Lorsque d'autres membres de l'équipe se joignent aux intervenants, le gestionnaire d'incident leur délègue un rôle. Il est donc utile de disposer d'un playbook de réponse aux incidents approprié (développé au préalable) qui définit clairement les rôles et les responsabilités. Les membres de l'équipe de réponse aux incidents connaissent chaque rôle et leurs responsabilités lors d'un incident.

7. Résoudre l'incident

Un incident est résolu lorsque l'impact sur l'activité actuelle ou imminente disparaît. À ce stade, le processus de réponse d'urgence prend fin, et l'équipe passe à toutes les tâches de nettoyage et au post-mortem.

Idéalement, votre solution de gestion des incidents suit une chronologie d'incident solide. C'est d'ailleurs le cas lorsque vous utilisez Jira Service Management. Les intervenants peuvent ensuite accéder aux données cruciales sur les incidents et élaborer un rapport qui aide les équipes à éviter que de tels incidents ne se reproduisent et à trouver la cause profonde. Les post-mortems peuvent également servir de ressource, au cas où un événement similaire se reproduirait.

Cycle de vie NIST de réponse aux incidents

Le National Institute of Standards and Technology (NIST) utilise un autre cycle de vie de réponse aux incidents standard de l'industrie. Le NIST est un organisme gouvernemental américain qui établit des normes et des pratiques dans des domaines comme la réponse aux incidents et la cybersécurité.

L'institut se targue d'être « l'un des plus anciens laboratoires de sciences physiques du pays ». Il travaille dans le domaine de la technologie au sens large, y compris la cybersécurité, où il est devenu l'un des deux leaders du secteur en matière de réponse aux incidents grâce à ses étapes spécifiques.

Comme Atlassian, le NIST estime que tous les incidents ne peuvent pas être évités. Il vaut donc mieux se préparer :

« Les activités préventives fondées sur les résultats des évaluations des risques peuvent réduire le nombre d'incidents, mais tous ne peuvent pas être évités. Une capacité de réponse aux incidents est donc nécessaire pour détecter rapidement les incidents, limiter les pertes et les destructions, atténuer les faiblesses exploitées et restaurer les services informatiques. » — NIST

Le cycle de vie NIST de réponse aux incidents divise la réponse en quatre phases principales : préparation ; détection et analyse ; maîtrise, éradication et récupération ; et activité postérieure à l'évènement.

Phase 1 : Préparation

La phase de préparation couvre le travail effectué par une organisation pour se préparer à répondre aux incidents, y compris l'utilisation des ressources et des outils adéquats et la formation de l'équipe. Cette phase comprend le travail effectué pour prévenir les incidents.

Phase 2 : Détection et analyse

Selon le NIST, la détection et l'évaluation précises des incidents constituent souvent la partie la plus difficile de la réponse aux incidents pour de nombreuses organisations.

Phase 3 : Maîtrise, éradication et récupération

Cette phase vise à limiter au maximum l'impact de l'incident et à atténuer les interruptions de service.

Phase 4 : Activité postérieure à l'évènement

Apprendre et s'améliorer après un incident constituent l'un des aspects essentiels de la réponse aux incidents. Pourtant, il est le plus souvent ignoré. Cette phase est l'occasion d'analyser les efforts liés à l'incident et à la réponse correspondante. Les objectifs sont de limiter les risques que l'incident ne se reproduise et de trouver des moyens d'améliorer l'activité future de réponse aux incidents.

Réponse aux incidents pour les équipes DevOps modernes

Au cours des dix dernières années, le mouvement DevOps a aidé les équipes à repenser la façon dont elles développent, déploient et utilisent les logiciels. Cette évolution s'accompagne d'innovations en matière de réponse aux incidents.

L'approche DevOps de gestion des incidents ne diffère pas radicalement des étapes traditionnelles d'une gestion efficace des incidents. La gestion des incidents DevOps met explicitement l'accent sur la participation des équipes de développement dès le début (y compris les équipes d'astreinte) et sur l'assignation du travail en fonction de l'expertise, et non des intitulés de poste.

Réponse aux incidents et amélioration continue

Nous avons commencé l'article en parlant des cycles et des lignes droites. Vous remarquerez un aspect commun à toutes ces approches de gestion des incidents : elles ne sont pas linéaires. Chacune d'entre elles comprend les mêmes éléments de base : des moyens de définir, de détecter et d'identifier les incidents ; des moyens de répondre rapidement et de prendre des mesures pour atténuer les incidents ; et des moyens d'analyser les incidents afin d'améliorer la détection et la réponse futures. Il ne sert à rien d'analyser un incident passé uniquement par simple plaisir. Il n'est pas possible de remonter le temps et de changer ce qui s'est passé. Vous devez apprendre de l'incident pour améliorer la détection et la réponse futures. Les équipes clôturent ce cycle par un apprentissage et une amélioration constants et continus.

Le processus de réponse aux incidents (non linéaire) implique de nombreuses composantes mobiles. Vous souhaitez garder une trace de chaque étape grâce à des outils de collaboration et de communication intégrés ? Rien de plus facile avec une solution de gestion des incidents comme Jira Service Management. Centralisez les alertes et unifiez les équipes de manière flexible pour répondre aux incidents et les résoudre rapidement.

Up Next
Playbook