Close

La voie vers une meilleure gestion des incidents
débute ici

Découvrez le cycle de vie de réponse aux incidents

Côtoyez assez longtemps des professionnels de la sécurité et de la gestion des incidents, et vous dégagerez une tendance. Les personnes les plus intelligentes évoluant dans ces secteurs pensent en termes de cycles, en non de lignes droites.

Pourquoi ? Qu'est-ce que cela signifie ? Eh bien, qu'un incident ou une panne n'est pas un événement isolé clairement délimité dans le temps (même si ça semble être le cas). Les incidents sont une opportunité d'apprentissage.

Ce n'est pas parce qu'un service est à nouveau « opérationnel » que le travail de votre équipe est terminé. Les activités post-incident devraient vous inciter à établir des plans concernant les prochaines feuilles de route, à modifier votre préparation aux futurs incidents et à découvrir de nouvelles fonctionnalités à développer qui limiteront les incidents à l'avenir. Ce cycle d'amélioration est infini, et il existe plusieurs façons de réfléchir aux différentes étapes, selon l'école de pensée à laquelle vous souscrivez.

Qu'est-ce que le cycle de vie de réponse aux incidents ?

La réponse aux incidents est le processus de réaction d'une entreprise aux menaces informatiques comme les cyberattaques, les violations de sécurité et les pannes serveur.

Le cycle de vie de réponse aux incidents constitue le framework pas-à-pas de votre organisation pour identifier une interruption de service ou une menace de sécurité et réagir en conséquence.

Cycle de vie Atlassian de réponse aux incidents

Graphique du cycle de vie Atlassian de réponse aux incidents

1. Détecter l'incident

En général, nous détectons les incidents grâce à des outils de surveillance et d'alerte. Mais ce sont parfois des clients ou des membres de l'équipe qui portent un incident à notre connaissance.

2. Configurer les canaux de communication de l'équipe

La première étape importante consiste à mettre en place les canaux de communication de l'équipe chargée des incidents. L'objectif à ce stade est de rassembler les communications de l'équipe dans des endroits bien identifiés, comme un canal Slack dédié et un pont de vidéoconférence.

3. Évaluer l'impact et appliquer un niveau de gravité

Il est maintenant temps d'évaluer l'impact de l'incident afin que l'équipe puisse déterminer les personnes à contacter et les informations à communiquer aux clients et aux parties prenantes.

4. Communiquer avec les clients

Nous cherchons à communiquer avec les parties prenantes internes et externes dès que possible. Communiquer rapidement et avec précision aide à établir la confiance avec vos clients et le reste de votre organisation.

5. Faire remonter aux bons intervenants

Les intervenants initiaux doivent souvent impliquer d'autres équipes dans l'incident en les appelant à l'aide d'un outil d'alerte comme Opsgenie.

6. Déléguer les rôles de réponse aux incidents

Lorsque d'autres membres de l'équipe se joignent aux intervenants, le gestionnaire d'incident leur délègue un rôle.

7. Résoudre l'incident

Un incident est résolu lorsque l'impact sur l'activité actuelle ou imminente disparaît. À ce stade, le processus de réponse d'urgence prend fin, et l'équipe passe à toutes les tâches de nettoyage et au post-mortem.

Cycle de vie NIST de réponse aux incidents

Le National Institute of Standards and Technology (NIST) utilise un autre cycle de vie de réponse aux incidents standard de l'industrie. Le NIST est un organisme gouvernemental américain qui établit des normes et des pratiques dans des domaines comme la réponse aux incidents et la cybersécurité.

L'institut se targue d'être « l'un des plus anciens laboratoires de sciences physiques du pays ». Il travaille dans le domaine de la technologie au sens large, y compris la cybersécurité, où il est devenu l'un des deux leaders du secteur en matière de réponse aux incidents grâce à ses étapes spécifiques.

Comme Atlassian, le NIST estime que tous les incidents ne peuvent pas être évités. Il vaut donc mieux se préparer :

« Les activités préventives fondées sur les résultats des évaluations des risques peuvent réduire le nombre d'incidents, mais tous ne peuvent pas être évités. Une capacité de réponse aux incidents est donc nécessaire pour détecter rapidement les incidents, limiter les pertes et les destructions, atténuer les faiblesses exploitées et restaurer les services informatiques. » — NIST

Le cycle de vie NIST de réponse aux incidents divise la réponse en quatre phases principales : préparation ; détection et analyse ; maîtrise, éradication et récupération ; et activité postérieure à l'évènement.

Phase 1 : Préparation

La phase de préparation couvre le travail effectué par une organisation pour se préparer à répondre aux incidents, y compris l'utilisation des ressources et des outils adéquats et la formation de l'équipe. Cette phase comprend le travail effectué pour prévenir les incidents.

Phase 2 : Détection et analyse

Selon le NIST, la détection et l'évaluation précises des incidents constituent souvent la partie la plus difficile de la réponse aux incidents pour de nombreuses organisations.

Phase 3 : Maîtrise, éradication et récupération

Cette phase vise à limiter au maximum l'impact de l'incident et à atténuer les interruptions de service.

Phase 4 : Activité postérieure à l'évènement

Apprendre et s'améliorer après un incident constituent l'un des aspects essentiels de la réponse aux incidents. Pourtant, il est le plus souvent ignoré. Cette phase est l'occasion d'analyser les efforts liés à l'incident et à la réponse correspondante. Les objectifs sont de limiter les risques que l'incident ne se reproduise et de trouver des moyens d'améliorer l'activité future de réponse aux incidents.

Réponse aux incidents pour les équipes DevOps modernes

Over the past decade, the DevOps movement has helped teams reshape how they build, deploy, and operate software. Along with that are innovations on how these teams respond to incidents.

L'approche DevOps de gestion des incidents ne diffère pas radicalement des étapes traditionnelles d'une gestion efficace des incidents. La gestion des incidents DevOps met explicitement l'accent sur la participation des équipes de développement dès le début (y compris les équipes d'astreinte) et sur l'assignation du travail en fonction de l'expertise, et non des intitulés de poste.

Réponse aux incidents et amélioration continue

Nous avons commencé l'article en parlant des cycles et des lignes droites. Vous remarquerez un aspect commun à toutes ces approches de gestion des incidents : elles ne sont pas linéaires. Chacune d'entre elles comprend les mêmes éléments de base : des moyens de définir, de détecter et d'identifier les incidents ; des moyens de répondre rapidement et de prendre des mesures pour atténuer les incidents ; et des moyens d'analyser les incidents afin d'améliorer la détection et la réponse futures. Il ne sert à rien d'analyser un incident passé uniquement par simple plaisir. Il n'est pas possible de remonter le temps et de changer ce qui s'est passé. Vous devez apprendre de l'incident pour améliorer la détection et la réponse futures. Les équipes clôturent ce cycle par un apprentissage et une amélioration constants et continus.

suivant
On call