Close

Gestion des incidents pour les équipes haute vélocité

Les sept phases d'une réponse efficace aux incidents

In the midst of daily operations, an IT leader suddenly receives a barrage of alerts — a service outage threatens to disrupt their system. However the seasoned incident management team has faced similar challenges before and swiftly springs into action. By following a well-rehearsed plan and incident response best practices, they coordinate to mitigate the issue, limit damage, and restore operations, averting customer impact.

Incident response should not be reactionary but a well-defined series of practices and processes that you implement when unforeseen events occur. By understanding the structured incident response lifecycle, companies gain guidance through a strategic framework to swiftly identify, react to, and neutralize disruptions or security threats, ensuring a prompt return to normal operations.

This guide will cover the incident response lifecycle and its phases, the types of security incidents, and essential tools for effective incident management. Additionally, it will address key team members, potential challenges, and insights to streamline and fortify incident response strategies.

Qu'est-ce que la réponse aux incidents ?

La réponse aux incidents est le processus de réaction d'une entreprise aux menaces informatiques comme les cyberattaques, les violations de sécurité et les pannes serveurs.

D'autres équipes informatiques opérationnelles et DevOps peuvent qualifier la pratique de gestion des incidents majeurs ou simplement de gestion des incidents.

Processus de réponse aux incidents

Les sections suivantes décrivent un processus de réponse aux incidents, les étapes à suivre entre l'identification d'une panne de service et la restauration, et reposent sur les informations de notre propre Manuel de gestion des incidents.

Dans cet article, nous couvrirons les sept phases clés de la réponse aux incidents :

  1. Détecter l'incident
  2. Configurer les canaux de communication de l'équipe
  3. Évaluer l'impact et appliquer un niveau de gravité
  4. Communiquez avec les clients
  5. Faire remonter aux bons intervenants
  6. Déléguer les rôles de réponse aux incidents
  7. Résoudre l'incident
Workflow de réponse aux incidents

Détecter l'incident

Dans l'idéal, les outils de surveillance et d'alerte détecteront et informeront votre équipe d'un incident avant même que vos clients ne le remarquent. Il peut toutefois arriver que vous découvriez d'abord un incident sur Twitter ou dans des tickets de support client.

Quelle que soit la façon dont l'incident est détecté, la première étape pour vous doit être de consigner la création d'un incident dans un outil de suivi des incidents. Dans une solution de gestion des incidents telle que Jira Service Management, les alertes et la communication sont intégrées à votre outil de suivi.

Configurer les canaux de communication de l'équipe

L'une des premières choses que fait le gestionnaire d'incident (IM) lorsqu'il se connecte est de mettre en place les canaux de communication de l'équipe chargée des incidents. L'objectif à ce stade est d'établir et de rassembler toutes les communications des équipes en cas d'incident dans des endroits bien identifiés, par exemple :

  • Groupe de discussion dans Slack ou un autre service de messagerie
  • Chat vidéo dans une app de conférence comme Zoom (ou si vous êtes tous au même endroit, rassemblez l'équipe dans une salle physique)

Nous préférons utiliser à la fois le chat vidéo et un outil de chat texte pendant les incidents, car les deux excellent à des fins différentes. Le chat vidéo est idéal pour créer rapidement une image mentale partagée de l'incident par le biais de discussions de groupe. Et Slack permet de générer un enregistrement horodaté de l'incident, et de collecter des liens vers des captures d'écran, des URL et des tableaux de bord.

Slack et la plupart des autres outils de chat permettent aux utilisateurs de définir un sujet de groupe. Le gestionnaire d'incident doit utiliser ce champ pour obtenir des informations sur l'incident ainsi que des liens utiles.

Enfin, le gestionnaire d'incident définit son propre état dans le chat en fonction de la clé du ticket de l'incident qu'il gère. Cela permet à ses collègues de savoir qu'il est occupé à gérer un incident.

Preparation

Preparation is the core of an incident response plan and determines a company’s responsiveness to an attack. A well-documented pre-incident process facilitates smooth navigation through intense, high-stress scenarios.

Any company will be more resilient with a robust incident response process based on the Atlassian Incident Handbook.

Identification

This phase involves detecting and verifying incidents through error messages, log files, and monitoring tools. Incidents might be identified through social media or customer support tickets, requiring the response team to manually record the incident in an incident-tracking tool.

Tools like Jira Service Management centralize all alerts and incoming signals from your monitoring, service desk, and logging applications, making it easy to categorize and prioritize issues.

Containment

Once you detect an incident, containment helps prevent further damage. During containment, the response team aims to minimize the scope and effects of an incident.

Eradication

Following containment, the primary focus shifts to removing threats from the company’s network or system. This phase involves a meticulous cleansing of all systems, removing any lingering malicious content to minimize the risk of potential reinfection.

Companies start restoring normal operations by conducting a comprehensive investigation and successfully eliminating threats.

Recovery

After eradicating the threats, the team focuses on restoring the affected systems to their pre-incident state. Data recovery and system restoration are vital for minimizing further losses and ensuring smooth operations.

Lessons learned

Incident debriefings are crucial to refining incident response strategies. The team reviews documentation, evaluates performance, and implements change to enhance incident handling efficiency. Every incident is a learning opportunity for the incident response team.

Tools for effective incident response

Teams need specialized tools, such as security information & event management (SIEM) systems, intrusion detection systems (IDS), forensic tools, and communication platforms, for streamlined incident response processes. 

Tools like Jira Service Management play a critical role in reducing resolution time and negative impacts. They automatically limit noise and surface the most crucial issues to the right team using powerful routing rules and multiple communication channels. 

Évaluer l'impact et appliquer un niveau de gravité

Une fois les canaux de communication de l'équipe chargée des incidents configurés, il est temps d'évaluer l'incident afin que l'équipe puisse décider de ce qu'il faut en dire et de qui doit le résoudre.

Nous utilisons la série de questions suivantes que les responsables des incidents doivent poser à leurs équipes :

  • Quel est l'impact pour les clients (internes ou externes) ?
  • Que voient les clients ?
  • Combien de clients sont concernés (certains, tous) ?
  • Quand l'incident a-t-il commencé ?
  • Combien de cas de support les clients ont-ils ouverts ?
  • Y a-t-il d'autres facteurs (par ex. Twitter, sécurité ou perte de données) ?

L'étape suivante consiste généralement à assigner un niveau de gravité.

Incident response: Frequently asked questions

Why is incident response important?

A well-structured incident response plan minimizes incident impacts, enabling businesses to act swiftly and efficiently against threats. It reduces recovery time, financial loss, and reputational damage.

Who should be on an incident response team?

The incident response team should be diverse and include various roles and responsibilities. The team should include the incident commander, technical leads, communications managers, customer support leads, subject matter experts, social media leads, and problem managers. Executives and leaders across multiple domains within the company should coordinate the team.

What are some challenges of incident response?

Incident response teams often face an array of challenges, from resource constraints to issues with context, prioritization, communication, collaboration, stakeholder visibility, and the occasional human error. Preparedness is crucial to anticipate and tackle these challenges effectively. For example, involving the legal team in the preparation stage can mitigate potential legal or regulatory hurdles.