Close

Zarządzanie incydentami dla dynamicznych zespołów

7 etapów skutecznej reakcji na incydenty

In the midst of daily operations, an IT leader suddenly receives a barrage of alerts — a service outage threatens to disrupt their system. However the seasoned incident management team has faced similar challenges before and swiftly springs into action. By following a well-rehearsed plan and incident response best practices, they coordinate to mitigate the issue, limit damage, and restore operations, averting customer impact.

Incident response should not be reactionary but a well-defined series of practices and processes that you implement when unforeseen events occur. By understanding the structured incident response lifecycle, companies gain guidance through a strategic framework to swiftly identify, react to, and neutralize disruptions or security threats, ensuring a prompt return to normal operations.

This guide will cover the incident response lifecycle and its phases, the types of security incidents, and essential tools for effective incident management. Additionally, it will address key team members, potential challenges, and insights to streamline and fortify incident response strategies.

Na czym polega reakcja na incydent?

Reakcja na incydent to procedura postępowania organizacji w obliczu zagrożeń IT, takich jak cyberatak, naruszenie bezpieczeństwa czy awaria serwera.

Inne zespoły zajmujące się eksploatacją systemów informatycznych i zespoły DevOps mogą nazywać tę praktykę zarządzaniem poważnymi incydentami lub po prostu zarządzaniem incydentami.

Proces reagowania na incydent

Poniższe sekcje zawierają opis procesu reagowania na incydent obejmującego wszystkie etapy — od wykrycia przerwy w dostawie usługi po jej ponowne przywrócenie — zaczerpnięty z naszego własnego podręcznika do incydentów.

W tym artykule omówimy siedem kluczowych etapów procesu reagowania na incydenty:

  1. Wykrycie incydentu
  2. Skonfigurowanie kanałów komunikacji zespołowej
  3. Ocena wpływu i ustalenie poziomu ważności
  4. Komunikacja z klientami
  5. Eskalacja do właściwych osób reagujących
  6. Delegowanie ról związanych z reagowaniem na incydenty
  7. Rozwiązanie incydentu
Przepływ pracy w procesie reagowania na incydenty

Wykrycie incydentu

Najlepiej, jeśli narzędzia do monitorowania i powiadamiania wykryją incydent i powiadomią o nim zespół, zanim jeszcze klienci zauważą, że do niego doszło. Czasami jednak najpierw dowiadujemy się o incydencie z Twittera lub zgłoszeń wsparcia dla klientów.

Niezależnie od sposobu wykrycia incydentu pierwszym krokiem powinno być zarejestrowanie otwarcia nowego incydentu w narzędziu do śledzenia incydentów. W rozwiązaniu do zarządzania incydentami, takim jak Jira Service Management, funkcje alertów i komunikacji są zintegrowane z narzędziem do śledzenia.

Skonfigurowanie kanałów komunikacji zespołowej

Jednym z pierwszych kroków menedżera ds. incydentów jest skonfigurowanie kanałów komunikacji dla zespołu zajmującego się incydentem. Na tym etapie celem jest rozpoczęcie komunikacji całego zespołu ds. incydentu i skupienie jej w dobrze znanych miejscach, takich jak:

  • Pokój w narzędziu Slack lub innym komunikatorze.
  • Czat wideo w aplikacji do konferencji, np. Zoom (lub zebranie, jeśli wszyscy pracują w tym samym miejscu).

W trakcie incydentów preferujemy korzystanie z narzędzi do czatów wideo i tekstowych, ponieważ rozwiązania te sprawdzają się w różnych sytuacjach. Czat wideo jest doskonały do szybkiego tworzenia wspólnego wyobrażenia o incydencie w trakcie dyskusji grupowej. Z kolei platformę Slack można wykorzystać do wygenerowania rejestru czasowego uwzględniającego znaczniki czasu oraz łącza do zrzutów ekranu, adresów URL i pulpitów.

Podobnie jak większość innych narzędzi czatu, Slack umożliwia użytkownikom ustawienie tematu pokoju. Menedżer ds. incydentów powinien zamieścić w tym polu informację na temat incydentu wraz z przydatnymi łączami.

Na koniec menedżer ds. incydentów umieszcza w statusie swojego czatu identyfikator zgłoszenia zdarzenia, którym zarządza. Dzięki temu jego współpracownicy wiedzą, że zajmuje się zdarzeniem.

Preparation

Preparation is the core of an incident response plan and determines a company’s responsiveness to an attack. A well-documented pre-incident process facilitates smooth navigation through intense, high-stress scenarios.

Any company will be more resilient with a robust incident response process based on the Atlassian Incident Handbook.

Identification

This phase involves detecting and verifying incidents through error messages, log files, and monitoring tools. Incidents might be identified through social media or customer support tickets, requiring the response team to manually record the incident in an incident-tracking tool.

Tools like Jira Service Management centralize all alerts and incoming signals from your monitoring, service desk, and logging applications, making it easy to categorize and prioritize issues.

Containment

Once you detect an incident, containment helps prevent further damage. During containment, the response team aims to minimize the scope and effects of an incident.

Eradication

Following containment, the primary focus shifts to removing threats from the company’s network or system. This phase involves a meticulous cleansing of all systems, removing any lingering malicious content to minimize the risk of potential reinfection.

Companies start restoring normal operations by conducting a comprehensive investigation and successfully eliminating threats.

Recovery

After eradicating the threats, the team focuses on restoring the affected systems to their pre-incident state. Data recovery and system restoration are vital for minimizing further losses and ensuring smooth operations.

Lessons learned

Incident debriefings are crucial to refining incident response strategies. The team reviews documentation, evaluates performance, and implements change to enhance incident handling efficiency. Every incident is a learning opportunity for the incident response team.

Tools for effective incident response

Teams need specialized tools, such as security information & event management (SIEM) systems, intrusion detection systems (IDS), forensic tools, and communication platforms, for streamlined incident response processes. 

Tools like Jira Service Management play a critical role in reducing resolution time and negative impacts. They automatically limit noise and surface the most crucial issues to the right team using powerful routing rules and multiple communication channels. 

Ocena wpływu i ustalenie poziomu ważności

Po skonfigurowaniu kanałów komunikacji pomiędzy członkami zespołu ds. zdarzenia należy ocenić zdarzenie, aby zespół mógł zdecydować, co powiedzieć o zdarzeniu i kto ma naprawić problem.

Opracowaliśmy poniższy zestaw pytań, które zadają swoim zespołom kierownicy ds. zdarzeń:

  • Jakie są skutki dla klientów (wewnętrznych lub zewnętrznych)?
  • Co widzą klienci?
  • Ilu klientów dotyczy problem (niektórych, wszystkich)?
  • Kiedy zaczęło się zdarzenie?
  • Ile zgłoszeń do pomocy technicznej otrzymano od klientów?
  • Czy istnieją inne czynniki, np. Twitter, zabezpieczenia lub utrata danych?

Następnym krokiem jest zazwyczaj przypisanie poziomu ważności.

Incident response: Frequently asked questions

Why is incident response important?

A well-structured incident response plan minimizes incident impacts, enabling businesses to act swiftly and efficiently against threats. It reduces recovery time, financial loss, and reputational damage.

Who should be on an incident response team?

The incident response team should be diverse and include various roles and responsibilities. The team should include the incident commander, technical leads, communications managers, customer support leads, subject matter experts, social media leads, and problem managers. Executives and leaders across multiple domains within the company should coordinate the team.

What are some challenges of incident response?

Incident response teams often face an array of challenges, from resource constraints to issues with context, prioritization, communication, collaboration, stakeholder visibility, and the occasional human error. Preparedness is crucial to anticipate and tackle these challenges effectively. For example, involving the legal team in the preparation stage can mitigate potential legal or regulatory hurdles.