Close

Droga do lepszego zarządzania incydentami zaczyna się tutaj

7 etapów skutecznej reakcji na incydenty

Reakcja na incydent to procedura postępowania organizacji w obliczu zagrożeń IT, takich jak cyberatak, naruszenie bezpieczeństwa czy awaria serwera.

Inne zespoły zajmujące się eksploatacją systemów informatycznych i zespoły DevOps mogą nazywać tę praktykę zarządzaniem poważnymi incydentami lub po prostu zarządzaniem incydentami.

Poniższe sekcje zawierają opis procesu reagowania na incydent obejmującego wszystkie etapy — od wykrycia przerwy w dostawie usługi po jej ponowne przywrócenie — zaczerpnięty z naszego własnego podręcznika do incydentów.

W tym artykule omówimy siedem kluczowych etapów procesu reagowania na incydenty:

  1. Wykrycie incydentu
  2. Skonfigurowanie kanałów komunikacji zespołowej
  3. Ocena wpływu i ustalenie poziomu ważności
  4. Komunikacja z klientami
  5. Eskalacja do właściwych osób reagujących
  6. Delegowanie ról związanych z reagowaniem na incydenty
  7. Rozwiązanie incydentu
Przepływ pracy w procesie reagowania na incydenty

Wykrycie incydentu

Najlepiej, jeśli narzędzia do monitorowania i powiadamiania wykryją incydent i powiadomią o nim zespół, zanim jeszcze klienci zauważą, że do niego doszło. Czasami jednak najpierw dowiadujemy się o incydencie z Twittera lub zgłoszeń wsparcia dla klientów.

No matter how the incident is detected, your first step should be to record that a new incident is open in a tool for tracking incidents. In an incident management solution such as Jira Service Management, alerting and communication is integrated with your tracking tool.

Skonfigurowanie kanałów komunikacji zespołowej

One of the first things the incident manager (IM) does when they come online is set up the incident team's communication channels. The goal at this point is to establish and focus all incident team communications in well-known places, such as:

  • Pokój w narzędziu Slack lub innym komunikatorze.
  • Czat wideo w aplikacji umożliwiającej odbywanie konferencji, np. Skype, Blue Jeans itp. (lub zebranie, jeśli wszyscy pracują w tym samym miejscu).

W trakcie incydentów preferujemy korzystanie z narzędzi do czatów wideo i tekstowych, ponieważ rozwiązania te sprawdzają się w różnych sytuacjach. Czat wideo jest doskonały do szybkiego tworzenia wspólnego wyobrażenia o incydencie w trakcie dyskusji grupowej. Z kolei platformę Slack można wykorzystać do wygenerowania rejestru czasowego uwzględniającego znaczniki czasu oraz łącza do zrzutów ekranu, adresów URL i pulpitów.

Podobnie jak większość innych narzędzi czatu, Slack umożliwia użytkownikom ustawienie tematu pokoju. Menedżer ds. incydentów powinien zamieścić w tym polu informację na temat incydentu wraz z przydatnymi łączami.

Na koniec menedżer ds. incydentów umieszcza w statusie swojego czatu identyfikator zgłoszenia zdarzenia, którym zarządza. Dzięki temu jego współpracownicy wiedzą, że zajmuje się zdarzeniem.

Ocena wpływu i ustalenie poziomu ważności

Po skonfigurowaniu kanałów komunikacji pomiędzy członkami zespołu ds. zdarzenia należy ocenić zdarzenie, aby zespół mógł zdecydować, co powiedzieć o zdarzeniu i kto ma naprawić problem.

Opracowaliśmy poniższy zestaw pytań, które zadają swoim zespołom kierownicy ds. zdarzeń:

  • Jakie są skutki dla klientów (wewnętrznych lub zewnętrznych)?
  • Co widzą klienci?
  • Ilu klientów dotyczy problem (niektórych, wszystkich)?
  • Kiedy zaczęło się zdarzenie?
  • Ile zgłoszeń do pomocy technicznej otrzymano od klientów?
  • Czy istnieją inne czynniki, np. Twitter, zabezpieczenia lub utrata danych?

The next step typically is to assign a severity level.

Poziomy ważności w reagowaniu na incydenty

Poziom ważności 1
Opis: Incydent krytyczny o bardzo poważnych skutkach
Przykłady:

  • Usługa skierowana do klienta jest dostępna dla wszystkich użytkowników
  • Miało miejsce naruszenie poufności lub prywatności
  • Nastąpiła utrata danych klientów

Poziom ważności 2
Poważny incydent o znaczących skutkach
Przykłady:

  • Usługa skierowana do klientów jest niedostępna dla niektórych, ale nie dla wszystkich klientów
  • Nastąpiło znaczne ograniczenie podstawowej funkcjonalności

Poziom ważności 3
Drobny incydent o niewielkich skutkach
Przykłady:

  • Drobna niedogodność dla klientów; dostępne obejście.
  • Obniżenie dostępnej wydajności.

Zastosowanie systemu numeracji do opisu poziomów ważności pozwala szybko zdefiniować incydent i przekazać informacje na jego temat. Wystarczy powiedzieć: „prawdopodobnie mamy do czynienia z poziomem 1”, a właściwe osoby natychmiast zrozumieją powagę sytuacji, zanim jeszcze otrzymają dodatkowe informacje.

Poziomy ważności mogą również ułatwić opracowanie wytycznych dotyczących oczekiwań związanych z reakcją.

Na przykład w niektórych firmach incydenty o poziomie ważności 3 mogą być rozwiązywane w godzinach pracy, podczas gdy te o poziomie ważności 1 i 2 wymagają od członków zespołu podjęcia natychmiastowych działań naprawczych.

Definicje poziomów istotności powinny być udokumentowane i jednakowe w całej organizacji.

Komunikacja z klientami

Gdy zespół ustali, że faktycznie doszło do incydentu, najlepiej jak najszybciej powiadomić interesariuszy wewnętrznych i zewnętrznych.

Celem komunikacji wewnętrznej jest zwrócenie uwagi na reagowanie na zdarzenie w jednym miejscu i uniknięcie nieporozumień.

Celem komunikacji zewnętrznej jest poinformowanie klientów, że zespół jest świadomy wystąpienia nieprawidłowości i pracuje nad jej usunięciem. Szybkie i precyzyjne powiadamianie pomaga budować zaufanie wśród klientów i innych pracowników organizacji.

W celu wewnętrznej i zewnętrznej komunikacji wiele zespołów korzysta z narzędzia Statuspage. Poniżej przedstawiamy dwa proste szablony komunikatów informacyjnych na stronę z informacjami o statusie dla zespołów wewnętrznych lub zewnętrznych:

Komunikat dla klientów wewnętrznych w Statuspage


Wyjaśniamy incydent dotyczący , i . Niebawem prześlemy więcej informacji za pośrednictwem poczty e-mail i w narzędziu Statuspage.

Komunikat dla klientów zewnętrznych w Statuspage

Wyjaśniamy problem z działaniem .

Wyjaśniamy problem z działaniem i niebawem opublikujemy tutaj więcej informacji.

Eskalacja do właściwych osób reagujących

Sometimes the initial responders are the ones who resolve the incident. More often than not, those responders need to bring other teams into the incident by paging them using an alerting tool. With Jira Service Management, responders can take their pick as to what alerting method they use, or even use them all in one central location.

Narzędzia do obsługi alertów umożliwiają zespołom definiowanie harmonogramów dyżurów, w których członkowie personelu mają być na przemian dostępni w czasie incydentu. Jest to lepsze rozwiązanie niż poleganie na konkretnej osobie za każdym razem, gdy dochodzi do incydentu. Ta sama osoba nie zawsze będzie dostępna (może być na urlopie, zmienić pracę lub cierpieć z powodu wypalenia, jeśli będzie zbyt intensywnie eksploatowana).

Delegowanie ról związanych z reagowaniem na incydenty

After a new incident responder is paged and comes online, the incident manager delegates a role to them. As It’s important they understand what's required of their role, and how to contribute to the incident team quickly and effectively.

Kolejną zaletą definiowania ról jest większa zdolność do adaptacji i elastyczność. Jeśli osoba wie, jak wypełnić określoną rolę w danym zdarzeniu, może się jej podjąć.

Trzy kluczowe role w reagowaniu na incydenty

Kierownik ds. zdarzeń

Każdym incydentem zarządza menedżer ds. incydentów , który ponosi bezpośrednią odpowiedzialność za działania z nim związane.

Menedżer ds. incydentów ma upoważnienie do podejmowania wszelkich działań koniecznych w celu rozwiązania incydentu, do których należą wezwanie dowolnej osoby w przedsiębiorstwie i dopilnowanie, aby osoby zaangażowane w usuwanie incydentu jak najszybciej przywróciły działanie usługi.

Kierownik ds. technicznych

Starszy specjalista techniczny ds. reagowania. Odpowiada za opracowywanie teorii na temat zakresu awarii i jej przyczyn. Decyduje o zmianach i zarządza zespołem technicznym. Współpracuje ściśle z menedżerem ds. incydentów.

Menedżer ds. komunikacji

Osoba posiadająca wiedzę z zakresu informowania opinii publicznej. Może być pracownikiem działu obsługi klienta lub PR. Odpowiada za opracowywanie i wysyłanie wewnętrznych i zewnętrznych komunikatów na temat incydentu.

Rozwiązanie incydentu

Nie ma jednego uniwersalnego procesu, który pozwoliłby rozwiązać każdy incydent. Gdyby istniał, po prostu byśmy go zautomatyzowali i mieli całą sprawę z głowy. Zamiast tego staramy się czerpać inspirację z metody naukowej. Powtarzamy poniższy proces, aby szybko dostosowywać się do różnych scenariuszy reagowania na incydenty:

  • Zaobserwowanie zdarzenia. Udostępnienie i potwierdzenie obserwacji.
  • Opracowanie teorii na temat przyczyn.
  • Opracowanie i przeprowadzenie eksperymentów w celu zweryfikowania lub sfalsyfikowania teorii.
  • Powtarzanie procedury do czasu rozwiązania incydentu.

Incydent uznaje się za rozwiązany, gdy bieżący lub nieodłączny skutek biznesowy dobiegł końca. Jest to moment, w którym kończy się proces awaryjnego reagowania na incydent, a zespół przechodzi do wszelkich zadań związanych z czyszczeniem i analizą post-mortem.

Po rozwiązaniu incydentu wysyłamy końcowe raporty do klientów wewnętrznych i zewnętrznych. Komunikaty wewnętrzne zawierają podsumowanie skutków i czasu trwania incydentu z uwzględnieniem liczby zgłoszeń o wsparcie oraz innych ważnych wskaźników związanych z incydentem. Powinny one również zawierać jasne stwierdzenie, że incydent został rozwiązany i nie będzie dalszych informacji na ten temat. Komunikaty do klientów zewnętrznych są zazwyczaj krótkie. Klienci są informowani o tym, że usługa została przywrócona i zostanie przeprowadzona analiza.

Conclusion

There are many moving parts to the incident response process. Keeping track of each step with seamless communication is easy with an incident management tool like Jira Service Management. Centralize alerts and unify teams with flexibility to resolve incidents quickly.