Close

Uzyskaj 30% zniżki po zarejestrowaniu się w Jira Service Management

Zarządzanie incydentami dla dynamicznych zespołów

7 etapów skutecznej reakcji na incydenty

Reakcja na incydent to procedura postępowania organizacji w obliczu zagrożeń IT, takich jak cyberatak, naruszenie bezpieczeństwa czy awaria serwera.

Inne zespoły zajmujące się eksploatacją systemów informatycznych i zespoły DevOps mogą nazywać tę praktykę zarządzaniem poważnymi incydentami lub po prostu zarządzaniem incydentami.

Poniższe sekcje zawierają opis procesu reagowania na incydent obejmującego wszystkie etapy — od wykrycia przerwy w dostawie usługi po jej ponowne przywrócenie — zaczerpnięty z naszego własnego podręcznika do incydentów.

W tym artykule omówimy siedem kluczowych etapów procesu reagowania na incydenty:

  1. Wykrycie incydentu
  2. Skonfigurowanie kanałów komunikacji zespołowej
  3. Ocena wpływu i ustalenie poziomu ważności
  4. Komunikacja z klientami
  5. Eskalacja do właściwych osób reagujących
  6. Delegowanie ról związanych z reagowaniem na incydenty
  7. Rozwiązanie incydentu
Przepływ pracy w procesie reagowania na incydenty

Wykrycie incydentu

Najlepiej, jeśli narzędzia do monitorowania i powiadamiania wykryją incydent i powiadomią o nim zespół, zanim jeszcze klienci zauważą, że do niego doszło. Czasami jednak najpierw dowiadujemy się o incydencie z Twittera lub zgłoszeń wsparcia dla klientów.

Niezależnie od sposobu wykrycia incydentu pierwszym krokiem powinno być zarejestrowanie otwarcia nowego incydentu w narzędziu do śledzenia incydentów. W rozwiązaniu do zarządzania incydentami, takim jak Jira Service Management, funkcje alertów i komunikacji są zintegrowane z narzędziem do śledzenia.

Skonfigurowanie kanałów komunikacji zespołowej

Jednym z pierwszych kroków menedżera ds. incydentów jest skonfigurowanie kanałów komunikacji dla zespołu zajmującego się incydentem. Na tym etapie celem jest rozpoczęcie komunikacji całego zespołu ds. incydentu i skupienie jej w dobrze znanych miejscach, takich jak:

  • Pokój w narzędziu Slack lub innym komunikatorze.
  • Czat wideo w aplikacji umożliwiającej odbywanie konferencji, np. Skype, Blue Jeans itp. (lub zebranie, jeśli wszyscy pracują w tym samym miejscu).

W trakcie incydentów preferujemy korzystanie z narzędzi do czatów wideo i tekstowych, ponieważ rozwiązania te sprawdzają się w różnych sytuacjach. Czat wideo jest doskonały do szybkiego tworzenia wspólnego wyobrażenia o incydencie w trakcie dyskusji grupowej. Z kolei platformę Slack można wykorzystać do wygenerowania rejestru czasowego uwzględniającego znaczniki czasu oraz łącza do zrzutów ekranu, adresów URL i pulpitów.

Podobnie jak większość innych narzędzi czatu, Slack umożliwia użytkownikom ustawienie tematu pokoju. Menedżer ds. incydentów powinien zamieścić w tym polu informację na temat incydentu wraz z przydatnymi łączami.

Na koniec menedżer ds. incydentów umieszcza w statusie swojego czatu identyfikator zgłoszenia zdarzenia, którym zarządza. Dzięki temu jego współpracownicy wiedzą, że zajmuje się zdarzeniem.

Ocena wpływu i ustalenie poziomu ważności

Po skonfigurowaniu kanałów komunikacji pomiędzy członkami zespołu ds. zdarzenia należy ocenić zdarzenie, aby zespół mógł zdecydować, co powiedzieć o zdarzeniu i kto ma naprawić problem.

Opracowaliśmy poniższy zestaw pytań, które zadają swoim zespołom kierownicy ds. zdarzeń:

  • Jakie są skutki dla klientów (wewnętrznych lub zewnętrznych)?
  • Co widzą klienci?
  • Ilu klientów dotyczy problem (niektórych, wszystkich)?
  • Kiedy zaczęło się zdarzenie?
  • Ile zgłoszeń do pomocy technicznej otrzymano od klientów?
  • Czy istnieją inne czynniki, np. Twitter, zabezpieczenia lub utrata danych?

Następnym krokiem jest zazwyczaj przypisanie poziomu ważności.

Poziomy ważności w reagowaniu na incydenty

Poziom ważności 1
Opis: Incydent krytyczny o bardzo poważnych skutkach
Przykłady:

  • Usługa skierowana do klienta jest dostępna dla wszystkich użytkowników
  • Miało miejsce naruszenie poufności lub prywatności
  • Nastąpiła utrata danych klientów

Poziom ważności 2
Poważny incydent o znaczących skutkach
Przykłady:

  • Usługa skierowana do klientów jest niedostępna dla niektórych, ale nie dla wszystkich klientów
  • Nastąpiło znaczne ograniczenie podstawowej funkcjonalności

Poziom ważności 3
Drobny incydent o niewielkich skutkach
Przykłady:

  • Drobna niedogodność dla klientów; dostępne obejście.
  • Obniżenie dostępnej wydajności.

Zastosowanie systemu numeracji do opisu poziomów ważności pozwala szybko zdefiniować incydent i przekazać informacje na jego temat. Wystarczy powiedzieć: „prawdopodobnie mamy do czynienia z poziomem 1”, a właściwe osoby natychmiast zrozumieją powagę sytuacji, zanim jeszcze otrzymają dodatkowe informacje.

Poziomy ważności mogą również ułatwić opracowanie wytycznych dotyczących oczekiwań związanych z reakcją.

Na przykład w niektórych firmach incydenty o poziomie ważności 3 mogą być rozwiązywane w godzinach pracy, podczas gdy te o poziomie ważności 1 i 2 wymagają od członków zespołu podjęcia natychmiastowych działań naprawczych.

Definicje poziomów istotności powinny być udokumentowane i jednakowe w całej organizacji.

Komunikacja z klientami

Gdy zespół ustali, że faktycznie doszło do incydentu, najlepiej jak najszybciej powiadomić interesariuszy wewnętrznych i zewnętrznych.

Celem komunikacji wewnętrznej jest zwrócenie uwagi na reagowanie na zdarzenie w jednym miejscu i uniknięcie nieporozumień.

Celem komunikacji zewnętrznej jest poinformowanie klientów, że zespół jest świadomy wystąpienia nieprawidłowości i pracuje nad jej usunięciem. Szybkie i precyzyjne powiadamianie pomaga budować zaufanie wśród klientów i innych pracowników organizacji.

W celu wewnętrznej i zewnętrznej komunikacji wiele zespołów korzysta z narzędzia Statuspage. Poniżej przedstawiamy dwa proste szablony komunikatów informacyjnych na stronę z informacjami o statusie dla zespołów wewnętrznych lub zewnętrznych:

Komunikat dla klientów wewnętrznych w Statuspage


Wyjaśniamy incydent dotyczący , i . Niebawem prześlemy więcej informacji za pośrednictwem poczty e-mail i w narzędziu Statuspage.

Komunikat dla klientów zewnętrznych w Statuspage

Wyjaśniamy problem z działaniem .

Wyjaśniamy problem z działaniem i niebawem opublikujemy tutaj więcej informacji.

Eskalacja do właściwych osób reagujących

Czasami osoby reagujące jako pierwsze są tymi, które rozwiązują incydent. Częściej jednak te osoby muszą zaangażować w incydent inne zespoły, wywołując je przy użyciu narzędzia do obsługi alertów. Dzięki Jira Service Management osoby reagujące mogą wybrać metodę powiadamiania, której używają, a nawet używać ich wszystkich w jednej centralnej lokalizacji.

Narzędzia do obsługi alertów umożliwiają zespołom definiowanie harmonogramów dyżurów, w których członkowie personelu mają być na przemian dostępni w czasie incydentu. Jest to lepsze rozwiązanie niż poleganie na konkretnej osobie za każdym razem, gdy dochodzi do incydentu. Ta sama osoba nie zawsze będzie dostępna (może być na urlopie, zmienić pracę lub cierpieć z powodu wypalenia, jeśli będzie zbyt intensywnie eksploatowana).

Delegowanie ról związanych z reagowaniem na incydenty

Po wezwaniu i zgłoszeniu się nowej osoby reagującej na incydent menedżer ds. incydentów deleguje rolę do takiej osoby. Ważne, aby ta osoba znała wymagania wobec danej roli i wiedziała, jak skutecznie i szybko wdrożyć się w prace zespołu zajmującego się incydentem.

Kolejną zaletą definiowania ról jest większa zdolność do adaptacji i elastyczność. Jeśli osoba wie, jak wypełnić określoną rolę w danym zdarzeniu, może się jej podjąć.

Trzy kluczowe role w reagowaniu na incydenty

Kierownik ds. zdarzeń

Każdym incydentem zarządza menedżer ds. incydentów , który ponosi bezpośrednią odpowiedzialność za działania z nim związane.

Menedżer ds. incydentów ma upoważnienie do podejmowania wszelkich działań koniecznych w celu rozwiązania incydentu, do których należą wezwanie dowolnej osoby w przedsiębiorstwie i dopilnowanie, aby osoby zaangażowane w usuwanie incydentu jak najszybciej przywróciły działanie usługi.

Kierownik ds. technicznych

Starszy specjalista techniczny ds. reagowania. Odpowiada za opracowywanie teorii na temat zakresu awarii i jej przyczyn. Decyduje o zmianach i zarządza zespołem technicznym. Współpracuje ściśle z menedżerem ds. incydentów.

Menedżer ds. komunikacji

Osoba posiadająca wiedzę z zakresu informowania opinii publicznej. Może być pracownikiem działu obsługi klienta lub PR. Odpowiada za opracowywanie i wysyłanie wewnętrznych i zewnętrznych komunikatów na temat incydentu.

Rozwiązanie incydentu

Nie ma jednego uniwersalnego procesu, który pozwoliłby rozwiązać każdy incydent. Gdyby istniał, po prostu byśmy go zautomatyzowali i mieli całą sprawę z głowy. Zamiast tego staramy się czerpać inspirację z metody naukowej. Powtarzamy poniższy proces, aby szybko dostosowywać się do różnych scenariuszy reagowania na incydenty:

  • Zaobserwowanie zdarzenia. Udostępnienie i potwierdzenie obserwacji.
  • Opracowanie teorii na temat przyczyn.
  • Opracowanie i przeprowadzenie eksperymentów w celu zweryfikowania lub sfalsyfikowania teorii.
  • Powtarzanie procedury do czasu rozwiązania incydentu.

Incydent uznaje się za rozwiązany, gdy bieżący lub nieodłączny skutek biznesowy dobiegł końca. Jest to moment, w którym kończy się proces awaryjnego reagowania na incydent, a zespół przechodzi do wszelkich zadań związanych z czyszczeniem i analizą post-mortem.

Po rozwiązaniu incydentu wysyłamy końcowe raporty do klientów wewnętrznych i zewnętrznych. Komunikaty wewnętrzne zawierają podsumowanie skutków i czasu trwania incydentu z uwzględnieniem liczby zgłoszeń o wsparcie oraz innych ważnych wskaźników związanych z incydentem. Powinny one również zawierać jasne stwierdzenie, że incydent został rozwiązany i nie będzie dalszych informacji na ten temat. Komunikaty do klientów zewnętrznych są zazwyczaj krótkie. Klienci są informowani o tym, że usługa została przywrócona i zostanie przeprowadzona analiza.

Wnioski

Proces reagowania na incydenty składa się z wielu zmieniających się elementów. Monitorowanie poszczególnych kroków i zapewnienie bezproblemowej komunikacji jest łatwe, jeśli korzysta się z takiego narzędzia do zarządzania incydentami, jak Jira Service Management. Pozwala ono scentralizować alerty i zjednoczyć zespoły, dając im elastyczność niezbędną do szybkiego rozwiązywania incydentów.