Close

Zarządzanie incydentami dla dynamicznych zespołów

Podręcznik firmy Atlassian na temat zdarzeń

Obecnie od zespołów świadczących usługi techniczne oczekuje się całodobowej gotowości.

Gdy coś pójdzie nie tak, na przykład nastąpi przerwa w dostawie prądu lub jakaś funkcja przestanie działać, członkowie zespołu muszą reagować natychmiast, przywracając prawidłowe funkcjonowanie usługi. Proces ten jest określany jako zarządzanie zdarzeniami i jest zawsze trudnym wyzwaniem dla małych i dużych przedsiębiorstw.

Chcemy pomagać zespołom na całym świecie w ulepszaniu ich działań w zakresie zarządzania incydentami. Inspirując się praktykami zespołów firmy Google, opracowaliśmy niniejszy podręcznik będący streszczeniem procesu zarządzania zdarzeniami w firmie Atlassian. Zawiera on wnioski, które wyciągnęliśmy w ciągu ponad dekady reagowania na incydenty. Choć powstał na bazie naszych unikatowych doświadczeń, wierzymy, że można go zaadaptować do potrzeb własnego zespołu.

Podręcznik zarządzania incydentami

Uzyskaj podręcznik w formie drukowanej lub jako plik PDF

Oferujemy limitowaną pulę drukowanych wersji Podręcznika zarządzania incydentami, który wysyłamy za darmo. Możesz również pobrać wersję PDF.

Chcemy pomagać zespołom na całym świecie w ulepszaniu ich działań w zakresie zarządzania incydentami. Inspirując się praktykami zespołów firmy Google, opracowaliśmy niniejszy podręcznik będący streszczeniem procesu zarządzania zdarzeniami w firmie Atlassian. Zawiera on wnioski, które wyciągnęliśmy w ciągu ponad dekady reagowania na incydenty. Choć powstał na bazie naszych unikatowych doświadczeń, wierzymy, że można go zaadaptować do potrzeb własnego zespołu.


Dla kogo jest przeznaczony ten podręcznik?

Jeśli jesteś członkiem zespołu zajmującego się rozwojem lub operacjami, który świadczy usługi online na rzecz klientów wymagających całodobowej gotowości, ten przewodnik jest dla Ciebie.


Co to jest zdarzenie?

Zgodnie z naszą definicją zdarzenie to zajście powodujące zakłócenie działania lub obniżenie jakości usługi, wymagające natychmiastowej reakcji. Zespoły przestrzegające praktyk ITIL lub ITSM mogą również używać terminu poważne zdarzenie.

Incydent zostaje rozwiązany, gdy dotknięta nim usługa wznawia działanie w normalnym trybie. Dotyczy to wyłącznie zadań wymaganych do przywrócenia pełnej funkcjonalności.

Analizę zdarzenia przeprowadza się po jego wystąpieniu w celu ustalenia jego głównej przyczyny i przydzielenia działań mających je wyeliminować, zanim dojdzie do ponownego zdarzenia.


Nasze wartości dotyczące zdarzeń

Proces zarządzania zdarzeniami nie może obejmować wszystkich możliwych sytuacji, dlatego wyposażamy nasze zespoły w ogólne wytyczne zawarte w naszych zasadach. Podobnie jak wartości przedsiębiorstwa Atlassian nasze wartości dotyczące zdarzeń opracowano w celu:

  • Zapewnienia wskazówek ułatwiających podejmowanie autonomicznych decyzji przez osoby i zespoły podczas incydentów i analiz post-mortem.
  • Budowania jednolitej kultury pomiędzy zespołami w zakresie identyfikowania zdarzeń, zarządzania nimi i uczenia się na ich bazie.
  • Ustal z zespołami, jakie nastawienie powinny prezentować na każdym etapie identyfikacji zdarzeń, ich usuwania i refleksji nad nimi.
Etap Wartość dotycząca zdarzeń Powiązana wartość przedsiębiorstwa Atlassian Przesłanki
1. Wykrywanie Atlassian wie wcześniej niż nasi klienci

Tworzona z sercem i harmonią

Zrównoważone usługi obejmują odpowiedni poziom monitorowania i powiadamiania, aby wykrywać incydenty, zanim zrobią to klienci.

Optymalne monitorowanie pozwala ostrzegać o problemach, nim przekształcą się w zdarzenia.

2. Reagowanie Eskalacja, eskalacja, eskalacja

Play, as a team

Nikt nie lubi, gdy się go budzi, jednak my poważnie traktujemy nasze obowiązki. Ludzie rozumieją, że czasami może się zdarzyć, iż ktoś obudzi ich z powodu incydentu, choć ostatecznie ich obecność nie będzie konieczna. Zazwyczaj trudniej jest obudzić się z powodu poważnego incydentu i wdrożyć w sytuację, gdy nie otrzyma się alertu odpowiednio wcześniej.

Nie zawsze będziemy umieli odpowiedzieć na wszystkie pytania, więc „nie wahaj się, tylko eskaluj”.

3. Przywracanie Wpadki się zdarzają, trzeba po nich szybko posprzątać Nie !@#$ klienta

Nasi klienci nie dbają o to, dlaczego usługa nie działa. Chcą, aby jak najszybciej zaczęła poprawnie funkcjonować.

Nigdy nie wahaj się przed doprowadzeniem do szybkiego rozwiązania incydentu. Dzięki temu będziemy mogli zminimalizować jego skutki dla naszych klientów.

4. Uczenie się Zawsze bez dociekania winy Otwarta firma, bez nonsensów Zdarzenia są elementem świadczenia usług. Ulepszamy usługi, czyniąc zespoły odpowiedzialnymi, a nie obarczając je winą.
5. Ulepszanie Nie dopuszczaj do ponownego wystąpienia tego samego zdarzenia Dokonaj zmiany, której poszukujesz

Zidentyfikuj główną przyczynę i określ zmiany, które zapobiegną ponownemu wystąpieniu całej klasy zdarzeń.

Zadeklaruj wprowadzenie konkretnych zmian w ustalonym terminie.


Wymagania dotyczące narzędzi

W opisanym tutaj procesie zarządzania zdarzeniami wykorzystano kilka narzędzi specyficznych dla firmy Atlassian, które w razie potrzeby można zastąpić:

  • Śledzenie incydentów — każdy incydent jest śledzony jako zgłoszenie Jira, do którego tworzy się również zgłoszenie kontrolne w celu śledzenia ukończenia analiz post-mortem (firma Atlassian używa do tego wysoce spersonalizowanej wersji Jira Software).
  • Pokój — kanał służący do komunikacji tekstowej w czasie rzeczywistym jest niezbędny do diagnozowania i usuwania zdarzeń w ramach pracy zespołowej.
  • Rozmowy wideo — w przypadku wielu zdarzeń zespołowy czat wideo, np. Blue Jeans, może ułatwić omówienie i ustalenie metod działania.
  • System powiadamiania — narzędzie, np. OpsGenie, służące do zarządzania rotacjami i eskalacjami na żądanie.
  • Narzędzie do przygotowywania dokumentacji — używamy narzędzia Confluence do tworzenia dokumentów o stanie zdarzeń i udostępniania analiz na blogach.
  • Statuspage — korzystanie z tego narzędzia do informowania stron zainteresowanych w przedsiębiorstwie oraz klientów o statusie operacji jest pomocne dla każdej z nich.

Śledzenie zdarzeń

Każdy incydent jest śledzony jako zgłoszenie Jira, do którego tworzy się również zgłoszenie kontrolne w celu śledzenia ukończenia analiz post-mortem. W procesie opisanym w niniejszym podręczniku odwołujemy się do wysoce spersonalizowanej wersji Jira Software.

Zgłoszenia zdarzeń są zazwyczaj tworzone przez specjalistę ds. pomocy technicznej w odpowiedzi na zgłoszenie klienta lub przez programistę, który zidentyfikował alert utworzony podczas monitorowania jako zdarzenie. Zachęcamy pracowników do tworzenia zgłoszeń w przypadku niepokojących sytuacji, zamiast zwlekać, by później je eskalować.

W systemie Jira dostępny jest prosty workflow umożliwiający śledzenie zdarzeń aż do etapu rozwiązania problemu i rejestrowanie wszystkich istotnych działań podjętych podczas reagowania na zdarzenie.


Kierownik ds. zdarzeń

Każdy incydent jest prowadzony przez zarządzającego incydentami, który ponosi ogólną odpowiedzialność za działania z nim związane. Zarządzający jest widoczny w polu osoby przypisanej zgłoszenia incydentu. Menedżer ds. incydentów ma upoważnienie do podejmowania wszelkich działań koniecznych w celu rozwiązania incydentu i obejmujących wezwanie dowolnej osoby w organizacji i dopilnowanie, aby osoby zaangażowane w usuwanie incydentu jak najszybciej przywróciły działanie usługi.

Rolę kierownika ds. zdarzeń mogą pełnić zamiennie różne osoby. Zaletą definiowania ról podczas zdarzenia jest możliwość zmiany osób, które je pełnią. Jeśli wybrana osoba wie, jak wypełnić określoną rolę w danym zdarzeniu, może się jej podjąć.


Have ideas or suggestions for this guide?