Close

Zarządzanie incydentami dla dynamicznych zespołów

Tworzenie lepszych osi czasu incydentów (i dlaczego są one istotne)

Im bardziej złożona technologia, tym bardziej złożony proces zarządzania incydentami. A im bardziej złożony proces zarządzania incydentami, tym bardziej złożona dokumentacja i komunikacja.

Dlatego coraz więcej firm stosuje osie czasu incydentów — scentralizowany kanał aktywności związanych z incydentem. służy on do informowania zespołów na bieżąco w trakcie incydentu oraz prowadzenia rejestru podejmowanych czynności, który zespoły mogą wykorzystać po rozwiązaniu incydentu do identyfikacji jego głównych przyczyn i poprawy skuteczności działania w przyszłości.

Czym jest oś czasu incydentu?

Oś czasu incydentu jest kompletnym zapisem incydentu w czasie rzeczywistym. Często zawiera ona ręczne wpisy (czat), skonsolidowane rejestry stron, alertów oraz potwierdzeń, a także automatyczne aktualności systemowe (na przykład powiadomienie, że ktoś zmienił poziom ważności incydentu lub oznaczył go jako rozwiązany). Nierzadko jest ona również zsynchronizowana z czatem lub kanałem Slack.

Oś czasu ma na celu zapewnienie zespołowi dostępu do bieżących informacji, ułatwienie nowym członkom zespołu szybkiego rozpoczęcia pracy oraz uproszczenie procesu analiz post-mortem incydentów. Jira Service Management jest rozwiązaniem Atlassian do zarządzania incydentami, które umożliwia utworzenie niezawodnej osi czasu dzięki konfigurowalnej platformie do śledzenia pracy, ponieważ osie czasu incydentów powinny odzwierciedlać cały zakres rozwiązywania incydentów z pełnym kontekstem. Dzięki funkcjom, takim jak scentralizowane powiadamianie, elastyczna automatyzacja, zintegrowane narzędzia czatu i przestrzenie robocze oparte na współpracy, oś czasu incydentów jest automatycznie rejestrowana, gdy zespoły bezproblemowo pracują nad rozwiązywaniem incydentów.

„Daj mi listę wszystkich zmian wprowadzonych w ciągu, powiedzmy, ostatnich trzech dni. Bez dokładnej osi czasu nie będziemy w stanie ustalić związków przyczynowo skutkowych, a możemy przy tym spowodować kolejną awarię”.

— cytat z książki „Projekt Feniks”
Gene Kim, Kevin Behr, George Spafford

Wartość osi czasu incydentu

Pojedynczy widok aktualizowany w czasie rzeczywistym

Brak komunikacji między zespołami lub interesariuszami to najprostsza droga do utraty kontroli nad incydentem. Oś czasu incydentu zmniejsza to ryzyko, zapewniając każdemu dostęp do tych samych informacji w pojedynczym widoku aktualizowanym w czasie rzeczywistym. To oznacza, że każdy — od programistów pracujących nad incydentem po zespół ds. komunikacji odpowiedzialny za powiadamianie użytkowników oraz kierownictwo wyższego szczebla — może działać sprawnie bez wikłania się w skomplikowane rozmowy telefoniczne lub wiele rozproszonych wątków e-maili, połączeń i czatów.

Jeden aktualizowany w czasie rzeczywistym widok ułatwia również interesariuszom identyfikację nie tylko problemu leżącego u podstaw incydentu, ale także zagrożeń i potencjalnych problemów w połączonych ze sobą systemach. Zapewnienie wielu zespołom dostępu do osi czasu ułatwia identyfikowanie potencjalnych problemów, przyczyn lub zagrożeń w połączonych ze sobą systemach.

Bardziej efektywne analizy post-mortem

W Atlassian analizy post-mortem incydentów stanowią istotną część naszych procesów zarządzania incydentami i problemami. Gromadzą osoby, które współpracują ze sobą w celu ustalenia przebiegu oraz przyczyn zdarzenia i możliwości jego uniknięcia w przyszłości. W udzieleniu wyczerpującej odpowiedzi na te pytania pomaga prowadzenie szczegółowego rejestru wszystkiego, co zdarzyło się w trakcie incydentu — od alertów, poprzez komunikaty przekazywane interesariuszom, aż po ostateczne rozwiązanie.

Dla wielu firm oś czasu incydentu pełni funkcję szczegółowego rejestru. Jest nie tylko narzędziem do współpracy nad incydentami w czasie rzeczywistym. Stanowi również pojedynczy widok, w którym zebrane są dane na temat przebiegu, czasu, a czasami także przyczyn zdarzeń, czyli informacje, które na etapie analizy post-mortem mogą zaoszczędzić zespołom wiele godzin pracy.

Głębszy wgląd we wskaźniki KPI

Oś czasu incydentu często pomaga zespołom w dotarciu do sedna pojedynczego incydentu, ale jej przydatność się na tym nie kończy. W zestawieniu z osiami czasu podobnych incydentów może pomóc zespołom w wychwyceniu wzorców i zdiagnozowaniu większych problemów na podstawie ważnych wskaźników KPI.

Jeśli rozwiązywanie incydentu trwało dłużej niż zazwyczaj, w czym tkwił problem? Jak wygląda to w kontekście innych podobnych incydentów? Którym częściom procesu trzeba się bliżej przyjrzeć? Czy istnieje wzorzec, który może sugerować istnienie większego problemu związanego z procesem, technologią lub organizacją zespołu? Czy alerty są wysyłane w odpowiedni sposób, czy też trzeba zmodyfikować progi alertów? Czy harmonogram dyżurów domowych zapewnia dostateczne obłożenie w trakcie incydentów? Czy nasze zespoły mają właściwą strukturę?

Oś czasu może pełnić funkcję pojedynczego punktu danych do przejrzenia lub stanowić jeden z wielu punktów danych w procesie analizy problemów związanych z umowami SLA i poziomami SLO.

Osie czasu incydentów a ChatOps

Osie czasu incydentów są zazwyczaj prowadzone w systemach do zarządzania incydentami, takich jak Jira Service Management, i wykorzystywane do scentralizowania wszystkich informacji o incydencie.

ChatOps w procesie zarządzania incydentami pełni tę samą funkcję. Jedyna różnica polega na tym, że nie jest osadzony w systemie zarządzania incydentami, tylko centralizuje oś czasu w programie czatu, takim jak Slack, pobierając informacje z platform do zarządzania incydentami, takich jak Opsgenie, oraz innych stosownych źródeł i synchronizując je z nimi.

Korzyści płynące z ChatOps, czyli zapewnianie różnym zespołom dostępu do tych samych informacji, prowadzenie rozmów i rozpowszechnianie aktualności w czasie rzeczywistym, ograniczenie konieczności przełączania kontekstu, wyeliminowanie rozmów telefonicznych i wbudowany rejestr na potrzeby analizy post-mortem, są zgodne z tymi, jakie deklaruje się w przypadku osi czasu. Główna różnica polega na lokalizacji oraz ilości informacji. Dla większości zespołów zajmujących się incydentami kanał ChatOps zawiera zazwyczaj mnóstwo informacji pobocznych zagłuszających istotne dane. Pomocnym rozwiązaniem jest zatem pobranie ważnych szczegółów do osi czasu incydentu i jednocześnie zachowanie zapisu czatu jako odniesienia na przyszłość.

Aby dowiedzieć się więcej o tym, jak zespoły mogą korzystać z ChatOps w procesie rozwiązywania incydentów, oraz o funkcjach zarządzania incydentami Jira Service Management, użyj poniższego przycisku.

Up Next
5 whys