Close

Zarządzanie incydentami dla dynamicznych zespołów

Na czym polega ostrzeganie o incydentach IT?

O ostrzeganiu o incydentach mówimy wówczas, gdy narzędzia do monitorowania generują alerty w celu powiadomienia zespołu o zmianach, wykonaniu czynności obarczonych wysokim ryzykiem lub awariach w środowisku IT.

Przykładowo system do wystawiania recept przeznaczony dla lekarzy może generować alert, jeśli dawka, jaką zapisze lekarz jest nietypowo wysoka, niezgodna z masą ciała pacjenta zawartą w jego aktach lub stwarza ryzyko interakcji z innymi powszechnie stosowanymi lekami.

Podobnie system opracowany w celu monitorowania produktu technologicznego może generować alert, gdy przejdzie w tryb offline, gdy przetwarzanie żądań sieciowych trwa dłużej niż zwykle lub opóźnienia bazy danych przekroczą ustawiony próg.

Celem alertów IT jest szybkie rozpoznanie i rozwiązanie problemów, które wpływają na dostępność produktu, szybkość jego działania czy funkcjonalność — przez całą dobę i bez konieczności ręcznego monitorowania.

Dlaczego ostrzeganie w IT jest tak ważne?

Wraz z rosnącym znaczeniem systemów typu „Always On”, od których wymaga się dostępności przez cały czas, wzrasta również koszt przestoju, który eksperci szacują na średnio od 5600 do 9000 USD za minutę. Każda minuta awarii systemu jest tak kosztowna, że rozpoznawanie problemów, zanim wymkną się spod kontroli, w dużym stopniu wpływa na wyniki biznesowe (nie wspominając o harmonogramach i poziomach stresu zespołów IT).

Alerty IT stanowią pierwszą linię obrony przed awariami systemu lub zmianami, które mogą przerodzić się w poważne incydenty. Dzięki automatycznemu monitorowaniu systemów i generowaniu alertów o awariach i ryzykownych zmianach zespoły IT mogą zminimalizować przestoje, a w konsekwencji związane z nimi wysokie koszty.

Najlepsze praktyki w zakresie ostrzegania

Alerty IT niezaprzeczalnie stanowią ważną część procesu zarządzania incydentami, jednak prawda jest taka, że nie są one prostym rozwiązaniem, które wystarczy raz skonfigurować i o nim zapomnieć. Ustawienie zbyt niskich progów alertów może prowadzić do zalewania skrzynek alertami, niezadowolenia zespołów pełniących dyżur domowy oraz zmęczenia alertami. Z kolei ustawienie zbyt wysokich progów może prowadzić do pomijania krytycznych problemów i kosztować firmę miliony.

Dlatego najbardziej efektywne systemy obsługi alertów IT konfiguruje się z uwzględnieniem tych najlepszych praktyk.

Automatyzacja monitorowania

Najlepszym sposobem na szybką i efektywną identyfikację zgłoszeń jest zautomatyzowanie monitorowania.

Baza danych reaguje wolniej niż zwykle? Aplikacja wczytuje się u użytkowników dłużej niż przeciętnie? Ważny system jest wyłączony? Jeden z techników zgłosił wniosek, który wygląda na czerwoną flagę? Twój system powinien automatycznie wykrywać takie problemy i powiadamiać Cię o ich wystąpieniu.

Ustawianie progów inteligentnego ostrzegania

Czy każdy alert wymaga natychmiastowej uwagi? W przypadku większości firm odpowiedź brzmi: nie. Dlatego musisz ustalić rozsądne progi alertów.

Decyzja, czy coś jest warte budzenia programisty w środku nocy czy może zaczekać do rana, może w istocie decydować o tym, czy będziesz pracować z zadowolonymi programistami, którzy będą reagować błyskawicznie, czy ze zmęczonymi alertami zespołami, których członkowie w weekendy będą zajmowali się szukaniem nowej pracy.

Wyeliminowanie zdublowanych alertów

Badanie nad zmęczeniem alertami wykazało, że w przypadku klinicystów w środowisku szpitalnym uwaga poświęcana alertowi spada o 30% z każdym kolejnym zdublowanym alertem, jaki napływa. W przypadku programistów wyniki badania byłyby prawdopodobnie takie same. Im częściej widzimy ten sam alert, tym mniejszą zwracamy na niego uwagę. Dlatego najlepszą praktyką w tej sytuacji jest wyeliminowanie zdublowanych alertów i ograniczenie przypomnień do minimum.

Ustawianie priorytetów i poziomów ważności

Oczywiście niektóre alerty są ważniejsze od innych. Całkowita awaria witryny prawdopodobnie będzie ważniejsza od krótkiego spowolnienia rzadko używanej funkcji. Złośliwy atak hakerski będzie miał prawdopodobnie wyższy priorytet niż nieprawidłowe renderowanie obrazu w aplikacji.

System powinien rozpoznawać nie tylko priorytet i poziom ważności alertu, ale także wyraźnie sygnalizować ten priorytet osobom odpowiedzialnym za rozwiązywanie incydentów. Najlepszą praktyką w tym przypadku jest zastosowanie sygnałów wizualnych, dźwiękowych i sensorycznych w celu szybkiego i precyzyjnego wskazania, na czym zespoły powinny skoncentrować się w następnej kolejności.

Dostosowanie alertów do podejmowania praktycznych działań

Dobrze jest wiedzieć, na czym polega problem. Jeszcze lepiej jest wiedzieć, co robić dalej. Jeśli więc Twoje alerty nie zawierają jeszcze praktycznych wskazówek, zmień to.

Pod tym względem zespoły DevOps również mogą się wiele nauczyć od branży lotniczej. Gdy w trakcie lotu w kokpicie pojawia się alert, towarzyszy mu lista kontrolna, która pozwala podjąć konkretne działania. Włączenie takich szczegółów do swojego systemu obsługi alertów skraca czas diagnostyki i pomaga programistom szybko wykonać kolejne czynności procesu.

Jest to szczególnie przydatne, gdy programistę obudzi się w środku nocy, kiedy patrzy na ekran spod na wpół przymkniętych powiek i zdecydowanie nie jest w szczytowej formie.

Wybór właściwej technologii ostrzegania

Opracowanie systemu obsługi alertów IT zgodnego z tymi najlepszymi praktykami oznacza strategiczne podejście do alertów od samego początku. Oznacza również konieczność wyboru właściwej technologii do realizacji tego celu. Przy wyborze dostawcy zalecamy zwrócenie uwagi na następujące kwestie:

Wiele kanałów alertów

Poczta elektroniczna jest często wybieranym kanałem do obsługi alertów. Jednak prawda jest taka, że e-mail nie zawsze daje sobie z tym radę. W przypadku pilnych alertów lepszym rozwiązaniem mogą być wiadomości SMS, powiadomienia push, a nawet połączenia głosowe. Warto poszukać systemu, który umożliwia przekazywanie alertów na różne sposoby.

Rozbudowywanie alertów

Praktyczne alerty to takie, które zawierają szczegóły. To z kolei oznacza, że krótka wiadomość tekstowa nie zawsze wystarczy. Należy pamiętać o rygorystycznych ograniczeniach liczby znaków i poszukać technologii, która umożliwia dodawanie wykresów, dzienników, wykazów procedur oraz list kontrolnych zawierających kontekst alertu, dzięki którym programista będzie wiedział, jakie działania powinien podjąć.

Niestandardowe działania względem alertów

Większość technologii do obsługi alertów umożliwia dodanie notatki do alertu lub jego zamknięcie. Czasami jednak konieczne jest podjęcie kroków pośrednich. Może to być eskalacja alertu w celu dalszego sprawdzenia, utworzenie zgłoszenia serwisowego czy ponowne uruchomienie serwera. Warto poszukać rozwiązań, które pozwolą zrobić coś więcej niż tylko otworzyć i zamknąć alert.

Działania automatyczne

W przypadku niektórych alertów wymagane jest podjęcie skomplikowanych czynności w oparciu o analizę doświadczonego programisty. W innych przypadkach rozwiązanie może być bardzo proste.

Najlepiej, aby w przypadku alertów wymuszających wykonanie precyzyjnie określonych kroków — takich jak testy diagnostyczne czy działania naprawcze — system wyzwalał te reakcje automatycznie w odpowiedzi na alert spełniający wstępnie zdefiniowane kryteria.

Jeśli przykładowo dochodzi do spowolnienia bazy danych, można ustawić w systemie obsługi alertów automatyczne przełączanie na rezerwową bazę danych. Jeśli pierwszym krokiem podczas rozwiązywania problemu A zawsze jest ponowne uruchomienie serwera, może warto ustawić w systemie obsługi alertów automatyczne ponowne uruchomienie serwera i sprawdzenie wyniku przed wysłaniem alertu w środku nocy.

Dostosowywanie i klasyfikacja alertów

Twój zespół powinien mieć możliwość porządkowania napływających alertów, oznaczania ich przy użyciu dodatkowych informacji oraz ich filtrowania.

Śledzenie cyklu życia alertów

W trakcie analizy post-mortem incydentu chcesz ustalić, kiedy napłynął alert, kto go odebrał, kiedy go zauważono i jakie działania podjęto. Upewnij się, że wybrana technologia automatycznie rejestruje te informacje. To ułatwi ustalenie, co działa dobrze, a co nie, pomoże poprawić wskaźniki KPI i pozwoli udokumentować zakończone incydenty, aby zespoły pełniące dyżur domowy mogły się z nich uczyć i sięgać do wyciągniętych z nich wniosków w trakcie przyszłych incydentów.

Zasady dotyczące alertów i powiadomień

Jeśli jedną z omówionych tutaj najlepszych praktyk jest wyznaczenie inteligentnych progów alertów i upewnienie się, że programistów nie będą budzić w środku nocy mniej istotne zgłoszenia, potrzebujesz technologii, która umożliwi zawieszenie, opóźnienie lub przyspieszenie alertów, w zależności od ich zawartości i czasu wygenerowania.

Monitorowanie skuteczności monitorowania w czasie rzeczywistym

Jak sprawdzić, czy w danej chwili Twoje systemy obsługi alertów działają prawidłowo?

Odpowiedź brzmi — dzięki odpowiedniej technologii wyposażonej we własny system monitorowania. W OpsGenie wykorzystujemy do tego narzędzie o nazwie Heartbeats, które stale sprawdza, czy narzędzia do monitorowania są aktywne i podłączone, a niestandardowe zadania wykonywane są zgodnie z harmonogramem. Jeśli sygnał zaniknie, system natychmiast Cię o tym powiadomi.