Close

Zarządzanie incydentami dla dynamicznych zespołów

Czego zespoły zarządzające incydentami mogą się nauczyć od branży lotniczej?

Powszechnie wiadomo, że latanie jest najbezpieczniejszym sposobem podróżowania, a lotnictwo od dziesięcioleci intensywnie doskonali swoje procesy zarządzania incydentami. W 1959 na każdy milion lotów dochodziło do 40 wypadków śmiertelnych. Dziesięć lat później liczbę tę zmniejszono o połowę. Obecnie liczba takich wypadków wynosi 1.

Ogólnie rzecz biorąc, w lotnictwie stawka jest wyższa niż w dziedzinie tworzenia oprogramowania (prawdopodobieństwo zgonu wskutek awarii sklepu internetowego jest jednak mniejsze niż w przypadku awarii oprzyrządowania samolotu), jednak praktyka zapobiegania incydentom i zarządzania nimi na co dzień nie różni się tak bardzo. Obydwie branże muszą zarządzać ryzykiem, generować alerty i walczyć ze zmęczeniem alertami. Obydwie branże potrzebują harmonogramów, które zapewnią możliwość zajęcia się pilnymi sprawami przez całą dobę. W obydwu branżach występują incydenty o różnym poziomie ważności. W obydwu branżach z dużym namaszczeniem monitoruje się wskaźniki KPI. I obydwie branże odpowiadają przed opinią publiczną i swoimi klientami.

Dlatego sektor technologiczny z pewnością może się czegoś nauczyć z bezkompromisowego podejścia do zarządzania incydentami i zapobiegania ich występowaniu, jakie przyjęło lotnictwo. Poniżej przedstawiamy pięć praktyk, jakie Twój zespół może zaczerpnąć od wiodących firm z branży lotniczej:

Projektowanie i wdrażanie z myślą o zarządzaniu incydentami

Zarówno w lotnictwie, jak i branży technologicznej, projektowanie z myślą o incydentach może mieć duży wpływ na ostateczne koszty tych incydentów.

W lotnictwie wprowadzenie w 1988 roku siedzeń 16G pozwoliło zwiększyć ochronę przed urazami głowy i klatki piersiowej oraz możliwości uwięzienia w siedzeniu w wyniku jego odkształcenia w razie wypadku. Szacowane zyski z wdrożenia tych siedzeń, biorąc pod uwagę ocalone życia i urazy, jakich udało się uniknąć, szacuje się na łącznie 78,9 mln USD w ciągu 25 lat. A to wszystko dzięki projektowi, który uwzględnia możliwość wystąpienia incydentów.

W świecie technologii podobne korzyści czerpiemy z egzekwowania zasady „odpowiadasz za to, co tworzysz” — która scala zakresy odpowiedzialności związane z tworzeniem oprogramowania i zarządzaniem incydentami. Jednym z pozytywnych skutków takiego podejścia jest zwiększenie świadomości zespołów odpowiedzialnych za tworzenie technologii w zakresie ryzyka związanego z incydentami, przez co ich członkowie są bardziej skłonni do zapobiegania im w swojej pracy i minimalizowania ich skutków.

Automatyzacja w celu zmniejszenia prawdopodobieństwa wprowadzenia błędu

Jako najczęstszą przyczynę katastrof lotniczych wskazuje się błąd pilota. W przypadku incydentów związanych z oprogramowaniem i usługami IT najczęściej również obwinia się ludzi. Automatyzacja może pomóc w obydwu dziedzinach, a jak wykazały doświadczenia wielu branż — pozwala również znacznie ograniczyć liczbę błędów. Dlatego nie dziwi fakt, że lotnictwo z każdym rokiem bardziej skłania się w kierunku automatyzacji. Już teraz autopilot odpowiada za około 90% lotu, a testy opcji w pełni zautomatyzowanych są w toku.

To właśnie powtarzalny charakter błędów ludzkich sprawił, że w trakcie analiz post-mortem w Atlassian jedno z kluczowych pytań, które sobie zadajemy, brzmi: Czy jest coś, co możemy zautomatyzować, aby nie dopuścić do podobnej sytuacji w przyszłości? Często problemu można uniknąć, wprowadzając prostą poprawkę techniczną.

Dobrym przykładem tego jest sytuacja, jaka miała miejsce w Atlassian przed kilku laty:

„Inżynier popełnił duży błąd składniowy w pliku konfiguracyjnym do sprzętu o krytycznym znaczeniu, a w konsekwencji zamroził całą firmę na 45 minut. Gdyby to podliczyć, mówilibyśmy o setkach tysięcy dolarów… Ludzie popełniają błędy. Nie ma co do tego żadnych wątpliwości. Pytanie brzmi, jak zmniejszyć prawdopodobieństwo wystąpienia błędu ludzkiego?

„Ostatecznie wprowadzono prostą i trwałą poprawkę, która przeprowadzała zautomatyzowany test poprawności uruchamiania pliku konfiguracyjnego przed załadowaniem, co pozwoliło całkowicie wyeliminować interakcję człowieka z konfiguracją systemu. Szybka poprawka techniczna zapobiega teraz wystąpieniu problemu, który spowodował awarię”.

Precyzyjne określenie priorytetów — i zaprojektowanie dostosowanych do nich alertów

Jeśli zechcemy wskazać jedną rzecz, która wyróżnia przemysł lotniczy, będzie to z pewnością bezwzględne zawężanie priorytetów. Prawda jest taka, że nawet w sytuacji awaryjnej niektóre problemy są pilniejsze od innych. W sytuacji zagrożenia rozbiciem samolotu pilot musi (bardzo dokładnie) wiedzieć, które sytuacje awaryjne wymagają jego interwencji i w jakiej kolejności powinien interweniować.

Właśnie dlatego pomimo monitorowania komputerowego ponad 10 000 punktów danych w samolocie w każdej chwili, w trakcie zaledwie 10% lotów pilot otrzymuje choćby jeden alert. Czy pilot musi wiedzieć, że ustawienie instalacji odpowiedzialnej za usuwanie lodu z szyb zmienia się z wysokiego na średnie? Czy na prawdę interesuje go, że rezerwowa pompa hydrauliczna przejęła działanie w wyniku awarii pompy podstawowej, choć nie ma to wpływu na samolot ani trajektorię jego lotu? Według ekspertów w dziedzinie lotnictwa odpowiedź na obydwa te pytania jest przecząca.

Gdy konieczne jest wygenerowanie alertu — w przypadku awarii silnika lub problemów z ciśnieniem w kabinie — i alert zostaje zasygnalizowany w kokpicie, poziom jego priorytetu jest precyzyjnie wskazany nie tylko w sposób wizualny przy użyciu komunikatów tekstowych i czerwonych kontrolek, ale także za pomocą dźwięków i sygnałów fizycznych, takich jak wibrowanie wolantu lub ostrzeżenia głosowe.

Jak można się spodziewać, alertom o najwyższym poziomie towarzyszy najwięcej rodzajów sygnałów. Jeśli samolot zbliża się do punktu przejścia w lot nurkowy, pilot zobaczy czerwony komunikat tekstowy, czerwone kontrolki, usłyszy ostrzeżenie głosowe, a jego wolant zacznie wibrować.

Ostrzeżenia o kolejnym w hierarchii ważności priorytecie będą sygnalizowane w podobny sposób, z pominięciem wibracji wolantu. Alerty o niższym priorytecie będą sygnalizowane zaświeceniem żółtych kontrolek i pojawieniem się komunikatów tekstowych w tym samym kolorze. Zdarzenia o jeszcze niższym priorytecie, które nie wymagają od pilota podejmowania żadnych działań, będą sygnalizowane po prostu w formie żółtych komunikatów tekstowych na ekranie. Ta rygorystyczna hierarchia ułatwia pilotom ustalenie, na co mają zwrócić uwagę.

Ustawienie wysokich progów alertów

W branży lotniczej dużą uwagę przywiązuje się nie tylko do wyraźnego sygnalizowania priorytetu alertów, ale także do ustalenia, co właściwie wymaga alertu, a co nie.

Najwyższy priorytet zastrzeżony jest tylko dla najpoważniejszych sytuacji awaryjnych, w których dojdzie do katastrofy samolotu, jeśli pilot nie podejmie natychmiastowych i zdecydowanych działań.

Drugi zestaw zdarzeń priorytetowych nazywanych ostrzeżeniami również wymaga podjęcia przez pilota natychmiastowych działań, jednak zdarzenia te nie prowadzą w danej chwili do katastrofy samolotu. Do takich zdarzeń należą spadek ciśnienia w kabinie lub problem w ruchu lotniczym stwarzający ryzyko kolizji samolotu.

Trzeci poziom stanowią przestrogi, o których pilot musi wiedzieć, ale które nie wymagają od niego podejmowania natychmiastowych działań. W tym obszarze doskonale uwidacznia się rygorystyczne podejście do podziału na poziomy stosowane w lotnictwie. Nawet pożar silnika lub awaria jednego silnika mogą wymagać jedynie przestrogi.

Takie bezkompromisowe podejście do ustalania priorytetów pomogło lotnictwu zwalczyć zmęczenie alertami i zapewnić pasażerom większe bezpieczeństwo.

Przygotowanie porad strategicznych i list kontrolnych

Gdy rozlega się sygnał alertu, a pilot dowiaduje się, że klimatyzator przestał działać (co może doprowadzić do spadku ciśnienia w kabinie) lub jeden z silników jest zagrożony, w lotnictwie nie polega się jedynie na przeszkoleniu pilota i nie obarcza się go obowiązkiem rozwiązania incydentu.

Choć przeszkolenie pilota z pewnością ułatwi sprawę, bezpieczniej (i naturalnie szybciej) będzie bezpośrednio poinformować go o kolejnych krokach. Dlatego alertom sygnalizowanym w kokpicie towarzyszy lista kontrolna kolejnych kroków odpowiednio dostosowana do treści alertu. Choć nie jest to w stu procentach automatyzacja, takie podejście pozwala osiągnąć podobne korzyści. Zamiast polegać wyłącznie na czyimś przeszkoleniu, system podpowiada najbardziej prawdopodobny sposób naprawy błędu.

Wysiłki wkładane przez lotnictwo w optymalizację praktyk w zakresie zarządzania incydentami rzuciły nieco światła na możliwość dopracowania zarządzania incydentami i reagowania na nie także w innych branżach, w tym technicznej.

Zobacz, jak system Jira Service Management może pomóc zespołom w reagowaniu na incydenty, ich rozwiązywaniu oraz ciągłym doskonaleniu w oparciu o wnioski wypływające z incydentów.