Funkcje alertów i dyżurów domowych Opsgenie są teraz dostępne w Jira Service Management i Compass. Zmigruj istniejące dane i konfiguracje Opsgenie przed 5 kwietnia 2027 r. za pomocą naszego automatycznego narzędzia do migracji.
Czego zespoły zarządzające incydentami mogą się nauczyć od branży lotniczej?
Powszechnie wiadomo, że latanie jest najbezpieczniejszym sposobem podróżowania, a lotnictwo od dziesięcioleci intensywnie doskonali swoje procesy zarządzania incydentami. W 1959 na każdy milion lotów dochodziło do 40 wypadków śmiertelnych. Dziesięć lat później liczbę tę zmniejszono o połowę. Obecnie liczba takich wypadków wynosi 1.
Ogólnie rzecz biorąc, w lotnictwie stawka jest wyższa niż w dziedzinie tworzenia oprogramowania (prawdopodobieństwo zgonu wskutek awarii sklepu internetowego jest jednak mniejsze niż w przypadku awarii oprzyrządowania samolotu), jednak praktyka zapobiegania incydentom i zarządzania nimi na co dzień nie różni się tak bardzo. Obydwie branże muszą zarządzać ryzykiem, generować alerty i walczyć ze zmęczeniem alertami. Obydwie branże potrzebują harmonogramów, które zapewnią możliwość zajęcia się pilnymi sprawami przez całą dobę. W obydwu branżach występują incydenty o różnym poziomie ważności. W obydwu branżach z dużym namaszczeniem monitoruje się wskaźniki KPI. I obydwie branże odpowiadają przed opinią publiczną i swoimi klientami.
Dlatego sektor technologiczny z pewnością może się czegoś nauczyć z bezkompromisowego podejścia do zarządzania incydentami i zapobiegania ich występowaniu, jakie przyjęło lotnictwo. Poniżej przedstawiamy pięć praktyk, jakie Twój zespół może zaczerpnąć od wiodących firm z branży lotniczej:
Projektowanie i wdrażanie z myślą o zarządzaniu incydentami
Zarówno w lotnictwie, jak i branży technologicznej, projektowanie z myślą o incydentach może mieć duży wpływ na ostateczne koszty tych incydentów.
W lotnictwie wprowadzenie w 1988 roku siedzeń 16G pozwoliło zwiększyć ochronę przed urazami głowy i klatki piersiowej oraz możliwości uwięzienia w siedzeniu w wyniku jego odkształcenia w razie wypadku. Szacowane zyski z wdrożenia tych siedzeń, biorąc pod uwagę ocalone życia i urazy, jakich udało się uniknąć, szacuje się na łącznie 78,9 mln USD w ciągu 25 lat. A to wszystko dzięki projektowi, który uwzględnia możliwość wystąpienia incydentów.
W świecie technologii podobne korzyści czerpiemy z egzekwowania zasady „odpowiadasz za to, co tworzysz” — która scala zakresy odpowiedzialności związane z tworzeniem oprogramowania i zarządzaniem incydentami. Jednym z pozytywnych skutków takiego podejścia jest zwiększenie świadomości zespołów odpowiedzialnych za tworzenie technologii w zakresie ryzyka związanego z incydentami, przez co ich członkowie są bardziej skłonni do zapobiegania im w swojej pracy i minimalizowania ich skutków.
Automatyzacja w celu zmniejszenia prawdopodobieństwa wprowadzenia błędu
Jako najczęstszą przyczynę katastrof lotniczych wskazuje się błąd pilota. W przypadku incydentów związanych z oprogramowaniem i usługami IT najczęściej również obwinia się ludzi. Automatyzacja może pomóc w obydwu dziedzinach, a jak wykazały doświadczenia wielu branż — pozwala również znacznie ograniczyć liczbę błędów. Dlatego nie dziwi fakt, że lotnictwo z każdym rokiem bardziej skłania się w kierunku automatyzacji. Już teraz autopilot odpowiada za około 90% lotu, a testy opcji w pełni zautomatyzowanych są w toku.
To właśnie powtarzalny charakter błędów ludzkich sprawił, że w trakcie analiz post-mortem w Atlassian jedno z kluczowych pytań, które sobie zadajemy, brzmi: Czy jest coś, co możemy zautomatyzować, aby nie dopuścić do podobnej sytuacji w przyszłości? Często problemu można uniknąć, wprowadzając prostą poprawkę techniczną.
Dobrym przykładem tego jest sytuacja, jaka miała miejsce w Atlassian przed kilku laty:
„Inżynier popełnił duży błąd składniowy w pliku konfiguracyjnym do sprzętu o krytycznym znaczeniu, a w konsekwencji zamroził całą firmę na 45 minut. Gdyby to podliczyć, mówilibyśmy o setkach tysięcy dolarów… Ludzie popełniają błędy. Nie ma co do tego żadnych wątpliwości. Pytanie brzmi, jak zmniejszyć prawdopodobieństwo wystąpienia błędu ludzkiego?
„Ostatecznie wprowadzono prostą i trwałą poprawkę, która przeprowadzała zautomatyzowany test poprawności uruchamiania pliku konfiguracyjnego przed załadowaniem, co pozwoliło całkowicie wyeliminować interakcję człowieka z konfiguracją systemu. Szybka poprawka techniczna zapobiega teraz wystąpieniu problemu, który spowodował awarię”.
Precyzyjne określenie priorytetów — i zaprojektowanie dostosowanych do nich alertów
Jeśli zechcemy wskazać jedną rzecz, która wyróżnia przemysł lotniczy, będzie to z pewnością bezwzględne zawężanie priorytetów. Prawda jest taka, że nawet w sytuacji awaryjnej niektóre problemy są pilniejsze od innych. W sytuacji zagrożenia rozbiciem samolotu pilot musi (bardzo dokładnie) wiedzieć, które sytuacje awaryjne wymagają jego interwencji i w jakiej kolejności powinien interweniować.
Właśnie dlatego pomimo monitorowania komputerowego ponad 10 000 punktów danych w samolocie w każdej chwili, w trakcie zaledwie 10% lotów pilot otrzymuje choćby jeden alert. Czy pilot musi wiedzieć, że ustawienie instalacji odpowiedzialnej za usuwanie lodu z szyb zmienia się z wysokiego na średnie? Czy na prawdę interesuje go, że rezerwowa pompa hydrauliczna przejęła działanie w wyniku awarii pompy podstawowej, choć nie ma to wpływu na samolot ani trajektorię jego lotu? Według ekspertów w dziedzinie lotnictwa odpowiedź na obydwa te pytania jest przecząca.
Gdy konieczne jest wygenerowanie alertu — w przypadku awarii silnika lub problemów z ciśnieniem w kabinie — i alert zostaje zasygnalizowany w kokpicie, poziom jego priorytetu jest precyzyjnie wskazany nie tylko w sposób wizualny przy użyciu komunikatów tekstowych i czerwonych kontrolek, ale także za pomocą dźwięków i sygnałów fizycznych, takich jak wibrowanie wolantu lub ostrzeżenia głosowe.
Jak można się spodziewać, alertom o najwyższym poziomie towarzyszy najwięcej rodzajów sygnałów. Jeśli samolot zbliża się do punktu przejścia w lot nurkowy, pilot zobaczy czerwony komunikat tekstowy, czerwone kontrolki, usłyszy ostrzeżenie głosowe, a jego wolant zacznie wibrować.
Ostrzeżenia o kolejnym w hierarchii ważności priorytecie będą sygnalizowane w podobny sposób, z pominięciem wibracji wolantu. Alerty o niższym priorytecie będą sygnalizowane zaświeceniem żółtych kontrolek i pojawieniem się komunikatów tekstowych w tym samym kolorze. Zdarzenia o jeszcze niższym priorytecie, które nie wymagają od pilota podejmowania żadnych działań, będą sygnalizowane po prostu w formie żółtych komunikatów tekstowych na ekranie. Ta rygorystyczna hierarchia ułatwia pilotom ustalenie, na co mają zwrócić uwagę.
Ustawienie wysokich progów alertów
W branży lotniczej dużą uwagę przywiązuje się nie tylko do wyraźnego sygnalizowania priorytetu alertów, ale także do ustalenia, co właściwie wymaga alertu, a co nie.
Najwyższy priorytet zastrzeżony jest tylko dla najpoważniejszych sytuacji awaryjnych, w których dojdzie do katastrofy samolotu, jeśli pilot nie podejmie natychmiastowych i zdecydowanych działań.
Drugi zestaw zdarzeń priorytetowych nazywanych ostrzeżeniami również wymaga podjęcia przez pilota natychmiastowych działań, jednak zdarzenia te nie prowadzą w danej chwili do katastrofy samolotu. Do takich zdarzeń należą spadek ciśnienia w kabinie lub problem w ruchu lotniczym stwarzający ryzyko kolizji samolotu.
Trzeci poziom stanowią przestrogi, o których pilot musi wiedzieć, ale które nie wymagają od niego podejmowania natychmiastowych działań. W tym obszarze doskonale uwidacznia się rygorystyczne podejście do podziału na poziomy stosowane w lotnictwie. Nawet pożar silnika lub awaria jednego silnika mogą wymagać jedynie przestrogi.
Takie bezkompromisowe podejście do ustalania priorytetów pomogło lotnictwu zwalczyć zmęczenie alertami i zapewnić pasażerom większe bezpieczeństwo.
Przygotowanie porad strategicznych i list kontrolnych
Gdy rozlega się sygnał alertu, a pilot dowiaduje się, że klimatyzator przestał działać (co może doprowadzić do spadku ciśnienia w kabinie) lub jeden z silników jest zagrożony, w lotnictwie nie polega się jedynie na przeszkoleniu pilota i nie obarcza się go obowiązkiem rozwiązania incydentu.
Choć przeszkolenie pilota z pewnością ułatwi sprawę, bezpieczniej (i naturalnie szybciej) będzie bezpośrednio poinformować go o kolejnych krokach. Dlatego alertom sygnalizowanym w kokpicie towarzyszy lista kontrolna kolejnych kroków odpowiednio dostosowana do treści alertu. Choć nie jest to w stu procentach automatyzacja, takie podejście pozwala osiągnąć podobne korzyści. Zamiast polegać wyłącznie na czyimś przeszkoleniu, system podpowiada najbardziej prawdopodobny sposób naprawy błędu.
Wysiłki wkładane przez lotnictwo w optymalizację praktyk w zakresie zarządzania incydentami rzuciły nieco światła na możliwość dopracowania zarządzania incydentami i reagowania na nie także w innych branżach, w tym technicznej.
Zobacz, jak system Jira Service Management może pomóc zespołom w reagowaniu na incydenty, ich rozwiązywaniu oraz ciągłym doskonaleniu w oparciu o wnioski wypływające z incydentów.
Polecane dla Ciebie
Samouczek
Konfigurowanie harmonogramu dyżurów domowych za pomocą Opsgenie
W tym samouczku nauczysz się konfigurować harmonogram dyżurów domowych, stosować reguły zastępujące, ustawiać powiadomienia o dyżurach domowych oraz wykonywać inne czynności w Opsgenie.
Plusy i minusy różnych podejść do zarządzania dyżur domowy
Zespoły na dyżurach domowych szybko się rozwijają. Poznaj zalety i wady różnych podejść do zarządzania dyżurami domowymi.
Dowiedz się więcej o zarządzaniu incydentami
Znajdź w tym centrum więcej przewodników i zasobów dotyczących zarządzania incydentami.