Close

Zarządzanie incydentami dla dynamicznych zespołów

Jak opracować porady strategiczne dotyczące reagowania na incydenty

Skorzystaj z informacji zawartych w naszym podręczniku.

Misją Atlassian jest uwolnienie potencjału drzemiącego w każdym zespole. Wiecie jaka wspólna cecha łączy świetne zespoły? Korzystają one z porad strategicznych do zarządzania wieloma zdefiniowanymi procesami, aby zapewnić sprawne działanie swoich organizacji.

W niniejszym artykule omówiono 5 kluczowych kroków pozwalających na opracowanie skutecznych porad strategicznych dotyczących reagowania na incydenty. Jako szablon do opracowania planu reagowania na incydenty wykorzystamy Podręcznik firmy Atlassian na temat zarządzania incydentami.

Dlaczego zespoły Agile potrzebują porad strategicznych dotyczących incydentów?

Porady strategiczne dotyczące reagowania na incydenty są dla zespołów źródłem standardowych procedur i kroków reagowania na incydenty i rozwiązywania ich w czasie rzeczywistym. Porady strategiczne mogą także zawierać szkolenia i ćwiczenia do wykonywania w okresie między incydentami, aby przygotować zespół na pojawienie się kolejnego.

W Atlassian zespoły ds. incydentów stale się szkolą, a także precyzują, testują i doskonalą nasz proces zarządzania incydentami. Nasze porady strategiczne dotyczące reagowania na incydenty opracowaliśmy w celu:

  • Zapewnienia wskazówek ułatwiających podejmowanie autonomicznych decyzji przez osoby i zespoły podczas incydentów i analiz post-mortem.
  • Budowania spójnej kultury w zespołach w zakresie identyfikowania incydentów, zarządzania nimi i wyciągania z nich wniosków.
  • Wypracowania w zespołach nastawienia, jakie powinny prezentować na każdym etapie identyfikowania incydentów, ich usuwania i refleksji nad nimi.

Co zawierają porady strategiczne dotyczące reagowania na incydenty?

Porady strategiczne stanowią kluczowy składnik zarządzania incydentami w zespołach DevOps i operacyjnych IT, a także zapewniania cyberbezpieczeństwa. Wyznaczają one zasady i praktyki organizacji w zakresie reagowania na nieplanowane przestoje, pomagają zespołom opanować chaos i upewnić się, że reakcje ludzi na incydenty i zagrożenia bezpieczeństwa będą spójne.

Podręcznik na temat zarządzania incydentami jest dla zespołu zbiorem procesów związanych z reagowaniem na wszelkie incydenty, rozwiązywaniem ich i wyciąganiem z nich wniosków, bez względu na to, czy chodzi o problem związany z bezpieczeństwem, czy nową lukę w zabezpieczeniach. Może on zawierać dowolne treści — od wykazów procedur i list kontrolnych, po szablony, ćwiczenia, scenariusze ataków na zabezpieczenia oraz symulacje.

Opracowywanie porad strategicznych dotyczących reagowania na incydenty

Podczas tworzenia Podręcznika firmy Atlassian na temat zarządzania incydentami zidentyfikowaliśmy 5 najlepszych praktyk w zakresie zarządzania incydentem. Te działania można przełożyć na realia różnych zespołów DevOps i operacyjnych IT, traktując je jako wytyczne do opracowania skutecznych porad strategicznych dotyczących reagowania na incydenty.

1. Zdefiniowanie incydentów w organizacji

Elementy do uwzględnienia: konkretna definicja tego, co składa się na incydent.

Powód: nie da się skutecznie rozwiązać incydentu, jeśli nie wiadomo, kiedy się pojawia. Różne zespoły definiują incydenty w odmienny sposób. Gdy coś pójdzie nie tak, liczy się każda sekunda, i nie chcesz wówczas spierać się ze współpracownikami o semantykę.

Przykład:

Definicja incydentu zaczerpnięta z Podręcznika firmy Atlassian na temat zarządzania incydentami:

Co to jest zdarzenie?

Zgodnie z naszą definicją incydent to zdarzenie powodujące zakłócenie działania lub obniżenie jakości usługi, wymagające natychmiastowej reakcji. Zespoły stosujące praktyki ITIL lub ITSM mogą do opisu tej sytuacji używać pojęcia „poważny incydent”.

Incydent zostaje rozwiązany, gdy dotknięta nim usługa wznawia działanie w normalnym trybie. Dotyczy to wyłącznie zadań wymaganych do przywrócenia pełnej funkcjonalności i nie obejmuje czynności następczych, takich jak identyfikowanie głównej przyczyny i łagodzenie jej skutków, które wchodzą w skład analizy post-mortem.

Analizę post-mortem incydentu przeprowadza się po jego wystąpieniu w celu ustalenia jego głównej przyczyny i podjęcia działań zapewniających jej usunięcie, zanim doprowadzi powtórnie do incydentu.

2. Wyznaczenie wstępnie zdefiniowanych ról

Elementy do uwzględnienia: role i obowiązki związane z incydentem.

Powód: w poprawnie opracowanych poradach strategicznych role i obowiązki są wyznaczone precyzyjnie. Członkowie zespołu reagowania na incydenty są zaznajomieni z każdą rolą i znają zakres swoich obowiązków w trakcie incydentu.

Przykład:

Role, które stosujemy w Atlassian, mają na celu zapewnienie, że do każdej niezbędnej czynności przypisana jest odpowiednia osoba, prace się nie dublują, a komunikacja przebiega płynnie i skutecznie.

  • Menedżer ds. zarządzania incydentem, ponosi ogólną odpowiedzialność za incydent i ma odpowiednie uprawnienia w tym zakresie. Jest on upoważniony do podejmowania wszelkich działań koniecznych w celu rozwiązania incydentu, w tym do zaangażowania dodatkowych osób reagujących w organizacji i skoncentrowania prac osób zaangażowanych na możliwie jak najszybszym przywróceniu usługi.
  • Lider techniczny, starszy specjalista techniczny ds. reagowania. Odpowiada za opracowywanie teorii na temat zakresu awarii i jej przyczyn. Decyduje o zmianach i zarządza zespołem technicznym. Współpracuje ściśle z menedżerem ds. zarządzania incydentem.
  • Menedżer ds. komunikacji, osoba posiadająca wiedzę z zakresu informowania opinii publicznej. Może być pracownikiem działu obsługi klienta lub PR. Odpowiada za opracowywanie i wysyłanie komunikatów wewnętrznych i zewnętrznych.

3. Wymuszenie spójnego procesu

Elementy do uwzględnienia: kroki i przepływy pracy procesu.

Powód: nie ma dwóch identycznych incydentów. Nie oznacza to jednak, że osoby reagujące nie mogą wprowadzić spójnego przepływu pracy dotyczącego reagowania na incydenty.

Nakreśl najważniejsze kroki i fazy, a następnie upewnij się, że członkowie zespołu wiedzą, czego mogą się spodziewać w każdej fazie oraz co nastąpi później. Przykładowo w Atlassian stosujemy przepływ reakcji na incydenty podzielony na siedem kroków zebranych w trzy fazy, który umożliwia obsługę incydentu od momentu wykrycia do rozwiązania.

Przykład:

miniatura procesu reagowania na incydenty

Po wykryciu nowego incydentu menedżer ds. zarządzania incydentami inicjuje komunikację wewnętrzną i organizuje proces reagowania. Następnie zespół może przystąpić do prac nad usunięciem przyczyny incydentu i doprowadzeniem do rozwiązania. Dobra organizacja na tym etapie ułatwia działanie, a sprzyja jej regularna komunikacja. Przestrzeganie spójnego procesu prowadzi do szybszego rozwiązania, łącznie z przeprowadzeniem analizy post-mortem, która zostanie opisana poniżej.

4. Umożliwienie szybkiej reakcji

Elementy do uwzględnienia: szablony i listy kontrolne.

Powód: porady strategiczne dotyczące incydentów muszą być na tyle proste, aby zespoły mogły je zastosować w obliczu stresującej sytuacji. Nasz własny proces obejmuje „ściągawkę” dla menedżera ds. zarządzania poważnymi incydentami, która zawiera kluczowe kroki, takie jak ocena, eskalacja i delegowanie, zebrane na jednej stronie.

Przestrzeganie wstępnie zdefiniowanego procesu reagowania na incydenty nie oznacza, że nie ma miejsca na improwizację. Trzeba być elastycznym i wiedzieć, kiedy dostosować się do zmieniającej się sytuacji. Incydenty z założenia są scenariuszami, w których coś nie idzie zgodnie z planem, jednak nie oznacza to, że nie można przygotować planu na wypadek ich wystąpienia. Zespoły, które ćwiczą i uczą się, korzystając z zestawu scenariuszy, zazwyczaj odnoszą sukces.

Skorzystaj z tego:

Spróbuj przeprowadzić grę dotyczącą wartości podczas reagowania na incydenty, aby zacieśnić relacje między członkami zespołu i przepracować wszelkie potencjalne nieporozumienia, zanim dojdzie do incydentu. Wykorzystaj Porady strategiczne dla zespołów Atlassian dostępne w naszych zasobach, aby lepiej zrozumieć proces stosowany przez zespół, a w konsekwencji opracować dynamiczne porady strategiczne.

5. Ułatwienie przeprowadzania kompleksowych analiz post-mortem

Elementy do uwzględnienia: opracuj zarys procesu analizy post-mortem i dobierz pola zgłoszeń.

Powód: analiza post-mortem ma na celu maksymalne wykorzystanie wniosków płynących z incydentu poprzez zrozumienie wszystkich przyczyn, które się na niego złożyły, udokumentowanie incydentu na przyszłość oraz wykrycie wzorca, a także skuteczne wdrożenie działań zapobiegawczych w celu zmniejszenia prawdopodobieństwa ponownego wystąpienia incydentu i ograniczenia jego skutków.

Jeśli potraktujemy incydent jako nieplanowaną inwestycję w zapewnienie niezawodności systemu, analiza post-mortem będzie sposobem na zmaksymalizowanie zwrotu z tej inwestycji.

Spróbuj tego:

Aby analiza post-mortem była skuteczna, proces musi ułatwiać zespołom ustalenie przyczyn i ich usunięcie. Dobór konkretnych metod będzie zależał od kultury zespołu. W zespołach odpowiedzialnych za analizę post-mortem w Atlassian najlepiej sprawdza się następująca kombinacja metod:

  • Spotkania bezpośrednie pomagające w przeprowadzaniu odpowiedniej analizy i ustalaniu z zespołem, co wymaga naprawy.
  • Zatwierdzanie analiz post-mortem przez menedżerów zespołów ds. dostarczania i operacyjnych motywujące zespoły do ich dokładnego wykonywania.
  • Wyznaczenie priorytetowych działań z przypisanymi docelowymi poziomami świadczenia usług (SLO) oraz utworzenie przypomnień i raportów gwarantujących ich realizację.

Szczegółowy opis analizy post-mortem reakcji na incydenty Atlassian można znaleźć na stronie 46 Podręcznika firmy Atlassian na temat zarządzania incydentami.

Najważniejsze, aby porady strategiczne dotyczące reagowania na incydenty sprzyjały współpracy zespołów nad skutecznym rozwiązywaniem incydentów w możliwie jak najkrótszym czasie. Gdy dochodzi do incydentu, nie ma czasu na dyskusję o najlepszych praktykach i wskazywanie winnych. Wyczerpujące, dobrze opracowane porady strategiczne pozwalają zespołom pracować z optymalną wydajnością. Wytyczne Atlassian dotyczące tych wszystkich porad zostały szczegółowo omówione w Podręczniku na temat zarządzania incydentami.

Up Next
On call