Funkcje alertów i dyżurów domowych Opsgenie są teraz dostępne w Jira Service Management i Compass. Zmigruj istniejące dane i konfiguracje Opsgenie przed 5 kwietnia 2027 r. za pomocą naszego automatycznego narzędzia do migracji.
Jak opracować porady strategiczne dotyczące reagowania na incydenty
Skorzystaj z informacji zawartych w naszym podręczniku.
Misją Atlassian jest uwolnienie potencjału drzemiącego w każdym zespole. Wiecie jaka wspólna cecha łączy świetne zespoły? Korzystają one z porad strategicznych do zarządzania wieloma zdefiniowanymi procesami, aby zapewnić sprawne działanie swoich organizacji.
W niniejszym artykule omówiono 5 kluczowych kroków pozwalających na opracowanie skutecznych porad strategicznych dotyczących reagowania na incydenty. Jako szablon do opracowania planu reagowania na incydenty wykorzystamy Podręcznik firmy Atlassian na temat zarządzania incydentami.
Dlaczego zespoły Agile potrzebują porad strategicznych dotyczących incydentów?
Porady strategiczne dotyczące reagowania na incydenty są dla zespołów źródłem standardowych procedur i kroków reagowania na incydenty oraz rozwiązywania ich w czasie rzeczywistym. Porady strategiczne mogą także zawierać szkolenia i ćwiczenia do wykonywania w okresie między incydentami, aby przygotować zespół na pojawienie się kolejnych.
W Atlassian zespoły ds. incydentów stale się szkolą, a także precyzują, testują i doskonalą proces zarządzania incydentami. Nasze porady strategiczne dotyczące reagowania na incydenty opracowaliśmy w celu:
Zapewnienia wskazówek ułatwiających podejmowanie autonomicznych decyzji przez osoby i zespoły podczas incydentów i analiz post-mortem.
Budowania spójnej kultury w zespołach w zakresie identyfikowania incydentów, zarządzania nimi i wyciągania z nich wniosków.
Wypracowania w zespołach nastawienia, jakie powinny prezentować na każdym etapie identyfikowania incydentów, ich rozwiązywania i refleksji nad nimi.
Co zawierają porady strategiczne dotyczące reagowania na incydenty?
Porady strategiczne stanowią kluczowy składnik zarządzania incydentami w zespołach DevOps i ds. eksploatacji IT, a także zapewniania cyberbezpieczeństwa. Wyznaczają one zasady i praktyki organizacji w zakresie reagowania na nieplanowane przestoje, pomagają zespołom opanować chaos oraz zapewnić spójne reakcje na incydenty i zagrożenia bezpieczeństwa.
Podręcznik na temat zarządzania incydentami jest dla zespołu zbiorem procesów związanych z reagowaniem na wszelkie incydenty, rozwiązywaniem ich i wyciąganiem z nich wniosków, bez względu na to, czy chodzi o problem związany z bezpieczeństwem, czy nową lukę w zabezpieczeniach. Może on zawierać dowolne treści — od wykazów procedur i list kontrolnych po szablony, ćwiczenia, scenariusze ataków na zabezpieczenia oraz symulacje.
Opracowywanie porad strategicznych dotyczących reagowania na incydenty
Podczas tworzenia Podręcznika firmy Atlassian na temat zarządzania incydentami wyodrębniliśmy 5 najlepszych praktyk w zakresie zarządzania incydentem. Te działania można przełożyć na realia różnych zespołów DevOps i ds. eksploatacji IT, traktując je jako wytyczne do opracowania skutecznych porad strategicznych dotyczących reagowania na incydenty.
1. Zdefiniowanie incydentów w organizacji
Elementy do uwzględnienia: konkretna definicja tego, co składa się na incydent.
Powód: nie da się skutecznie rozwiązać incydentu, jeśli nie wiadomo, kiedy się pojawia. Różne zespoły definiują incydenty w odmienny sposób. Gdy coś pójdzie nie tak, liczy się każda sekunda, i najlepiej wtedy nie spierać się ze współpracownikami o semantykę.
Przykład:
Definicja incydentu zaczerpnięta z Podręcznika firmy Atlassian na temat zarządzania incydentami:
Czym jest incydent?
Zgodnie z naszą definicją incydent to zdarzenie powodujące zakłócenie działania lub obniżenie jakości usługi wymagające natychmiastowej reakcji. Zespoły stosujące praktyki ITIL lub ITSM mogą do opisu tej sytuacji używać pojęcia „poważny incydent”.
Incydent zostaje rozwiązany, gdy usługa, której dotyczy, wznawia działanie w normalnym trybie. Dotyczy to wyłącznie zadań wymaganych do przywrócenia pełnej funkcjonalności i nie obejmuje czynności następczych, takich jak identyfikowanie przyczyny źródłowej i łagodzenie skutków, które wchodzą w skład analizy post-mortem.
Analizę post-mortem incydentu przeprowadza się po jego wystąpieniu w celu ustalenia przyczyny źródłowej i przydzielenia działań zapewniających jej usunięcie, zanim dojdzie do ponownego incydentu.
2. Wyznaczenie wstępnie zdefiniowanych ról
Elementy do uwzględnienia: role i obowiązki związane z incydentem.
Powód: w poprawnie opracowanych poradach strategicznych dotyczących reagowania na incydenty role i obowiązki są wyznaczone precyzyjnie.Członkowie zespołu reagowania na incydenty są zaznajomieni z każdą rolą i znają zakres swoich obowiązków w trakcie incydentu.
Przykład:
Dzięki rolom, które stosujemy w Atlassian, do każdej niezbędnej czynności przypisana jest odpowiednia osoba, prace się nie dublują, a komunikacja przebiega płynnie i skutecznie.
Menedżer ds. zarządzania incydentami ponosi ogólną odpowiedzialność za incydent i ma odpowiednie uprawnienia w tym zakresie. Jest upoważniony do podejmowania wszelkich działań koniecznych w celu rozwiązania incydentu, w tym do zaangażowania dodatkowych osób reagujących w organizacji i dopilnowania, aby osoby zaangażowane w usuwanie incydentu jak najszybciej przywróciły działanie usług.
Lider techniczny — starszy specjalista techniczny ds. reagowania. Odpowiada za opracowywanie teorii na temat zakresu awarii i jej przyczyn. Decyduje o zmianach i zarządza zespołem technicznym. Współpracuje ściśle z menedżerem ds. zarządzania incydentami.
Menedżer ds. komunikacji — osoba posiadająca wiedzę z zakresu informowania opinii publicznej. Może być pracownikiem działu obsługi klienta lub PR.Odpowiada za opracowywanie i wysyłanie komunikatów wewnętrznych i zewnętrznych.
3. Wymuszenie spójnego procesu
Elementy do uwzględnienia: kroki i przepływy pracy procesu.
Powód: nie ma dwóch identycznych incydentów.Nie oznacza to jednak, że osoby reagujące nie mogą wprowadzić spójnego przepływu pracy dotyczącego reagowania na incydenty.
Nakreśl najważniejsze kroki i fazy, a następnie upewnij się, że członkowie zespołu wiedzą, czego mogą się spodziewać w każdej fazie oraz co nastąpi później. Przykładowo w Atlassian stosujemy przepływ reagowania na incydenty podzielony na siedem kroków zebranych w trzy fazy, który umożliwia obsługę incydentu od momentu wykrycia do rozwiązania.
Przykład:

Po wykryciu nowego incydentu menedżer ds. zarządzania incydentami inicjuje komunikację wewnętrzną i organizuje proces reagowania. Następnie zespół może przystąpić do prac nad usunięciem przyczyny incydentu i doprowadzeniem do rozwiązania. Dobra organizacja na tym etapie ułatwia działanie, a sprzyja jej regularna komunikacja. Przestrzeganie spójnego procesu prowadzi do szybszego rozwiązania, łącznie z przeprowadzeniem analizy post-mortem, która zostanie opisana poniżej.
4. Umożliwienie szybkiej reakcji
Elementy do uwzględnienia: szablony i listy kontrolne.
Powód: porady strategiczne dotyczące incydentów muszą być na tyle proste, aby zespoły mogły je zastosować w obliczu stresującej sytuacji.Nasz własny proces obejmuje „ściągawkę” dla menedżera ds. zarządzania poważnymi incydentami, która zawiera kluczowe kroki, takie jak ocena, eskalacja i delegowanie, zebrane na jednej stronie.
Przestrzeganie wstępnie zdefiniowanego procesu reagowania na incydenty nie oznacza, że nie ma miejsca na improwizację. Trzeba wykazać się elastycznością i wiedzieć, kiedy dostosować się do zmieniającej się sytuacji. Incydenty z założenia są scenariuszami, w których coś nie idzie zgodnie z planem, jednak nie oznacza to, że nie można przygotować planu na wypadek ich wystąpienia. Zespoły, które ćwiczą i uczą się, korzystając z zestawu scenariuszy, zazwyczaj odnoszą sukces.
Skorzystaj z tego:
Spróbuj przeprowadzić grę dotyczącą wartości podczas reagowania na incydenty,aby zacieśnić relacje między członkami zespołu i przepracować wszelkie potencjalne nieporozumienia, zanim dojdzie do incydentu. Wykorzystaj Porady strategiczne dla zespołów Atlassian dostępne w naszych zasobach, aby lepiej zrozumieć proces stosowany przez zespół, a w konsekwencji opracować dynamiczne porady strategiczne.
5. Ułatwienie przeprowadzania kompleksowych analiz post-mortem
Elementy do uwzględnienia: opracuj zarys procesu analizy post-mortem i dobierz pola zgłoszeń.
Powód: analiza post-mortem ma na celu maksymalne wykorzystanie wniosków płynących z incydentu poprzez zrozumienie wszystkich przyczyn, które się na niego złożyły, udokumentowanie incydentu na przyszłość oraz wykrycie wzorca, a także skuteczne wdrożenie działań zapobiegawczych w celu zmniejszenia prawdopodobieństwa ponownego wystąpienia incydentu i ograniczenia jego skutków.
Jeśli potraktujemy incydent jako nieplanowaną inwestycję w zapewnienie niezawodności systemu, analiza post-mortem będzie sposobem na zmaksymalizowanie zwrotu z tej inwestycji.
Spróbuj tego:
Aby analiza post-mortem była skuteczna, proces musi ułatwiać zespołom ustalenie przyczyn i ich usunięcie. Dobór konkretnych metod będzie zależał od kultury zespołu. W zespołach odpowiedzialnych za analizę post-mortem w Atlassian najlepiej sprawdza się następująca kombinacja metod:
Spotkania bezpośrednie pomagające w przeprowadzaniu odpowiedniej analizy i ustalaniu z zespołem, co wymaga naprawy.
Zatwierdzanie analiz post-mortem przez menedżerów zespołów ds. dostarczania i działalności operacyjnej motywujące zespoły do ich dokładnego wykonywania.
Wyznaczenie priorytetowych działań z przypisanymi docelowymi poziomami świadczenia usług (SLO) oraz utworzenie przypomnień i raportów gwarantujących ich realizację.
Szczegółowy opis analizy post-mortem reagowania na incydenty Atlassian można znaleźć na stronie 46 Podręcznika firmy Atlassian na temat zarządzania incydentami.
Najważniejsze, aby porady strategiczne dotyczące reagowania na incydenty sprzyjały współpracy zespołów nad skutecznym rozwiązywaniem incydentów w możliwie jak najkrótszym czasie. Gdy dochodzi do incydentu, nie ma czasu na dyskusję o najlepszych praktykach i wskazywanie winnych. Wyczerpujące, dobrze opracowane porady strategiczne pozwalają zespołom pracować z optymalną wydajnością. Wytyczne Atlassian dotyczące tych wszystkich porad zostały szczegółowo omówione w Podręczniku na temat zarządzania incydentami.
Polecane dla Ciebie
Samouczek
Konfigurowanie harmonogramu dyżurów domowych za pomocą Opsgenie
W tym samouczku nauczysz się konfigurować harmonogram dyżurów domowych, stosować reguły zastępujące, ustawiać powiadomienia o dyżurach domowych oraz wykonywać inne czynności w Opsgenie.
Plusy i minusy różnych podejść do zarządzania dyżur domowy
Zespoły na dyżurach domowych szybko się rozwijają. Poznaj zalety i wady różnych podejść do zarządzania dyżurami domowymi.
Dowiedz się więcej o zarządzaniu incydentami
Znajdź w tym centrum więcej przewodników i zasobów dotyczących zarządzania incydentami.