Zasoby
Zarządzanie usługami dla zespołów operacyjnych IT, programistycznych i biznesowych

Zapewnij zarządzanie usługami o wysokiej dynamice w dużej skali.

Zacznij korzystać za darmo

Dowiedz się więcej

Jak zarządzać kompleksowym dostarczaniem usług IT

Zapoznaj się ze wskazówkami dotyczącymi usprawnienia praktyk zarządzania usługami.

Dowiedz się więcej

Wszystko, co należy wiedzieć, aby uzyskać konfigurację w JSM

Te przewodniki obejmują wszystko, od podstaw po szczegółowe najlepsze praktyki.

Zobacz przewodnik

Biblioteka zasobów systemu Jira Service Management

Przejrzyj nasze oficjalne dokumenty, analizy przypadków, raporty i nie tylko, aby uzyskać wszystkie potrzebne informacje.

Wyświetl bibliotekę

Zasoby
Zarządzanie usługami dla zespołów operacyjnych IT, programistycznych i biznesowych

Zapewnij zarządzanie usługami o wysokiej dynamice w dużej skali.

Zacznij korzystać za darmo

Dowiedz się więcej

Jak zarządzać kompleksowym dostarczaniem usług IT

Zapoznaj się ze wskazówkami dotyczącymi usprawnienia praktyk zarządzania usługami.

Dowiedz się więcej

Wszystko, co należy wiedzieć, aby uzyskać konfigurację w JSM

Te przewodniki obejmują wszystko, od podstaw po szczegółowe najlepsze praktyki.

Zobacz przewodnik

Biblioteka zasobów systemu Jira Service Management

Przejrzyj nasze oficjalne dokumenty, analizy przypadków, raporty i nie tylko, aby uzyskać wszystkie potrzebne informacje.

Wyświetl bibliotekę

Zarządzanie incydentami dla dynamicznych zespołów

Szablon analizy zdarzeń

Precyzyjna dokumentacja jest kluczem do skutecznego procesu analizy post-mortem incydentu. Wiele zespołów wykorzystuje kompleksowy szablon do zbierania spójnych danych w trakcie każdego przeglądu po incydencie.

Poniżej przedstawiamy przykładowy szablon analizy post-mortem incydentu oparty na analizie post-mortem opisanej w naszym Podręczniku zarządzania incydentami. Można skopiować jego treść, aby udokumentować własne analizy post-mortem.

Streszczenie zdarzenia

W kilku zdaniach podsumuj incydent. Uwzględnij informacje o jego przebiegu, przyczynach, istotności oraz czasie trwania skutków.

PRZYKŁAD:

W godzinach {zakres czasowy incydentu, np. od 15:45 do 16:35}, {DATA} {LICZBA} użytkowników doświadczyło następujących problemów: {OBJAWY ZDARZENIA}.

Zdarzenie było wywołane przez {ZMIANA} o godzinie {GODZINA WPROWADZENIA ZMIANY, KTÓRA DOPROWADZIŁA DO ZDARZENIA}.

{ZMIANA} obejmowała {OPIS ZMIANY LUB JEJ PRZYCZYNY, na przykład zmiana w kodzie w celu aktualizacji systemu}.

Błąd w tym kodzie spowodował {OPIS PROBLEMU}.

Zdarzenie zostało wykryte przez {SYSTEM MONITOROWANIA}. Zespół przystąpił do prac nad zdarzeniem poprzez {CZYNNOŚCI PODJĘTE W CELU ROZWIĄZANIA PROBLEMU}.

Ten incydent o poziomie istotności {POZIOM ISTOTNOŚCI} dotyczył {X%} użytkowników.

W związku z tym incydentem odnotowano dodatkowe skutki w postaci {np. LICZBA PRZESŁANYCH ZGŁOSZEŃ DO DZIAŁU WSPARCIA, WZMIANEK W MEDIACH SPOŁECZNOŚCIOWYCH, TELEFONÓW DO OPIEKUNÓW KLIENTÓW}.

Wpływ

Opisz, w jaki sposób incydent wpłynął na użytkowników wewnętrznych i zewnętrznych w trakcie jego trwania. Dodaj informację o liczbie zgłoszeń do działu wsparcia, jakie napłynęły.

PRZYKŁAD:

{DD.MM.RRRR} przez {XX godz. i XX min} między {XX:XX czasu UTC i XX:XX czasu UTC} nasi użytkownicy borykali się ze skutkami incydentu {PODSUMOWANIE INCYDENTU}.

Incydent dotyczył {XX} poszkodowanych klientów (X% UŻYTKOWNIKÓW {SYSTEM LUB USŁUGA}), którzy doświadczyli następujących problemów: {OPIS OBJAWÓW}.

Przesłano {LICZBA ZGŁOSZEŃ DO DZIAŁU WSPARCIA I LICZBA WPISÓW W MEDIACH SPOŁECZNOŚCIOWYCH}.

Wykrycie

Kiedy zespół wykrył incydent? Skąd dowiedział się, że w ogóle doszło do incydentu? Jak można skrócić czas do wykrycia? Zastanów się: co można było zrobić, aby skrócić ten czas o połowę?

PRZYKŁAD:

Incydent został wykryty w wyniku wyzwolenia alertu {TYP ALERTU} i powiadomienia {ZESPÓŁ/OSOBA}.

Następnie powiadomiono {DODATKOWA OSOBA KONTAKTOWA}, ponieważ {PODSTAWOWA OSOBA KONTAKTOWA} nie miał(a) uprawnienia do zapisu usługi na dysku, co opóźniło reakcję o {XX MIN/GODZ.}.

{WŁAŚCICIEL ZESPOŁU ODPOWIEDZIALNEGO ZA ULEPSZENIE} wdroży ulepszenie polegające na {OPIS ULEPSZENIA}, aby {OCZEKIWANA POPRAWA}.

Odpowiedź

Kto zareagował na incydent? Kiedy zareagowano na incydent i jakie działania podjęto? Odnotuj wszelkie opóźnienia lub przeszkody, które utrudniły reakcję.

PRZYKŁAD:

Po odebraniu powiadomienia o {XX:XX czasu UTC} {INŻYNIER PEŁNIĄCY DYŻUR DOMOWY} zalogował(a) się o {XX:XX czasu UTC} do systemu {SYSTEM, W KTÓRYM REJESTROWANE SĄ INFORMACJE O INCYDENTACH}.

Inżynier nie miał wystarczającej ilości informacji na temat {SYSTEM, W KTÓRYM DOSZŁO DO INCYDENTU}, dlatego o godzinie {XX:XX czasu UTC} wysłano drugie powiadomienie do {PEŁNIĄCEGO DYŻUR DOMOWY INŻYNIERA DS. ESKALACJI}, który(-a) zgłosił(a) się o {XX:XX czasu UTC}.

Odzyskiwanie

Opisz, w jaki sposób usługa została przywrócona, a incydent został uznany za zakończony. Przedstaw szczegółowy opis pomyślnego przywrócenia usługi, uwzględniając, skąd było wiadomo, jakie kroki należy podjąć w celu odzyskania.

W zależności od scenariusza, rozważ następujące pytania: Jak można skrócić czas potrzebny na zminimalizowanie skutków? Jak można go skrócić o połowę?

PRZYKŁAD:

W procesie odzyskiwania systemu zastosowano podejście oparte na trzech elementach:

{OPISZ DZIAŁANIE, KTÓRE PODJĘTO W CELU ZMINIMALIZOWANIA SKUTKÓW PROBLEMU, PRZYCZYNĘ WYBORU TAKIEGO DZIAŁANIA ORAZ JEGO REZULTAT}

Przykład: zwiększenie rozmiaru w BuildEng EC3 ASG w celu zwiększenia liczby węzłów dostępnych do obsługi obciążenia i ograniczenia prawdopodobieństwa uwzględnienia w harmonogramie nadsubskrypcji węzłów.

Zablokowanie aktoskalera Escalator, aby zapobiec agresywnemu ograniczeniu klastra.
Przywrócenie programu planującego projektowanie kompilacji do poprzedniej wersji.

Oś czasu

Zaprezentuj szczegółową oś czasu incydentu. Zalecamy podawanie czasu UTC w celu ustandaryzowania stref czasowych.

Uwzględnij istotne zdarzenia poprzedzające, rozpoczęcia czynności, pierwszy odnotowany wpływ oraz eskalacje. Odnotuj wszelkie decyzje lub wprowadzone zmiany, uwzględnij czas zakończenia incydentu oraz istotne zdarzenia następcze.

PRZYKŁAD:

Wszystkie godziny są podane w formacie UTC (uniwersalny czas koordynowany).

11:48 — Ukończono uaktualnienie K8S 1.9 płaszczyzny sterowania.

12:46 — Ukończono uaktualnienie do wersji 1.9, obejmujące autoskaler klastrów i instancję harmonogramu BuildEng.

14:20 — Zespół Build Engineering zgłasza problem do zespołu KITT Disturbed.

14:27 — Zespół KITT Disturbed rozpoczyna badanie usterek konkretnej instancji EC2 (ip-203-153-8-204).

14:42 — Zespół KITT Disturbed oznacza węzeł jako nieuwzględniany w planowaniu.

14:49 — Zespół Build Engineering zgłasza problem jako dotyczący więcej niż jednego węzła. 86 instancji problemu pokazuje, że usterki dotyczą większej części systemu.

15:00 — Zespół KITT Disturbed sugeruje przełączenie na standardowy harmonogram.

15:34 — Zespół Build Engineering zgłasza awarię 200 zasobników.

16:00 — Zespół Build Engineering zatrzymuje wszystkie kompilacje, które uległy awarii z raportem OutOfCpu.

16:13 — Zespół Build Engineering zgłasza, że usterki pojawiają się ponownie w przypadku nowych kompilacji, co oznacza, że nie były przejściowe.

16:30 — Zespół KITT uznaje usterki za incydent i obsługuje je jako incydent.

16:36 — Zespół KITT blokuje autoskaler Escalator, aby zapobiec usunięciu zaosbów obliczeniowych przez autoskaler i zminimalizować problem.

16:40 - Zespół KITT potwierdza, że grupa ASG jest stabilna, obciążenie klastra jest normalne, a skutki dla klientów usunięte.

SZABLON:

XX:XX UTC — AKTYWNOŚĆ ZWIĄZANA Z INCYDENTEM; PODJĘTE DZIAŁANIE

Identyfikacja głównej przyczyny: technika „5 × dlaczego”

„5 × dlaczego” to technika identyfikowania głównej przyczyny. Stosuje się ją w następujący sposób:

Zacznij od opisania incydentu i zadaj pytanie, dlaczego wystąpił.
Odnotuj wpływ, jaki wywarł incydent.
Zapytaj, dlaczego do tego doszło oraz dlaczego wpływ był taki, a nie inny.
Następnie stawiaj kolejne pytania „dlaczego”, aż dotrzesz do głównej przyczyny.

Zamieść listę odpowiedzi na pytania „dlaczego” w swojej dokumentacji z analizy post-mortem.

PRZYKŁAD:

Wystąpiła awaria aplikacji, ponieważ baza danych została zablokowana.
Baza danych została zablokowana, ponieważ wystąpiło zbyt wiele operacji zapisu do bazy danych.
Ponieważ wypchnęliśmy zmianę do usługi i nie spodziewaliśmy się zwiększonej liczby operacji zapisu.
Ponieważ, nie mamy opracowanego procesu programistycznego testowania zmian pod kątem obciążenia.
Ponieważ do momentu osiągnięcia tego poziomu skali nie mieliśmy poczucia, że testy pod kątem obciążenia są w ogóle konieczne.

Kontrola listy zadań

Przeanalizuj backlog prac inżynierskich, aby ustalić, czy były jakieś nieplanowane prace, które mogły zapobiec danemu incydentowi lub przynajmniej ograniczyć jego wpływ?

Świeże spojrzenie na backlog może rzucić nieco światła na podjęte decyzje w kontekście priorytetów i ryzyka.

PRZYKŁAD:

W backlogu nie ma żadnych konkretnych elementów, które mogłyby poprawić działanie tej usługi. Jest notatka o udoskonaleniach typowania z uwzględnieniem przepływu. Były to zadania w toku, dla których opracowano przepływy pracy.

Przesłano zgłoszenia dotyczące poprawy testów integracji, jednak dotychczas sugestie nie zostały wdrożone.

Wyciągnięte wnioski

Omów, co w przebiegu reakcji na incydent poszło dobrze, co można poprawić oraz zdefiniuj potencjalne obszary poprawy.

PRZYKŁAD:

Wymagany jest test modułu, aby sprawdzić, czy ogranicznik zadań był odpowiednio utrzymywany.
Należy przeanalizować obciążenia występujące w przypadku operacji przeprowadzanych masowo, które nie są typowe dla zwykłych operacji.
Operacje przeprowadzane masowo powinny rozpoczynać się powoli i być monitorowane, a ich tempo powinno rosnąć, gdy uzyskiwane wskaźniki usług są nominalne.

Działania naprawcze

Opisz działania naprawcze zalecone w celu uniknięcia tego rodzaju incydentów w przyszłości. Wskaż osobę odpowiedzialną oraz termin wykonania prac i miejsce, w którym można śledzić ich postęp.

PRZYKŁAD:

Tymczasowe wdrożenie ręcznego limitu współczynnika automatycznego skalowania w celu ograniczenia liczby usterek
Test modułu i ponowne wprowadzenie ograniczeń współczynnika zadań
Wprowadzenie dodatkowego mechanizmu w celu gromadzenia rozproszonych informacji o wskaźnikach w klastrze jako wskazówek pomocnych podczas skalowania

Tutorial

Poznaj proces informowania o incydentach za pomocą Statuspage

W tym samouczku pokażemy, jak wykorzystać szablony dotyczące incydentów do skutecznej komunikacji w trakcie awarii. Ich elastyczny charakter pozwala na dostosowanie ich do różnego rodzaju przerw w dostawie usług.

Przeczytaj ten samouczek

Następny

Znaczenie procesu analizy post-mortem incydentu

Analiza post-mortem incydentu, nazywana również przeglądem po incydencie, jest najlepszym sposobem na podsumowanie tego, co zdarzyło się w trakcie incydentu, i wyciągnięcia wniosków.

Przeczytaj ten artykuł

Polecane

Jira

Confluence

Jira Service Management

Trello

Rovo NOWOŚĆ

Jira Product Discovery NOWOŚĆ

Compass NOWOŚĆ

Guard NOWOŚĆ

Loom NOWOŚĆ

Programiści

Jira

Bitbucket

Compass NOWOŚĆ

Menedżerowie produktu

Jira

Confluence

Jira Product Discovery NOWOŚĆ

Specjaliści IT

Jira Service Management

Guard NOWOŚĆ

Zespoły biznesowe

Jira

Confluence

Trello

Loom NOWOŚĆ

Kadra zarządzająca

Jira Align

Jira

Confluence

Loom NOWOŚĆ

Zespoły

Oprogramowanie

Marketing

IT

rozwiązanie

Według wielkości zespołu

Według branży

Dlaczego Atlassian

Narzędzia Integracji

Klienci

FedRAMP

Odporność

Platforma

Centrum zaufania

Zasoby

Obsługa klienta

Znajdź partnerów

Program migracji

University

Wsparcie

Uczenie się

Jira Service Management

Zarządzanie wsparciem IT

Przewodnik po produktach

Biblioteka zasobów

Zarządzanie usługami dla zespołów operacyjnych IT, programistycznych i biznesowych

Jak zarządzać kompleksowym dostarczaniem usług IT

Wszystko, co należy wiedzieć, aby uzyskać konfigurację w JSM

Biblioteka zasobów systemu Jira Service Management

Jira Service Management

Zarządzanie wsparciem IT

Przewodnik po produktach

Biblioteka zasobów

Zarządzanie usługami dla zespołów operacyjnych IT, programistycznych i biznesowych

Jak zarządzać kompleksowym dostarczaniem usług IT

Wszystko, co należy wiedzieć, aby uzyskać konfigurację w JSM

Biblioteka zasobów systemu Jira Service Management

Zarządzanie incydentami dla dynamicznych zespołów

Szablon analizy zdarzeń

Streszczenie zdarzenia

PRZYKŁAD:

Przygotowanie

PRZYKŁAD:

Błąd

PRZYKŁAD:

Wpływ

PRZYKŁAD:

Wykrycie

PRZYKŁAD: