Close

Zarządzanie incydentami dla dynamicznych zespołów

Język zarządzania incydentami

Słowniczek dla zespołów zarządzających incydentami

Język używany w ekosystemie technologicznym jest, delikatnie mówiąc, dynamiczny. Nigdzie indziej nie znajdzie się podobnej mieszanki żargonu technicznego z płynnie wplecionymi odniesieniami do science fiction, mitologii, popkultury, historii i literatury. Choć nadaje to rozmowom barwny i ciekawy charakter, często utrudnia dojście do sedna sprawy.

Gdy nie dzieje się nic pilnego, taki język się sprawdza. Jeśli jednak dojdzie do incydentu, a poziomy ważności zaczną szybować w górę, potrzeba języka precyzyjnego pod względem technicznym, praktycznego i pozwalającego uniknąć ryzyka błędnej interpretacji.

To oznacza, że w kwestii zarządzania incydentami potrzeba zbioru precyzyjnych definicji, aby każdy wiedział, o czym jest mowa.

Potwierdzenie incydentu

Po wygenerowaniu alertu o incydencie użytkownik może potwierdzić alert w większości narzędzi do obsługi alertów dla osób pełniących dyżur domowy. Oznacza to, że użytkownik bierze odpowiedzialność za zgłoszenie i pracuje nad jego rozwiązaniem.

Użyteczny alert

Alert użyteczny to taki, który jasno opisuje problem i jego skutki oraz jest skierowany do właściwych osób we właściwym czasie, aby zespół mógł niezwłocznie podjąć działania.

Monitorowanie aktywne

Systemy wyposażone w funkcję monitorowania aktywnego są regularnie sprawdzane lub automatycznie monitorowane za pomocą oprogramowania pod kątem wszelkich zmian wydajności, które mogą doprowadzić do incydentów.

Przegląd po zakończeniu działań (AAR)

Przegląd po zakończeniu działań jest ustrukturyzowanym procesem przeglądu, realizowanym po wystąpieniu zdarzenia. Zazwyczaj obejmuje on szczegółowy opis zdarzenia, próby identyfikacji jego przyczyn oraz wskazanie obszarów poprawy, aby zapobiec wystąpieniu takich samych lub podobnych zdarzeń w przyszłości. Przeglądy po zakończeniu działań są nazywane powszechnie analizami post-mortem lub przeglądami po incydentach.

Uzgodniony czas świadczenia usługi (AST)

Uzgodniony czas świadczenia usługi oznacza ilość czasu, zazwyczaj wyrażoną w liczbie godzin rocznie, przez którą usługa ma być dostępna. Takie uzgodnienie zazwyczaj jest zamieszczane w umowie o gwarantowanym poziomie świadczenia usług (SLA) zawieranej między dostawcą a klientem. W przypadku usług o wysokiej dostępności ich deklarowany czas dostępności wynosi zazwyczaj 99,99%, co oznacza, że długość przestojów w ciągu roku musi być łącznie mniejsza niż jedna godzina.

Alert

Alarm lub ostrzeżenie generowane, gdy narzędzia do monitorowania wykryją zmiany, działania wysokiego ryzyka lub awarie w środowisku IT.

Szum alertów

Szum alertowy występuje, gdy w krótkim czasie zostaje wygenerowana przytłaczająca liczba alertów, co utrudnia osobom reagującym precyzyjne ustalenie dotkniętych usług i wyznaczenie priorytetów prac. Szum alertowy może przyczyniać się do niewrażliwości na alerty.

Niewrażliwość na alerty

Niewrażliwości na alerty występuje, gdy osoby reagujące na incydenty zostają przytłoczone liczbą lub częstotliwością alertów. Często prowadzi do wydłużenia czasu reakcji, a nawet całkowitego braku reakcji, ponieważ osoby reagujące mają tendencję do traktowania stale napływających alertów za normalny stan.

Zawsze dostępne usługi

Usługa, która ma działać w sposób ciągły.

Zasób / zarządzanie zasobami

Komponenty dowolnego systemu lub dowolnej sieci, które mają wartość biznesową. Zarządzanie zasobami ma miejsce, gdy pracownik lub zespół prowadzą wykaz tych komponentów, aby zrozumieć wpływ aktualizacji lub usunięcia systemu.

Audyt

Formalne badanie dostępności i wykorzystania systemu lub procesu, a także ustalenie, czy zasady, wytyczne i najlepsze praktyki są przestrzegane.

Dostępność

Okres, gdy produkt lub system jest dostępny i działa zgodnie z oczekiwaniami. Nazywany również czasem dostępności systemu.

Wycofanie

Praktyka przywracania usługi do poprzedniego stanu niezawodności lub punktu odniesienia. Zwykle jest to szybka naprawa stosowana, gdy aktualizacja lub wydanie spowodują uszkodzenie jakiegoś ważnego składnika systemu.

Kopia zapasowa

Zapisana kopia danych lub nadmiarowy system dostępne do użycia w przypadku naruszenia lub utraty oryginału.

Punkt odniesienia

Wzorzec oczekiwanego zachowania. Punkty odniesienia ułatwiają zespołom pomiar zmian i ulepszeń.

Poziom odniesienia

Punkt odniesienia używany do pomiaru postępu lub porównywania wyników. Jeśli na przykład normą w naszej branży jest czas dostępności na poziomie 99,99%, możemy wykorzystać ten poziom odniesienia do pomiaru własnych wyników na tle konkurencji i oczekiwań klientów.

Błąd

Niezamierzony problem w oprogramowaniu, kodzie itp., który może powodować nieprawidłowe zachowanie lub awarię.

Analiza wpływu na działalność biznesową (BIA)

Analiza wpływu na działalność biznesową to systematyczna ocena potencjalnych skutków zakłóceń w działaniu usług i ich przestojów spowodowanych poważnym incydentem. Celem tej analizy jest zrozumienie wpływu poszczególnych usług na działalność biznesową i określenie wymagań dotyczących odzyskiwania w przypadku incydentu.

Zdolności produkcyjne

Maksymalna ilość informacji, którą można przesłać między sieciami lub dostarczyć za pośrednictwem usługi. Przekroczenie wydajności jest częstym wskaźnikiem incydentów.

Zmiana

Wszelkie modyfikacje dokonane w usłudze IT, konfiguracji, sieci lub procesie. Często śledzone w ramach praktyki nazywanej zarządzaniem zmianami.

Historia zmian

Kompleksowy rejestr zmian dokonanych w usłudze IT, konfiguracji, sieci lub procesie od początku jego cyklu życia aż do stanu bieżącego.

Zarządzanie zmianami

Praktyka IT skoncentrowana na minimalizacji zakłóceń podczas wprowadzania zmian/aktualizacji w krytycznych systemach i usługach. W przypadku niektórych zespołów obejmuje to wszystkie aspekty zmian — od technicznych aż po osobowe i procesowe. W innych zespołach — korzystających z wytycznych ITIL 4 — zarządzanie zmianami koncentruje się na zarządzaniu ludzkimi lub kulturowymi aspektami zmian, podczas gdy do oceny ryzyka, harmonogramów i autoryzacji zmian wykorzystuje się inną praktykę nazywaną kontrolą zmian.

ChatOps

Praktyka wykorzystywania narzędzi czatu i współpracy w zarządzaniu incydentami. Jak wyjaśnia Sean Regan z Atlassian:

„ChatOps jest modelem współpracy scalającym ludzi, narzędzia, proces oraz automatyzację w ramach przejrzystego przepływu pracy. Ten przepływ łączy prace wymagane, realizowane i ukończone w stałej lokalizacji obsługiwanej przez ludzi, boty i powiązane narzędzia”.

Stan zamknięty

Incydent znajduje się w stanie zamkniętym, gdy wszystkie niezbędne działania zostały podjęte, a zgłoszenie zostało zamknięte.

Zimna rezerwa (stopniowe przywracanie)

Terminu zimna rezerwa używa się w przypadku systemu, który pełni funkcję rezerwy dla innego systemu. Jeśli system podstawowy ulegnie awarii, zimna rezerwa zastąpi ten system na czas jego naprawy. Ta strategia jest szczególnie przydatna, gdy awaria systemu wymaga stopniowego przywracania (które może trwać nawet kilka tygodni) w przypadku konieczności wymiany i skonfigurowania sprzętu komputerowego.

Zimny start

Z zimnym startem mamy do czynienia wówczas, gdy uruchomienie aplikacji, która nie pracuje, trwa dłużej niż uruchomienie „ciepłej” lub już pracującej aplikacji.

Lider ds. komunikacji

Członek zespołu odpowiedzialny za komunikację podczas incydentu.

Zgodność

Dostosowanie do regulacji prawnych. Często systemy monitorowania są zaprogramowane do monitorowania problemów ze zgodnością z przepisami i wyzwalają alerty, jeśli system przestanie spełniać wymagania.

Analiza wpływu awarii komponentu (CFIA)

Proces ustalania wpływu na usługę sytuacji, w której jeden komponent lub jedna konfiguracja przestaje działać zgodnie z oczekiwaniami.

Współbieżność

Miara określająca liczbę takich samych czynności zachodzących równocześnie w systemie. Przykładowo: ilu użytkowników uzyskuje dostęp do tej samej operacji lub wykonuje tę samą transakcję?

Kontrola

Procedury i zasady, które mają na celu zarządzanie ryzykiem, zapewnienie zgodnego z oczekiwaniami działania produktu lub usługi oraz zachowanie zgodności z przepisami.

Usługa podstawowa

Usługa, która pełni centralną funkcję dla użytkowników/klientów.

Przeciwdziałanie

Konkretne reaktywne działanie podejmowane w celu ochrony systemu lub przywracania działania.

Usługa zorientowana na klienta

Usługi, z których korzystają klienci i z którymi wchodzą w interakcje.

Ramy postępowania Cynefin

Konstrukcja podejmowania decyzji, która została dostosowana do procesów zarządzania incydentami, aby pomóc menedżerom w organizowaniu jak najskuteczniejszej reakcji. W tych ramach postępowania sytuacje są podzielone na pięć kategorii, w zależności od poziomu złożoności incydentu, a każda kategoria ma swój własny (inny) zestaw kolejnych kroków.

Pulpit

Jednoekranowa wizualizacja systemów, alertów i incydentów, opracowana w celu uporządkowania prezentacji informacji pochodzących z różnych narzędzi z uwzględnieniem danych kontekstowych w przejrzystym, precyzyjnym formacie.

Zależność

Relacja między dwoma usługami, procesami lub konfiguracjami, których działanie jest powiązane ze sobą nawzajem.

Wycofywanie

Zachodzi, gdy funkcja lub narzędzie są wycofywane z eksploatacji lub użycia albo przestaje się je aktualizować.

Diagnoza

Proces i wynik zrozumienia incydentu i jego głównej przyczyny.

Diagnostyka

Objawy lub oznaki, które prowadzą do diagnozy incydentu.

Przestój/niedostępność

Czas, w którym usługa nie działa zgodnie z oczekiwaniami lub jest niedostępna.

Zmiana pilna

Aktualizacja lub poprawka wdrażana na szybko, zwykle w ramach rozwiązywania incydentu. Zmiany pilne często nie podlegają procesom zatwierdzania zmian, ponieważ ryzyko związane z oczekiwaniem na zatwierdzenie jest większe niż ryzyko wynikające z wdrożenia zmiany.

Usługa umożliwiająca

Usługa niezbędna do działania usługi podstawowej, ale nie udostępniana bezpośrednio klientom.

Środowisko testowe*

Infrastruktura, w której usługa, funkcja, proces, element konfiguracji itp. są testowane pod kątem oczekiwanej funkcjonalności. To środowisko jest ściśle kontrolowane, aby stanowiło dokładne odwzorowanie środowiska produkcyjnego.

Środowisko produkcyjne

Infrastruktura, za pomocą której usługa jest dostarczana do klienta. Wyniki dostarczane w tym środowisku funkcjonują na żywo, dlatego czasem nazywa się je środowiskiem działającym na żywo.

Błąd

Pomyłka powodująca usterkę elementu konfiguracji lub usługi. Może to być błąd w projekcie, sposobie przetwarzania lub błąd ludzki.

Eskalacja

Proces przenoszenia zadania zarządzania incydentem do zespołu lub osoby z bardziej odpowiednimi umiejętnościami lub doświadczeniem. Eskalacja funkcyjna ma miejsce, gdy alert lub incydent są przekazywane osobie lub zespołowi z większą wiedzę specjalistyczną. Eskalacja hierarchiczna ma miejsce, gdy wspomniany alert lub incydent jest przekazywany przez osobę młodszą stażem do osoby starszej stażem.

Zdarzenie

Warta odnotowania sytuacja dotycząca systemu lub usługi. Zdarzenia są zwykle spowodowane działaniem użytkownika lub incydentem.

Raport niezgodności

Raport generowany, gdy kluczowe wskaźniki wydajności (KPI) przekraczają wartości progowe lub nie są zgodne z oczekiwaniami.

Odporność na błędy

Odporność na błędy opisuje zdolność usługi do dalszego działania, nawet jeśli element konfiguracji lub pojedyncza część ulegnie awarii.

Analiza drzewa błędów

Technika stosowana do ustalania zdarzeń, które doprowadziły do incydentu, i przewidywania, które zdarzenia mogą doprowadzić do incydentów w przyszłości. Często stosowana do ustalania głównej przyczyny poważnego incydentu.

Pierwsza linia wsparcia

Osoba reagująca, która ma jako pierwsza zareagować na incydent. Zazwyczaj jest to osoba pełniąca dyżur domowy.

Napraw

Działanie podejmowane w celu naprawy lub sposób naprawy.

Środek trwały

Środek trwały jest rzeczowym składnikiem majątku firmy, takim jak biuro, komputer czy licencja.

Praca rotacyjna w kolejnych strefach czasowych

Metoda zapewniania wsparcia klientom lub zarządzania incydentami z rotacją obowiązków związanych z dyżurami domowymi w strefach czasowych w celu zapewnienia całodobowej dostępności bez wymagania od zespołów prowadzenia dyżurów domowych w nocy.

Dochodzenie kryminalistyczne

Naukowa, oparta na dowodach analiza systemu komputerowego w celu zidentyfikowania przyczyny incydentu.

Funkcjonalny

Usługa jest funkcjonalna, gdy może działać zgodnie z oczekiwaniami.

Stopniowe przywracanie

Stopniowe przywracanie jest procesem przywracania trwającym dłużej niż zwykle (tygodnie, a nie godziny). W takiej sytuacji zimna rezerwa (system zapasowy) jest przełączana do trybu online, zajmując miejsce dotkniętego systemu.

Gorąca rezerwa

Gorąca rezerwa jest opcją przywracania, w której zasoby nadmiarowe pracują równocześnie, aby zapewnić obsługę usługi IT w razie awarii. Jeśli aktywny system ulegnie awarii, gorąca rezerwa już działa i może zająć jego miejsce bez konieczności podejmowania dodatkowych działań przez zespół i bez przestoju. Nazywana również przywracaniem natychmiastowym.

Poprawka

Aktualizacja stosowana do oprogramowania w celu rozwiązania problemu lub naprawienia błędu. Często używana do rozwiązania problemu zgłaszanego przez klienta.

Wpływ

Miara kosztu (wyrażonego w utraconych pieniądzach, utraconym czasie i utraconej reputacji), który generuje zakłócenie działania usługi, incydent lub zmiana. Nazywana również kosztem przestoju.

Nieużyteczny alert

Alert, który nie daje osobie reagującej możliwości podjęcia konkretnych działań. Często oznacza to alert, w którym nie ma informacji kontekstowych, alert skierowany do niewłaściwej osoby lub alert o nieprecyzyjnie zdefiniowanym zakresie. Takie alerty mogą przyczyniać się do niewrażliwości na alerty.

Incydent

Zdarzenie powodujące zakłócenie działania lub obniżenie jakości świadczonej usługi, które wymaga pilnej reakcji. Zespoły przestrzegające praktyk ITIL lub ITSM mogą również używać terminu poważny incydent.

Reagowanie na incydenty

Sposób reagowania zespołów na incydent. Zazwyczaj reakcja na incydent jest procesem wstępnie skonfigurowanym, obejmującym reguły, role i najlepsze praktyki zdefiniowane przed wystąpieniem incydentu.

Zarządzanie incydentami

Proces stosowany przez zespoły DevOps i ds. eksploatacji IT w celu reagowania na nieplanowane zdarzenie lub przerwę w świadczeniu usługi i przywracania jej do stanu funkcjonalnego.

Zarządzający incydentami

Zarządzający incydentami jest członkiem zespołu IT lub DevOps odpowiedzialnym za zarządzanie reakcją na incydenty. Zarządzający jest kierownikiem zespołu ds. zarządzania incydentami, który sprawuje pełną kontrolę oraz ma ostatnie słowo przy podejmowaniu wszystkich decyzji związanych z incydentami. Ta rola często bywa również nazywana menedżerem ds. incydentów.

Cykl życia incydentu

Okres trwania incydentu — od momentu jego powstania i wykrycia aż po rozwiązanie.

Wskaźniki we/wy

Zbiór wskaźników przeznaczonych do pomiaru wejścia i wyjścia. Do typowych wskaźników w tej kategorii należą oczekiwanie na we/wy (czas, przez który procesor oczekuje na żądanie wejścia/wyjścia) i IOPS (liczba żądań wejścia/wyjścia na sekundę).

Koordynowanie reakcji na incydenty

Funkcja Opsgenie, która pozwala zespołom szybko i skutecznie identyfikować problemy, powiadamiać właściwe osoby oraz prowadzić komunikację między jednostkami biznesowymi i współpracę między zespołami na potrzeby zarządzania incydentami.

Zapis incydentu

Rejestr szczegółowych informacji na temat konkretnego incydentu oraz procesów zastosowanych w jego trakcie.

Reagujący na incydent

Osoby i/lub zespoły odpowiedzialne za zbadanie i rozwiązanie incydentu.

Interesariusze/obserwatorzy incydentów

Osoby, które muszą być na bieżąco informowane o incydencie, ponieważ wpływa on na ich pracę / zdolność do wykonywania tej pracy. Te osoby mogą wpływać na proces rozwiązywania incydentu, ale nie są osobami aktywnie reagującymi.

Przywracanie pośrednie

Nazywane również ciepłą rezerwą. Ten rodzaj przywracania trwa zazwyczaj 24–72 godzin. Przywracanie danych i/lub konfiguracja sprzętu i oprogramowania są zwykle przyczyną stosunkowo długiego czasu odzyskiwania sprawności.

Information Technology Infrastructure Library (ITIL)

Udokumentowany zbiór powszechnie akceptowanych najlepszych praktyk w zakresie usług IT.

Zarządzanie usługami informatycznymi (ITSM)

Wszystkie aspekty procesów i procedur wymaganych do świadczenia usług IT klientom. Obejmuje to wszystkie aspekty cyklu życia usługi — od projektu, przez dostarczenie, aż po zarządzanie incydentami.

Metoda Kepner-Tregoe (analiza KT)

Metoda analizy głównych przyczyn i podejmowania decyzji, w ramach której problemy poddaje się ocenie niezależnie od ostatecznej decyzji w sprawie zgłoszenia.

Kluczowe wskaźniki wydajności (KPI)

Są miarą pomyślnego działania systemów lub produktów. Wskaźniki KPI definiuje się z wyprzedzeniem i regularnie śledzi, a ich rozbieżność względem oczekiwanych progów często generuje alerty. Jeśli na przykład średni czas bezawaryjnej pracy (MTBF) zacznie się skracać, może zostać wygenerowany alert, aby powiadomić zespół o konieczności identyfikacji i analizy problemu.

Znany błąd

Istniejący wcześniej problem, dla którego znany jest już sposób obejścia.

Opóźnienie

Zwłoka występująca podczas transferu danych.

logs

Rejestry wszystkich zdarzeń związanych z usługą lub aplikacją. Obejmują one przesyłane dane, godziny i daty, incydenty, zmiany, błędy itp.

Utrzymywalność

Miara łatwości, z jaką można skutecznie zastosować zmiany w usłudze lub funkcji.

Obejście ręczne

Rozwiązanie zaimplementowane ręcznie (w odróżnieniu od rozwiązań implementowanych automatycznie).

Średni czas bezawaryjnej pracy (MTBF)

Średni czas między awariami produktu technologicznego, które można naprawić. Bywa nazywany również średnim czasem między incydentami (MTBSI).

Średni czas potwierdzenia (MTTA)

Średni czas, który upływa od wyzwolenia alertu do rozpoczęcia prac nad zgłoszeniem.

Średni czas do wystąpienia awarii (MTTF)

Średni czas między awariami produktu technologicznego, których nie można naprawić.

Średni czas naprawy (MTTR)

Średni czas potrzebny na naprawę systemu (zwykle technicznego lub mechanicznego). Obejmuje to zarówno czas naprawy, jak i czas testowania.

Średni czas przywracania (MTTR)

Średni czas potrzebny na przywrócenie działania produktu lub systemu po awarii. Obejmuje on całkowity czas trwania awarii — od momentu wystąpienia awarii systemu lub produktu do momentu, w którym odzyska on pełną sprawność.

Średni czas rozwiązywania (MTTR)

Średni czas potrzebny do całkowitego usunięcia awarii — w tym czas poświęcony na zapewnienie, aby awaria się nie powtórzyła.

Średni czas reakcji (MTTR)

Średni czas potrzebny na przywrócenie działania produktu lub systemu po awarii, liczony od momentu otrzymania pierwszego powiadomienia o awarii. Nie obejmuje on żadnych opóźnień w systemie obsługi alertów.

Model/modelowanie

Reprezentacja rzeczywistego systemu, rzeczywistej usługi, aplikacji itp.

Monitorowanie

Cykliczny proces sprawdzania usługi lub procesu w celu upewnienia się, że działa zgodnie z oczekiwaniami.

Zmiana normalna

Niepilna zmiana bez zdefiniowanego, wstępnie zatwierdzonego procesu.

Harmonogram dyżurów na wezwanie

Harmonogram, który zapewnia, że odpowiednia osoba jest zawsze, przez całą dobę dostępna, aby szybko zareagować na incydenty i awarie. Harmonogramy dyżurów domowych stosuje się powszechnie zarówno w branży medycznej, jak i technologicznej.

Centrum operacyjne

Fizyczna lokalizacja, w której odbywa się monitorowanie usług IT.

Lider ds. eksploatacji

Osoba odpowiedzialna za nadzorowanie codziennych działań. W niektórych przypadkach ta osoba może być również menedżerem ds. incydentów (lub zarządzającym incydentami) odpowiedzialnym za kierowanie procesem rozwiązywania incydentów.

Wynik

Rezultat zdarzenia, procesu lub zmiany w obszarze IT. Zespoły często posługują się pojęciami wyników prognozowanych i rzeczywistych.

Analiza uciążliwości

Analiza wykorzystana do identyfikacji wpływu incydentu na firmę. Zazwyczaj uwzględnia ona koszt przestoju, czas trwania incydentu, wpływ na użytkowników oraz liczbę poszkodowanych użytkowników.

Monitorowanie bierne

Określa stan, w którym funkcjonalność usługi jest monitorowana automatycznie (a nie aktywnie lub ręcznie).

Okres spokoju

Oznacza okres, w którym usługi działają, a operacje są prowadzone zgodnie z oczekiwaniami, bez żadnych zakłóceń.

Obniżenie wydajności

Miara spadku wydajności systemu z powodu zdarzenia lub incydentu.

Planowane przestoje

Okres, w którym usługa IT jest celowo niedostępna w związku z przerwą techniczną lub przeprowadzaniem aktualizacji.

Porady strategiczne

Zbiór scenariuszy lub konkretnych kroków, które zespół może zastosować, aby rozwiązać określony problem lub incydent albo osiągnąć zamierzony cel.

Analiza post-mortem / analiza po incydencie / przegląd po incydencie

Proces docierania do istoty incydentu po jego rozwiązaniu. Celem analizy post-mortem jest usprawnienie procesów reagowania, zapobieganie przyszłym incydentom i zrozumienie przyczyny ostatniego incydentu.

Priorytet

Kolejność, w której incydenty powinny być rozwiązywane. Pozycje o wysokim priorytecie są bardziej pilne niż te o niższym priorytecie. Priorytet zależy od pilności, ważności i potencjalnego wpływu na działalność biznesową.

Zapis problemu

Zapis problemu jest dokumentem, który obejmuje każdy aspekt problemu — od jego wykrycia aż po rozwiązanie.

Przewidywana niedostępność usługi

Dokument przedstawiający, w jaki sposób przyszłe przerwy techniczne lub testy wpłyną na normalne poziomy świadczenia usług.

Zapewnianie jakości

Proces testowania w celu zapewnienia spełnienia norm we wszystkich obszarach związanych z IT — od nowych funkcji po przewodniki.

System zarządzania jakością

Ramy postępowania lub systemy stosowane w celu zapewnienia jakości.

Monitorowanie reaktywne

Monitorowanie podejmowane w reakcji na zdarzenie lub incydent.

Odzyskiwanie

Proces przywracania usługi do funkcjonalności i kondycji stanowiących punkt odniesienia.

Docelowy punkt odzyskiwania

Maksymalna utrata danych dopuszczalna podczas odzyskiwania.

Docelowy czas odzyskiwania

Maksymalny czas przerwy w świadczeniu usług mieszący się w granicach tolerancji.

Wydawaj

Zmiana wdrożona do użytku przez użytkowników.

Zarządzanie wersjami

Planowanie, projektowanie, testowanie, tworzenie harmonogramów, rozwiązywanie problemów i wdrażanie związane ze zmianami.

Niezawodność

Zdolność systemu do opierania się awariom i szybkiego odzyskiwania sprawności w razie wystąpienia incydentu.

Czas reakcji

Czas, który upływa od momentu wygenerowania alertu do podjęcia przez zespół wstępnych działań.

Ocena ryzyka

Proces identyfikacji ryzyka powiązanego z danym zasobem poprzez ocenę jego wartości, potencjalnych zagrożeń i potencjalnego wpływu tych zagrożeń.

Zarządzanie ryzykiem

Proces postępowania z zagrożeniami poprzez ich identyfikację i kontrolowanie.

Główna przyczyna

Zazwyczaj przyjmuje się, że główna przyczyna jest pojedynczym powodem awarii usługi lub aplikacji. Jednak często występuje wiele powiązanych ze sobą czynników, które przyczyniają się do awarii, dlatego zespoły zaczynają kwestionować przydatność tego terminu w zarządzaniu incydentami i wiele z nich decyduje się stosować go w liczbie mnogiej: przyczyny główne.

Wykazy procedur

Wykazy procedur zawierają szczegółowe procedury zarządzania incydentami. Zazwyczaj są one prowadzone przez administratora systemu lub zespół ds. kontroli operacji sieciowych (NOC). Wykazy procedur mogą być udostępniane w formie cyfrowej lub drukowanej.

Zakres

Zasięg problemu, rozwiązania, projektu, funkcji itp.

Druga linia wsparcia

Osoby z dodatkowymi możliwościami — czasem, doświadczeniem, wiedzą, zasobami — do rozwiązywania problemów, które mogą wykraczać poza możliwości osób reagujących w pierwszej kolejności.

Zmiana usługi

Aktualizacje, poprawki, wycofania lub inne zmiany wprowadzone w usłudze.

Pomoc techniczna

Zespół, który przyjmuje wnioski o wsparcie klientów i pełni funkcję punktu kontaktowego między klientami a zespołem IT.

Analiza awarii usługi

Analiza awarii usługi jest procesem badania zakłócenia działania usługi w celu zidentyfikowania jego przyczyny.

Umowa o gwarantowanym poziomie świadczenia usług (SLA)

Umowa między dostawcą a klientem określająca wymierne wskaźniki, takie jak czas dostępności, szybkość reakcji i obowiązki.

Wykres monitorowania umowy o gwarantowanym poziomie świadczenia usług (SLAM)

Dokument, w którym rejestrowane są postępy oraz dane dotyczące docelowych poziomów świadczenia usług.

Docelowe poziomy świadczenia usług (SLO)

Wchodzące w skład umów SLA uzgodnienie dotyczące konkretnych wskaźników, takich jak czas dostępności.

Poziomy ważności (SEV)

Stopień, w jakim incydent wpływa na usługę. Zazwyczaj zespoły wykorzystują strukturę o liczbie poziomów ważności wynoszącej od 3 do 5, w której poziom 1 oznacza najwyższą ważność, a poziomy od 3 do 5 oznaczają mniej ważne zgłoszenia, które nie wymagają pilnej interwencji.

Pojedynczy punkt podatności na awarię

Jedna zmienna, od której zależy prawidłowe działanie systemu. Przykład: niezbędny element konfiguracji.

Specyfikacja

Formalny zapis wymagań dotyczących konfiguracji związanej z IT.

Inżynier ds. niezawodności lokalizacji (SRE)

Inżynier oprogramowania do spraw związanych z eksploatacją. Inżynierowie SRE odpowiadają zazwyczaj za automatyzację zadań wykonywanych ręcznie oraz zarządzanie poziomami SLO i incydentami.

Zmiany standardowe

Często powtarzane, wstępnie zatwierdzone zmiany niskiego ryzyka, takie jak dodanie pamięci lub pamięci masowej.

Rezerwa

Nieaktywne zasoby dostępne do wspomagania zarządzania incydentami.

Status

Aktualny stan usługi.

Strona stanu

Specjalne miejsce do informowania o aktualnym stanie usługi, w którym regularnie zamieszcza się aktualizacje dotyczące statusu w trakcie incydentów.

Ekspert w kwestiach merytorycznych (SME)

Osoba ze specjalistyczną wiedzą na temat konkretnego problemu, usługi itp.

Technologie wykorzystywane w projektach

Języki programowania, oprogramowanie i komponenty składające się na aplikację. Pakiet technologii ma dwie strony: frontend (z którym ma do czynienia klient) i backend (z którym mają do czynienia programiści).

Wskaźniki sprzężone

Dane, które w przypadku zmiany jednego zbioru lub punktu negatywnie wpływają na inne punkty danych.

Próg

Wstępnie zdefiniowany poziom, po przekroczeniu którego jest generowany alert. Przykładowo próg ładowania strony logowania może wynosić trzy sekundy. Jeśli strona zacznie się ładować dłużej, zostanie wygenerowany alert.

Oś czasu

Wyczerpująca lista zdarzeń, zmian, poprawek oraz wyników, które odnotowano w trakcie incydentu, wraz ze wskazaniem czasu ich wystąpienia.

Analiza trendów

Badanie wzorców czasowych. Analiza trendów zakłada, że na podstawie wzorców z przeszłości można prognozować przyszłe wzorce danych. To czyni ją cenną praktyką w zakresie zapobiegania incydentom.

Obejście problemu

Skuteczny sposób wdrożenia szybkiej poprawki, która przywraca funkcjonalność systemu, nawet jeśli sam incydent nie został jeszcze rozwiązany.

Obciążenie pracą

Zasoby — zarówno ludzkie, jak i komputerowe — potrzebne do dostarczenia usługi IT.