Funkcje alertów i dyżurów domowych Opsgenie są teraz dostępne w Jira Service Management i Compass. Zmigruj istniejące dane i konfiguracje Opsgenie przed 5 kwietnia 2027 r. za pomocą naszego automatycznego narzędzia do migracji.Dowiedz się więcej

MTBF, MTTR, MTTA i MTTF

Omówienie kilku najczęściej spotykanych wskaźników dotyczących incydentów

Awarie i incydenty techniczne nigdy dotąd nie odgrywały tak wielkiej roli, jak we współczesnym świecie ciągłej dostępności. Usterki i przestoje pociągają za sobą realne konsekwencje. Przekroczone terminy, opóźnione płatności i przesunięcia w realizacji projektów to wszystko elementy kosztów przestoju.

Dlatego ważne jest, aby firmy mierzyły i śledziły wskaźniki dotyczące czasu działania, przestojów oraz szybkości i skuteczności rozwiązywania problemów przez zespoły.

Najczęściej monitorowane wskaźniki w branży to między innymi:

  • MTBF (średni czas między awariami): określa średni czas działania systemu między kolejnymi awariami.

    • Wzór: MTBF = całkowity czas działania ÷ liczba awarii

  • MTTR (średni czas naprawy/przywrócenia/rozwiązania/reakcji): określa, jak szybko system lub usługa zostaje przywrócona po awarii.

    • Wzór: MTTR = całkowity czas przestoju ÷ liczba incydentów

  • MTTF (średni czas do awarii): odnosi się do przewidywanego okresu działania nienaprawialnego systemu, zanim dojdzie do jego awarii.

    • Wzór: MTTF = całkowity czas pracy ÷ liczba awarii (w przypadku systemów nienaprawialnych)

  • MTTA (średni czas do potwierdzenia): określa czas, jakiego zespół potrzebuje do rozpoznania incydentu lub reakcji na incydent.

    • Wzór: MTTA = czas potwierdzenia ÷ liczba incydentów

Wielu ekspertów twierdzi, że te wskaźniki same w sobie nie są zbyt przydatne, ponieważ nie uwzględniają bardziej złożonych kwestii, takich jak sposoby rozwiązywania incydentów, działające i niedziałające rozwiązania oraz sposób, czas i powód eskalowania lub deeskalowania zgłoszeń.

Z drugiej strony wskaźniki MTTR, MTBF i MTTF mogą być dobrym punktem wyjścia lub poziomem odniesienia w dyskusjach prowadzających do tych dalszych, ważnych pytań.

Zastrzeżenie dotyczące wskaźnika MTTR

Mówiąc o MTTR, łatwo założyć, że chodzi o pojedynczy wskaźnik, który ma jedno znaczenie. Prawda jest jednak taka, że wskaźnik ten reprezentuje cztery różne pomiary. R w skrócie MTTR może odnosić się do angielskich słów repair (naprawa), recovery (odzyskiwanie), respond (reakcja) i resolve (rozwiązanie). Choć te cztery wskaźniki mają pewne obszary wspólne, każdy z nich ma inne znaczenie i wyróżniające go niuanse.

Jeśli więc Twój zespół mówi o śledzeniu wskaźnika MTTR, warto doprecyzować, który konkretnie wskaźnik ma na myśli i jak go definiuje. Zanim przystąpisz do monitorowania sukcesów i porażek, Twój zespół musi wiedzieć, co dokładnie będziecie śledzić, aby mieć pewność, że wszyscy mówicie o tym samym.

MTBF: średni czas bezawaryjnej pracy

Czym jest średni czas bezawaryjnej pracy?

MTBF (średni czas bezawaryjnej pracy) to średni czas między awariami produktu technologicznego, które można naprawić. Ten wskaźnik umożliwia monitorowanie zarówno dostępności, jak i niezawodności produktu. Im dłuższy czas bezawaryjnej pracy, tym bardziej niezawodny jest system.

Celem większości firm jest utrzymanie wskaźnika MTBF na jak najwyższym poziomie, co oznacza setki tysięcy (lub nawet miliony) godzin pomiędzy kolejnymi problemami.

Wzór MTBF

Wzór MTBF jest prosty:

  • MTBF = całkowity czas działania / liczba awarii

Całkowity czas działania jest zazwyczaj mierzony w godzinach, szczególnie w przypadku często używanego sprzętu. Aby to obliczyć, należy pomnożyć liczbę godzin działania dziennie przez liczbę dni użytkowania.

Zamiast godzin można używać dni roboczych w przypadku sprzętu wykorzystywanego rzadziej, a nawet tygodni podczas monitorowania urządzeń o bardzo długiej żywotności.

Przykład MTBF

Przykład zastosowania wzoru MTBF pozwala lepiej zrozumieć, jak obliczać MTBF oraz jaką rolę odgrywa ten wskaźnik w zarządzaniu incydentami. W tym przykładzie omówiono serwer działający przez całą dobę przez 1 miesiąc.

  • 24 godziny × 30 dni = 720 godzin

  • MBTF = 720 godzin / 2 awarie = 360 godzin

W tym przykładzie średni czas między awariami wynosi 360 godzin. 

Kiedy stosować MTBF (a kiedy nie)

MTBF to przydatny wskaźnik podczas planowania i prowadzenia działań zapobiegawczych w ramach przerwy technicznej. Korzystając z MTBF, aby lepiej zrozumieć częstotliwość występowania awarii i przestojów, można proaktywnie wdrażać narzędzia i strategie zarządzania incydentami.

MTBF nie sprawdza się we wszystkich sytuacjach. W przypadku systemów nienaprawialnych zamiast tego wskaźnika należy stosować średni czas do awarii (MTTF).

Jaki jest związek między wskaźnikami MTBF i MTTR a dostępnością?

Obliczając jednocześnie MTBF i MTTR, można określić dostępność systemu. Oto wzór na dostępność systemu:

  • Dostępność = MTBF / (MTBF + MTTR)

Wyższy MTBF i niższy MTTR przekładają się na lepszą dostępność systemu, co obniża koszty awarii. Warto jednak zwrócić uwagę na różnicę między niezawodnością a dostępnością. Dostępność określa, przez jaki czas system pozostaje sprawny, natomiast niezawodność odnosi się do porównania działania systemu z ustalonymi standardami wydajności.

MTTR: średni czas naprawy

Czym jest średni czas naprawy?

MTTR (średni czas naprawy) to średni czas potrzebny na naprawę systemu (zwykle technicznego lub mechanicznego). Obejmuje on zarówno czas naprawy, jak i czas testowania. Czas liczony jest do momentu przywrócenia pełnej funkcjonalności systemu.

Jak obliczyć średni czas naprawy?

Aby obliczyć wskaźnik MTTR, należy zsumować całkowity czas spędzony na naprawach w danym okresie, a następnie podzielić ten czas przez liczbę napraw.

Załóżmy, że przyglądamy się naprawom dokonanym w ciągu tygodnia. W tym czasie doszło do 10 awarii, a systemy były naprawiane przez łącznie cztery godziny. Cztery godziny to 240 minut. 240 podzielone na 10 to 24. Oznacza to, że średni czas naprawy w tym przypadku wyniósłby 24 minuty.

Ograniczenia wskaźnika średniego czasu naprawy

Średni czas naprawy nie zawsze pokrywa się z czasem samej awarii. W niektórych przypadkach naprawy rozpoczynają się w ciągu kilku minut od wystąpienia awarii produktu lub systemu. W innych przypadkach występuje opóźnienie między wykryciem problemu, a przystąpieniem do naprawy.

Ten wskaźnik przydaje się najbardziej do śledzenia, jak szybko personel serwisowy jest w stanie naprawić problem. Jego celem nie jest wykrycie problemów z alertami systemowymi czy opóźnieniami poprzedzającymi rozpoczęcie naprawy — choć to również są ważne czynniki przy ocenie skuteczności programów zarządzania incydentami.

Jak i kiedy korzystać ze wskaźnika średniego czasu naprawy?

MTTR jest wskaźnikiem, który pozwala zespołom wsparcia i konserwacyjnym dbać o właściwy przebieg napraw. Celem jest utrzymanie wartości tego wskaźnika na jak najniższym poziomie poprzez zwiększenie wydajności procesów naprawczych i zespołów. 

MTTR: średni czas odzyskiwania

Czym jest średni czas odzyskiwania?

MTTR (średni czas odzyskiwania lub przywracania) to średni czas potrzebny na przywrócenie działania produktu lub systemu po awarii. Obejmuje on całkowity czas trwania awarii — od momentu wystąpienia awarii systemu lub produktu do momentu, w którym odzyska on pełną sprawność.

Jak wskazuje program badań DevOps Research and Assessment (DORA), jest to kluczowy wskaźnik DevOps pozwalający mierzyć stabilność zespołu DevOps.

Jak obliczyć średni czas odzyskiwania?

Średni czas odzyskiwania oblicza się przez zsumowanie wszystkich przestojów w określonym okresie i podzielenie otrzymanej wartości przez liczbę incydentów. Załóżmy, że w trakcie dwóch odrębnych incydentów, które miały miejsce w ciągu 24 godzin, nasze systemy były niedostępne łącznie przez 30 minut. 30 podzielone przez dwa to 15, zatem nasz wskaźnik MTTR wynosi 15 minut.

Ograniczenia wskaźnika średniego czasu odzyskiwania

Ten wskaźnik MTTR jest miarą szybkości całego procesu odzyskiwania. Czy przebiega on tak szybko, jak chcesz? Jak wypada na tle konkurencji?

Jest to wskaźnik ogólny, który pomaga ustalić, czy występuje problem. Jeśli jednak chcesz zdiagnozować, w czym tkwi problem (czy dotyczy systemu obsługi alertów, poświęcania zbyt dużej ilości czasu na poprawki, zbyt długiego czasu odpowiedzi na wnioski o poprawkę), musisz zdobyć więcej danych. Między awarią a odzyskaniem sprawności dzieje się bardzo wiele.

Problem może dotyczyć systemu obsługi alertów. Czy występuje opóźnienie między awarią a wygenerowaniem alertu? Czy przekazanie alertu właściwej osobie trwa dłużej niż powinno?

Problem może dotyczyć diagnostyki. Czy jesteś w stanie szybko ustalić, na czym polega problem? Czy istnieją procesy, które można poprawić?

Problem może tkwić również w naprawach. Czy zespoły serwisowe są maksymalnie skuteczne? Jeśli to ich działania pochłaniają większość czasu, co ich spowalnia?

Aby odpowiedzieć na te pytania, trzeba sięgnąć głębiej niż wskaźnik MTTR, jednak średni czas odzyskiwania może stanowić punkt wyjścia przy diagnozowaniu ewentualnych problemów w procesie odzyskiwania wymagających pogłębionej analizy.

Jak i kiedy korzystać ze wskaźnika średniego czasu odzyskiwania?

MTTR jest dobrym wskaźnikiem do oceny szybkości całego procesu odzyskiwania.

MTTR: średni czas rozwiązywania

Czym jest średni czas rozwiązywania?

MTTR (średni czas rozwiązywania) to średni czas potrzebny do całkowitego rozwiązania awarii. Obejmuje on nie tylko czas poświęcony na wykrycie awarii, zdiagnozowanie problemu i jego naprawę, ale także czas poświęcony na upewnienie się, że awaria się nie powtórzy.

Ten wskaźnik rozszerza zakres obowiązków zespołu zajmującego się rozwiązaniem o poprawę wydajności w dłuższej perspektywie. Posługując się analogią pożarową, mamy tu do czynienia nie tylko z ugaszeniem pożaru, ale też zabezpieczeniem przeciwpożarowym domu w jego następstwie. 

Istnieje silna korelacja między tym wskaźnikiem MTTR a zadowoleniem klienta, dlatego warto poświęcić mu uwagę.

Jak obliczyć średni czas rozwiązywania?

Aby obliczyć ten wskaźnik MTTR, należy zsumować czas rozwiązywania w wymaganym okresie i podzielić go przez liczbę incydentów.

Jeśli więc Twoje systemy nie działały przez łącznie dwie godziny w ciągu 24-godzinnego okresu z powodu jednego incydentu, a zespoły spędziły dodatkowe dwie godziny na wprowadzanie poprawek w celu zagwarantowania, że nie dojdzie do ponownej awarii, łączny czas poświęcony na rozwiązanie problemu to cztery godziny. Zatem Twój wskaźnik MTTR wynosi cztery godziny.

Uwaga na temat śledzenia średniego czasu rozwiązywania

Należy pamiętać, że wskaźnik MTTR najczęściej oblicza się na podstawie godzin pracy (jeśli więc uda Ci się przywrócić system po awarii pod koniec pracy jednego dnia, a następnego dnia od samego rana zaczniesz pracować nad usunięciem głównej przyczyny problemu, Twój wskaźnik MTTR nie będzie obejmował 16 godzin spędzonych poza biurem). Jeśli masz zespoły rozmieszczone w wielu lokalizacjach i pracujecie przez całą dobę albo Twoi pracownicy pełnią dyżury domowe po godzinach pracy, musisz zdefiniować sposób rejestrowania czasu na potrzeby tego wskaźnika.

Jak i kiedy korzystać ze wskaźnika średniego czasu rozwiązywania?

Wskaźnika MTTR zazwyczaj używamy, mówiąc o nieplanowanych incydentach, a nie wnioskach o usługi (które są zazwyczaj planowane).

MTTR: średni czas reakcji

Czym jest średni czas reakcji?

MTTR (średni czas reakcji) to średni czas potrzebny do przywrócenia działania produktu lub systemu po awarii, liczony od momentu otrzymania pierwszego powiadomienia o awarii. Nie obejmuje on żadnych opóźnień w systemie obsługi alertów.

Jak obliczyć średni czas reakcji?

Aby obliczyć ten wskaźnik MTTR, należy zsumować całkowity czas reakcji, od momentu wystąpienia alertu do momentu przywrócenia pełnej funkcjonalności produktu lub usługi, a następnie podzielić otrzymaną wartość przez liczbę incydentów.

Jeśli na przykład w trakcie 40-godzinnego tygodnia pracy doszło do czterech incydentów, na które (od momentu wygenerowania alertu do naprawy) poświęcono łącznie godzinę, wskaźnik MTTR dla tego tygodnia wyniesie 15 minut. 

Jak i kiedy korzystać ze wskaźnika średniego czasu reakcji?

Wskaźnik MTTR często stosuje się w cyberbezpieczeństwie jako miarę skuteczności zespołu w neutralizacji ataków na system.

MTTA: średni czas potwierdzenia

Czym jest średni czas potwierdzenia?

MTTA (średni czas potwierdzenia) to średni czas, który upływa od wygenerowania alertu do rozpoczęcia prac nad zgłoszeniem.Ten wskaźnik jest przydatny do śledzenia szybkości reakcji zespołu i skuteczności systemu obsługi alertów.

Jak obliczyć średni czas potwierdzenia?

Aby obliczyć wskaźnik MTTA, należy zsumować czas między wygenerowaniem alertu a potwierdzeniem, a następnie podzielić go przez liczbę incydentów. 

Jeśli na przykład doszło do 10 incydentów, w przypadku których w sumie upłynęło od wygenerowania alertu do potwierdzenia 40 minut, wówczas należy podzielić 40 przez 10, co daje średnią wynoszącą cztery minuty.

Jak i kiedy korzystać ze wskaźnika średniego czasu potwierdzenia?

Wskaźnik MTTA jest przydatny w monitorowaniu szybkości reakcji. Czy Twój zespół doświadcza niewrażliwości na alerty i reakcja zajmuje zbyt wiele czasu? Ten wskaźnik pomoże Ci wykryć ewentualny problem.

MTTF: średni czas do wystąpienia awarii

Czym jest średni czas do wystąpienia awarii?

MTTF (średni czas do wystąpienia awarii) oznacza średni czas między awariami produktu technologicznego, których nie da się naprawić. Jeśli na przykład silniki samochodowe marki X pracują średnio 500 000 godzin, zanim ulegną całkowitej awarii i trzeba będzie je wymienić, wskaźnik MTTF w ich przypadku będzie wynosił 500 000.

To wyliczenie pozwala ustalić trwałość systemu, stwierdzić, czy nowa wersja systemu jest lepsza od starej, a także podać klientom informacje o spodziewanej żywotności i terminach przeprowadzania przeglądów ich systemu.

Jak obliczyć średni czas do wystąpienia awarii?

Średni czas bezawaryjnej pracy jest średnią arytmetyczną, dlatego oblicza się go przez zsumowanie całkowitego czasu działania ocenianych produktów, a następnie podzielenie wyniku przez łączną liczbę urządzeń.

Załóżmy na przykład, że chcemy ustalić wskaźnik MTTF żarówek. Jak długo świecą się średnio żarówki marki Y, zanim się spalą? Załóżmy, że mamy do przetestowania cztery żarówki (aby uzyskać dane istotne statystycznie, potrzeba więcej sztuk, jednak dla uproszczenia obliczeń będziemy trzymać się małych liczb).

Żarówka A świeci 20 godzin. Żarówka B świeci 18 godzin, a żarówka C — 21 godzin. Żarówka D świeci 21 godzin. To w sumie 80 godzin pracy żarówek. Po podzieleniu przez cztery uzyskuje się wskaźnik MTTF wynoszący 20 godzin.

Wizualny przykład ustalania wskaźnika MTTF dla żarówek. Łączna liczba godzin pracy żarówek podzielona przez liczbę żarówek daje wskaźnik średniego czasu do wystąpienia awarii (MTTF).

Problem ze wskaźnikiem średniego czasu do wystąpienia awarii

W przypadku produktu, takiego jak żarówki, wyznaczenie wskaźnika MTTF ma sens. Możemy świecić żarówki, dopóki ostatnia z nich nie zgaśnie, i wykorzystać uzyskane informacje do wyciągnięcia wniosków dotyczących trwałości naszych żarówek.

Ale co zrobić, gdy pomiary dotyczą rzeczy, które nie ulegają awarii tak szybko? Rzeczy, które zachowują trwałość przez długie lata? W tych przypadkach wskaźnik MTTF, choć jest często stosowany, nie jest dobrym rozwiązaniem. Jest to spowodowane tym, że zamiast eksploatowania produktu do czasu jego awarii najczęściej eksploatujemy produkt przez określony czas, a następnie mierzymy, ile sztuk uległo awarii.

Załóżmy na przykład, że chcemy wyznaczyć wskaźnik MTTF dla tabletów marki Z. Tablety są zaprojektowane do wieloletniej pracy (a przynajmniej mamy taką nadzieję). Jednak producent marki Z ma na zebranie danych jedynie sześć miesięcy. Zatem przez sześć miesięcy testuje 100 tabletów. Załóżmy, że dokładnie po sześciu miesiącach jeden tablet ulegnie awarii.

Mnożymy zatem łączny czas pracy (sześć miesięcy razy 100 tabletów), uzyskując wynik 600 miesięcy. Jeden tablet uległ awarii, zatem dzielimy tę wartość przez jeden, uzyskując wskaźnik MTTR wynoszący 600 miesięcy, czyli 50 lat.

Czy każdy z tabletów marki Z przetrwa 50 lat? Mało prawdopodobne. Dlatego ten wskaźnik w podobnych przypadkach się nie sprawdza.

Jak i kiedy korzystać ze wskaźnika średniego czasu do wystąpienia awarii?

Wskaźnik MTTF sprawdza się dobrze przy próbach oceny średniego czasu eksploatacji produktów i systemów o krótkiej żywotności (takich jak żarówki). Stosuje się go również tylko w przypadkach całkowitych awarii produktów. Jeśli ma być obliczany czas między incydentami wymagającymi naprawy, lepszym wyborem będzie wskaźnik MTBF (średni czas bezawaryjnej pracy).

MTBF, MTTR, MTTF i MTTA

Który z pomiarów lepiej sprawdzi się w śledzeniu i doskonaleniu procesu zarządzania incydentami?

Odpowiedź brzmi: wszystkie.

Choć czasami używa się ich zamiennie, każdy ze wskaźników daje wgląd w inne zagadnienia. Ich połączenie może dać pełny obraz skuteczności zespołu w zarządzaniu incydentami oraz potencjalnych obszarów poprawy.

Ilustracja przedstawiająca możliwość usprawnienia zarządzania incydentami przez łączne zastosowanie wskaźników MTBF, MTTR, MTTA i MTTF

Średni czas odzyskiwania informuje, jak szybko można przywrócić działanie systemu.

Wystarczy przyjrzeć się średniemu czasowi reakcji, aby zorientować się, ile czasu odzyskiwania przypada na działania zespołu, a ile na system obsługi alertów.

Sięgając dalej do średniego czasu naprawy, zaczynasz dostrzegać, ile czasu zespół poświęca na naprawy, a ile na diagnostykę.

Jeśli dodasz do tego średni czas rozwiązywania, zaczniesz rozumieć pełny zakres naprawiania i rozwiązywania problemów poza faktycznym czasem przestoju, który powodują.

Uwzględniając średni czas bezawaryjnej pracy, uzyskasz jeszcze szerszy obraz ilustrujący skuteczność zespołu w zapobieganiu przyszłym problemom lub ograniczaniu ich zakresu.

Dodanie na koniec średniego czasu do wystąpienia awarii pozwoli zrozumieć pełny cykl życia produktu lub systemu.

Jira Service Management oferuje funkcje raportowania, dając zespołowi możliwość śledzenia wskaźników KPI oraz monitorowania i optymalizacji praktyki zarządzania incydentami.

Często zadawane pytania

Jaka jest dobra wartość MTBF?

Dobra wartość MTBF zależy od rodzaju systemu, z którym masz do czynienia. Komponenty o wysokiej niezawodności, takie jak dyski SSD, mogą mieć MTBF na poziomie 2 milionów godzin, podczas gdy dla serwerów wartość ta wynosi około 15 000 godzin. Fizyczne komponenty produkcyjne, takie jak silniki przenośników, uznaje się za niezawodne, jeśli ich MTBF wynosi 4000 godzin.

Co uznaje się za dobrą wartość MTTR?

Krótszy średni czas naprawy (MTTR) przekłada się na szybsze usuwanie usterek, co ogranicza kosztowne przestoje. W systemach produkcyjnych optymalny czas MTTR to mniej niż 5 godzin, gdyż wtedy pozwala on maksymalizować produkcję. Zespoły IT i zespoły ds. bezpieczeństwa zazwyczaj dążą do możliwie najkrótszego MTTR, dlatego każdy wynik poniżej godziny jest bardzo dobry. MTTR zależy także od poziomów istotności awarii.

Czy wartość MTTF powinna być wysoka czy niska?

Średni czas do wystąpienia awarii (MTTF) powinien być długi w przypadku systemów nienaprawialnych, ponieważ moment awarii oznacza koniec ich eksploatacji. MTTF różni się od MTBF, ponieważ określa średni czas do wystąpienia awarii nienaprawialnego komponentu, a nie średni czas między wieloma awariami.

Polecane dla Ciebie

Samouczek

Poznaj proces informowania o incydentach za pomocą Statuspage

W tym samouczku pokażemy, jak wykorzystać szablony dotyczące incydentów do skutecznej komunikacji w trakcie awarii. Ich elastyczny charakter pozwala na dostosowanie ich do różnego rodzaju przerw w dostawie usług.

Szablony i przykłady informowania o incydentach

Podczas reagowania na incydent szablony komunikatów są nieocenione. Pobierz szablony, z których korzysta nasz zespół, a także inne przykłady dotyczące częstych incydentów.

Dowiedz się więcej o zarządzaniu incydentami

Znajdź w tym centrum więcej przewodników i zasobów dotyczących zarządzania incydentami.