Функции оповещений и дежурств Opsgenie теперь доступны в Jira Service Management и Compass. Перенесите существующие данные и конфигурации Opsgenie до 05.04.2027 с помощью нашего инструмента автоматической миграции.Подробнее

MTBF, MTTR, MTTA и MTTF

Понимание некоторых из наиболее распространенных метрик инцидентов

Воспользоваться бесплатным шаблоном еженедельного отчета о серьезных инцидентах ITSM

В современном мире, где все должно постоянно работать, сбои и технические инциденты оказывают как никогда сильное влияние. Неполадки и простои ведут к реальным последствиям. Пропущенные сроки, не проведенные вовремя платежи и задержки при реализации проектов — все это входит в стоимость простоя.

Вот почему для компаний важно количественно оценивать и отслеживать показатели безотказной работы, времени простоя и того, как быстро и эффективно команды решают проблемы.

Ниже приведены некоторые из наиболее часто отслеживаемых в отрасли показателей.

MTBF (средняя наработка на отказ) — отражает среднее время работы системы между сбоями.
- Формула: MTBF = общее время работы ÷ количество сбоев
MTTR (среднее время исправления/восстановления/решения/реагирования) — это показатель скорости восстановления системы или службы после сбоя.
- Формула: MTTR = общее время простоя ÷ количество инцидентов
MTTF (средняя наработка до отказа) — это ожидаемый срок службы неремонтируемой системы до момента ее отказа.
- Формула: MTTF = общее время работы ÷ количество сбоев (для неремонтируемых систем)
MTTA (среднее время подтверждения) — это время, которое требуется команде, чтобы распознать инцидент или отреагировать на него.
- Формула: MTTA = время подтверждения ÷ количество инцидентов

Многие эксперты спорят о действительной пользе этих метрик, если использовать их в отрыве от остальных показателей, потому что они не дают ответа на сложные вопросы о том, как устраняются инциденты, что работает, а что нет, и как, когда и почему проблемы обостряются или ослабляются.

С другой стороны, MTTR, MTBF и MTTF могут быть хорошей основой или эталоном, с которых стоит начинать обсуждение более глубоких и важных вопросов.

Оговорка об MTTR

Говоря об MTTR, можно предположить, что это один показатель с одним смыслом. В действительности за этой аббревиатурой скрываются четыре разных показателя. «R» может означать исправление (repair), восстановление (recovery), решение (resolve) или реагирование (respond), и хотя эти четыре показателя перекрываются, каждый имеет собственный смысл и особенности.

Поэтому если вашей команде нужно отслеживать MTTR, рекомендуется уточнить, какой именно MTTR имеется в виду и как его определить. Прежде чем вы начнете отслеживать успехи и неудачи, у вашей команды должно быть общее понимание того, что именно вы отслеживаете.

MTBF: средняя наработка на отказ

Что такое средняя наработка на отказ?

MTBF (средняя наработка на отказ) — среднее время работы технического продукта между устранимыми сбоями. Этот показатель используется для отслеживания как доступности, так и надежности продукта. Чем больше времени проходит между сбоями, тем надежнее система.

Цель для большинства компаний — сохранить наработку на отказ как можно выше, достигнув сотни тысяч (или даже миллионов) часов между инцидентами.

Формула MTBF

MTBF рассчитывается просто:

MTBF = общее время работы / количество сбоев

Общее время работы обычно измеряется в часах, особенно для часто используемого оборудования. Для расчета умножьте количество часов работы в день на количество дней использования.

Для оборудования, которое используется не так часто, можно вместо часов выразить общее время работы в днях, а для оборудования с очень долгим ожидаемым сроком службы — даже в неделях.

Пример расчета MTBF

Следующий пример с использованием формулы MTBF поможет понять, как рассчитывать этот показатель и какую роль он играет в управлении инцидентами. Рассмотрим сервер, который работает 24 часа в сутки в течение одного месяца.

24 часа * 30 дней = 720 часов
MBTF = 720 часов / 2 сбоя = 360 часов

В этом примере среднее время между сбоями составляет 360 часов.

Когда использовать MTBF (и когда не использовать)

MTBF — это полезный показатель, который можно использовать для составления планов и организации профилактического технического обслуживания. Зная, как часто случаются сбои и простои, можно заблаговременно внедрить инструменты и стратегии управления инцидентами.

Показатель MTBF подходит не для всех ситуаций. Для неремонтируемых систем вместо него следует использовать показатель средней наработки до отказа (MTTF).

Как взаимосвязаны показатели MTBF, MTTR и доступность?

Сочетание показателей MTBF и MTTR позволяет определить доступность системы. Вот формула для ее расчета.

Доступность = MTBF / (MTBF + MTTR)

Более высокое значение MTBF и более низкое значение MTTR ведут к увеличению времени безотказной работы системы, что снижает затраты, связанные со сбоями. Однако важно отметить разницу между надежностью и доступностью. Доступность измеряет количество времени, в течение которого система работоспособна, а надежность измеряет производительность системы в сравнении со стандартами производительности.

MTTR: среднее время исправления

Что такое среднее время исправления?

Среднее время исправления (mean time to repair, MTTR) — это средняя продолжительность ремонта системы (обычно технического или механического). Учитывается время, затраченное как на сам ремонт, так и на любое тестирование. Значение MTTR определяется только после того, как полностью восстановится работоспособность системы.

Как рассчитать среднее время исправления

Вы можете рассчитать MTTR, суммируя общее время, затраченное на ремонт в течение любого заданного периода, а затем разделив это время на количество ремонтов.

Итак, предположим, мы считаем эту метрику для ремонта в течение недели. За это время было 10 простоев, и системы активно ремонтировались в течение четырех часов. Четыре часа — это 240 минут. 240 делим на 10 и получаем 24. Что означает, что среднее время ремонта в этом случае будет составлять 24 минуты.

Ограничения среднего времени исправления

Среднее время ремонта не всегда совпадает с тем же временем, что и время сбоя работы системы. В некоторых случаях ремонт начинается в течение нескольких минут после сбоя продукта или сбоя системы. В других случаях между собственно инцидентом, обнаружением инцидента и началом ремонта бывает некоторая задержка.

Эта метрика наиболее полезна при отслеживании того, как быстро обслуживающий персонал может устранить проблему. Она не предназначена для выявления проблем с системными оповещениями или задержками перед восстановлением, которые также являются важными факторами при оценке успехов и сбоев программы управления инцидентами.

Как и когда использовать среднее время исправления

MTTR — это метрика, которую используют команды поддержки и технического обслуживания для обеспечения восстановительных работ на нужном уровне. Цель состоит в том, чтобы этот показатель был как можно ниже за счет повышения эффективности процессов восстановления и продуктивности команд.

MTTR: среднее время восстановления

Что такое среднее время восстановления?

Среднее время восстановления (mean time to recovery/restore, MTTR) — это средняя продолжительность восстановления продукта или системы после сбоя. Учитывается все время простоя — от сбоя в системе или продукте до полного восстановления работоспособности.

Это основной показатель DevOps, который, по мнению программы DevOps Research and Assessment (DORA), можно использовать для оценки стабильности команды DevOps.

Как рассчитать среднее время восстановления

Среднее время восстановления рассчитывается путем суммирования всего времени простоя в работе за определенный период и деления его на количество инцидентов. Итак, предположим, что наши системы были отключены на 30 минут в течение двух отдельных инцидентов за 24-часовой период. 30 делим на два, получаем 15, так что наш MTTR составляет 15 минут.

Ограничения среднего времени восстановления

MTTR используется для измерения скорости полного процесса восстановления. Достаточно ли она высокая? А по сравнению с вашими конкурентами?

Это высокоуровневый показатель, позволяющий определить наличие проблемы. Однако необходимо также выяснить, чем она вызвана. Сбоем системы оповещений? Чересчур долгой работой над исправлениями? Несвоевременным откликом на запросы? Чтобы установить причину, требуется больше данных — ведь между отказом и восстановлением происходит множество событий.

Проблема может быть связана с вашей системой оповещения. Существует ли задержка между сбоем и отправкой оповещения? Достаточно ли быстро оповещения доходят до нужного человека?

Проблема может быть в диагностике. Можете ли вы быстро выяснить, в чем проблема? Существуют ли процессы, которые можно было бы улучшить?

Или проблема может быть с самим процессом исправления. Достаточно ли эффективны ваши команды технического обслуживания? Если они тратят все свое время на исправление, то что именно их тормозит?

Вам нужно будет копнуть глубже, чем MTTR, чтобы ответить на эти вопросы, но среднее время восстановления может стать отправной точкой для диагностики того, существует ли проблема в процессе восстановления и требует ли она более глубокого анализа.

Как и когда использовать среднее время восстановления

MTTR является хорошей метрикой для оценки скорости общего процесса восстановления.

MTTR: среднее время разрешения

Что такое среднее время разрешения?

Среднее время разрешения (mean time to resolve, MTTR) — это среднее время, необходимое для полного устранения сбоя. Учитывается время, затраченное не только на обнаружение, диагностику и устранение проблемы, но и на предотвращение ее повторения.

Эта метрика расширяет ответственность команды, обрабатывающей исправление: она задает ожидания в плане повышения ее продуктивности в долгосрочной перспективе. В этом и заключается разница между простым тушением пожара и тушением пожара с последующей установкой противопожарной системы.

Существует сильная связь между этим MTTR и удовлетворенностью клиентов, так что этой метрике нужно уделить особое внимание.

Как рассчитать среднее время разрешения

Чтобы рассчитать этот MTTR, рассчитайте полное время разрешения в течение периода, который вы хотите отслеживать, и разделите на количество инцидентов.

Таким образом, если ваши системы были отключены в общей сложности 2 часа за 24-часовой период из-за одного инцидента и команды потратили еще 2 часа на исправление, чтобы гарантировать, что сбой системы не повторится, в сумме получается 4 часа, потраченных на решение проблемы. Это означает, что ваш MTTR составляет 4 часа.

Заметка об отслеживании среднего времени разрешения

Имейте в виду, что MTTR чаще всего рассчитывается с использованием рабочих часов (поэтому если вы восстановите работу в конце рабочего дня и потратите время на исправление основной проблемы первым делом на следующее утро, ваш MTTR не будет включать 16 часов, в течение которых вы не работали). Если у вас есть команды в разных часовых поясах и вы работаете круглосуточно или если у вас есть дежурные сотрудники, работающие во внеурочное время, важно определить, как вы будете отслеживать время для этой метрики.

Как и когда использовать среднее время разрешения

MTTR обычно используется, когда речь идет о незапланированных инцидентах, а не о запросах на обслуживание (которые обычно планируются).

MTTR: среднее время реагирования

Что такое среднее время реагирования?

Среднее время реагирования (mean time to respond, MTTR) — это среднее время, которое требуется для восстановления продукта или системы после сбоя начиная с момента получения первого оповещения о нем. Оно не учитывает задержки в работе системы оповещений.

Как рассчитать среднее время реагирования

Чтобы рассчитать этот MTTR, рассчитайте полное время отклика с момента получения оповещения до того, когда продукт или услуга снова полностью функционируют. Затем разделите его на количество инцидентов.

Например: если у вас было 4 инцидента за 40-часовую рабочую неделю и вы потратили на них 1 час (от оповещения до исправления), то MTTR за эту неделю будет составлять 15 минут.

Как и когда использовать среднее время реагирования

MTTR часто используется в кибербезопасности при измерении успеха команды в нейтрализации атак на систему.

MTTA: среднее время подтверждения

Что такое среднее время подтверждения?

MTTA (среднее время подтверждения) — это среднее время, которое проходит с момента отправки оповещения до начала работы над исправлением. Эта метрика полезна для измерения скорости реагирования вашей команды и эффективности вашей системы оповещения.

Как рассчитать среднее время подтверждения

Чтобы рассчитать MTTA, посчитайте время между отправкой оповещения и подтверждением его получения, а затем разделите на количество инцидентов.

Например: если у вас было 10 инцидентов и в общей сложности прошло 40 минут между отправкой оповещения и подтверждением его получения для всех 10, вы поделите 40 на 10 и получите в среднем 4 минуты.

Как и когда использовать среднее время подтверждения

Метрика MTTA полезна для отслеживания отзывчивости. Ваша команда устала от оповещений и слишком долго отвечает на сообщения об инцидентах? Эта метрика поможет вам обнаружить и проанализировать эту проблему.

MTTF: средняя наработка до отказа

Что такое средняя наработка до отказа?

Средняя наработка до отказа (mean time to failure, MTTF) — это среднее время работы технологического продукта между неустранимыми сбоями. Например, если автомобильные двигатели марки X исправно работают в среднем 500 000 часов, до того как полностью выйдут из строя и будут подлежать замене, MTTF двигателей будет составлять 500 000 часов.

Эта метрика помогает понять, как долго система будет исправно работать, и определить, превосходит ли новая версия системы старую. Метрика позволяет предоставить клиентам информацию об ожидаемом сроке исправной работы и о том, когда следует запланировать проверку системы.

Как рассчитать среднюю наработку до отказа

Средняя наработка до отказа — это среднее арифметическое, которое определяется как сумма общего времени работы оцениваемых продуктов, деленная на общее количество устройств.

Например: предположим, вы рассчитываете MTTF лампочек. Как долго лампочки бренда Y в среднем работают, прежде чем они перегорают? Далее предположим, что для расчета у вас есть четыре лампочки (если вам нужны статистически значимые данные, вам понадобится гораздо больше, но, чтобы не перегружать вас расчетами, давайте возьмем всего четыре).

Лампочка А горит 20 часов. Лампочка B — 18. Лампочка C —21. И лампочка D —21 час. Это в общей сложности 80 часов горения лампочки. Делим на четыре и получаем MTTF в 20 часов.

Визуальный пример выяснения MTTF лампочек. Общая сумма часов работы лампочек до перегорания, деленная на количество лампочек, равняется MTTF (средней наработке до отказа)

Проблема, связанная со средней наработкой до отказа

Для таких случаев, как лампочки, смысл MTTF совершенно ясен. Мы можем включить лампочки и ждать до тех пор, пока не перегорит последняя, а затем использовать полученную информацию, чтобы сделать выводы о времени работы наших лампочек.

Но что происходит, когда мы измеряем что-то, что не перегорает так быстро? Что-то, что должно бесперебойно работать в течение долгих лет? Хотя MTTF часто используется и для этих случаев, эта метрика — не лучший выбор. Потому что мы не держим продукт включенным до тех пор, пока он не выйдет из строя; в основном мы запускаем продукт на определенный период времени и измеряем количество выходов из строя.

Например: предположим, что мы пытаемся получить статистику MTTF на планшетах бренда Z. Планшеты по-хорошему рассчитаны на долгие годы, но у бренда Z есть всего шесть месяцев для сбора данных. Поэтому тестируют 100 планшетов в течение шести месяцев. Допустим, один планшет ломается ровно на шестимесячной отметке.

Итак, мы умножаем общее время работы (полгода, умноженное на 100 планшетов) и получаем 600 месяцев. Только один планшет вышел из строя, так что мы разделим значение на один, и наш MTTR будет составлять 600 месяцев, то есть 50 лет.

Прослужат ли планшеты Brand Z в среднем 50 лет каждый? Маловероятно. И поэтому эта метрика не подходит в таких случаях.

Как и когда использовать среднюю наработку до отказа

MTTF хорошо работает, когда вы пытаетесь оценить средний срок службы продуктов и систем с коротким сроком службы (например, лампочек). Показатель предназначен только для случаев, когда оценивается полное прекращение работы продукта. При расчете времени между инцидентами, требующими восстановления, предпочтительной аббревиатурой является MTBF (средняя наработка на отказ).

MTBF, MTTR, MTTF и MTTA

Итак, какую же метрику лучше использовать для отслеживания инцидентов и более эффективного управления ими?

Ответ — все.

Хотя они иногда используются взаимозаменяемо, каждая метрика позволяет рассмотреть ситуацию с разных сторон. При совместном использовании они могут показать более полную картину и дать вам понять, насколько успешна ваша команда в управлении инцидентами и что она может улучшить.

Иллюстрация, показывающая, как использование MTBF, MTTR, MTTF и MTTA вместе может улучшить управление инцидентами

Среднее время восстановления показывает, как быстро у вас получается возобновить работу систем.

Рассчитайте среднее время реагирования — и вы получите представление о том, какая доля среднего времени восстановления приходится на работу команды, а какая — на ожидание оповещения.

Потом рассчитайте среднее время исправления — и поймете, сколько времени команда тратит на исправление, а сколько на диагностику.

Теперь рассчитайте среднее время разрешения, чтобы получить представление о полной продолжительности работы над исправлениями и решением проблем, которая выходит за рамки времени фактического простоя.

Посчитайте среднюю наработку на отказ, и картина станет еще шире: вы увидите, насколько успешна ваша команда в предотвращении будущих проблем или сокращении их количества.

Наконец добавьте среднюю наработку до отказа, чтобы понять полный жизненный цикл продукта или системы.

Jira Service Management предлагает функции отчетности, чтобы ваша команда могла отслеживать KPI, а также контролировать и оптимизировать управление инцидентами.

Получить Jira Service Management бесплатно

Часто задаваемые вопросы

Какой показатель MTBF считается хорошим?

Хороший показатель MTBF зависит от типа системы, с которой вы имеете дело. Высоконадежные компоненты, например SSD, могут иметь MTBF на уровне 2 млн часов, в то время как для серверов этот показатель составляет около 15 000 часов. Физические компоненты производственного оборудования, например двигатели конвейеров, считаются надежными, если их среднее время наработки на отказ составляет 4000 часов.

Какой показатель MTTR считается хорошим?

Чем ниже среднее время исправления (MTTR), тем быстрее устраняются неполадки и меньше длятся дорогостоящие простои. Для производственных систем идеальным считается показатель MTTR менее 5 часов, что помогает максимально увеличить объем производства. ИТ-отделы и отделы безопасности обычно стремятся к почти нулевому значению MTTR, поэтому любой показатель менее часа считается отличным. Среднее время исправления также зависит от уровней серьезности сбоев.

Показатель MTTF должен быть высоким или низким?

Среднее время до отказа (MTTF) для неремонтируемых систем должно быть большим, поскольку момент отказа означает окончание срока службы такой системы. MTTF отличается от MTBF тем, что измеряет среднее время до отказа неремонтируемого компонента, а не среднее время между несколькими отказами.

Избранные приложения

Jira

Confluence

Jira Service Management

По варианту использования

По команде

По размеру

По отрасли