Управление инцидентами для высокоскоростных команд
Надежность и доступность: понимание различий
Современные клиенты все чаще ждут, что компании будут предоставлять им услуги непрерывно. Но даже самый идеально налаженный бизнес время от времени сталкивается с перебоями в работе. Измерить успех бизнеса можно с помощью двух похожих, но все же различных показателей: надежности и доступности.
Надежность — это готовность системы. Этот показатель измеряет производительность через определенные интервалы согласно установленным стандартам. Доступность — это функционирование системы, то есть, процент времени бесперебойной работы. Сочетание этих двух значений показывает состояние бизнес-системы и области, которые могли бы работать лучше.
В данном руководстве сравниваются надежность и доступность служб, описывается, как измерить эти значения с помощью показателей управления инцидентами и как их улучшить.
Что такое надежность?
Надежность — это вероятность того, что система или компонент будут бесперебойно выполнять свои функции в любой момент времени. Этот показатель также влияет на уверенность клиентов в технологии.
Так, например, системы начисления заработной платы должны обрабатывать прямые переводы средств на банковские счета в течение установленного временного интервала в определенный день каждого месяца. Система холодильного хранения должна обнаруживать перебои в снабжении электроэнергией и автоматически переключаться на резервные генераторы. Каждая отрасль полагается на критически важные автоматические процессы с использованием уникальных ключевых показателей эффективности управления инцидентами. Сбои в работе процессов могут быть разорительными для компании.
Как измерить надежность
Для измерения надежности используются, помимо прочих, следующие стандартные показатели управления инцидентами.
- Средняя наработка на отказ. Рассчитывается путем деления общего времени работы на количество сбоев.
- Частота сбоев. Рассчитывается путем деления количества сбоев на общее время эксплуатации.
Важно учитывать дополнительные факторы, такие как соглашения об уровне обслуживания и ожидания клиентов от системы. Определение стандартов надежности может различаться в зависимости от возможных последствий сбоя системы. Например, приведет ли сбой к тому, что специалистам по оформлению налоговых деклараций придется уйти с работы пораньше? Или тысячи пассажиров авиалиний не смогут улететь домой?
Как повысить надежность
Для повышения надежности служб компании могут предпринимать следующие шаги.
- Создавать графики регулярного технического обслуживания для поддержания систем в актуальном и современном состоянии.
- Внедрять избыточность систем, чтобы предотвратить остановку процессов из-за сбоев компонентов.
- Осуществлять контроль качества и тестирование при модернизации или изменении систем, чтобы команды могли устранять проблемы до их проявления в рабочей среде.
- Совершенствовать процессы сообщения об инцидентах, чтобы сократить время отклика и восстановления.
Что такое доступность?
Доступность — это процент времени, в течение которого система или компонент находятся в исправном состоянии и выполняют свою функцию. Иными словами, это время бесперебойной работы.
Так, например, крупные интернет-магазины должны поддерживать круглосуточную доступность веб-сайтов, чтобы удовлетворить спрос клиентов, иначе они рискуют уступить долю рынка конкурентам. Доступность зависит от множества условий, таких как скорость интернет-соединения у пользователей и время пикового трафика. Недоступность критически важных систем, таких как система мониторинга в реанимации для новорожденных, может даже представлять угрозу для жизни.
Как измерить доступность
Доступность измеряется с помощью одного процентного показателя. Это общее истекшее время за вычетом общего времени простоя, поделенное на общее истекшее время:
процент доступности = (общее истекшее время − время простоя) / общее истекшее время
Так, например, если интернет-магазин не работает по три часа в день из-за перегрузки трафика, его показатель доступности составляет 87,5 %. Для крупных международных розничных продавцов стандартное значение может приближаться к 99,5 %, а значит, нашему онлайн-магазину нужно хорошо поработать над доступностью.
ПО для ITSM, такое как Jira Service Management, помогает командам отслеживать инциденты и собирать данные для оценки доступности.
Как повысить доступность
У компаний есть несколько способов повысить доступность.
- Внедрять графики стандартного профилактического технического обслуживания для обеспечения высокой доступности.
- Создавать избыточность систем с механизмами аварийного переключения.
- Разрабатывать процессы быстрого восстановления работоспособности в рамках управления инцидентами.
Профилактическое техническое обслуживание является особенно эффективной мерой для повышения доступности и надежности служб компании. Оценка надежности, доступности и легкости сопровождения (RAM) может дать важную информацию о том, на чем следует сосредоточить усилия по техническому обслуживанию.
Надежность и доступность
Надежность и доступность часто ошибочно принимают за одно и то же. Однако это разные показатели, и, более того, между ними не всегда есть прямая зависимость.
Даже стандарты, согласно которым компании измеряют их, могут различаться в зависимости от системы и ее функций. Чтобы получить точное представление о любой бизнес-системе, необходимо проанализировать ее надежность и доступность отдельно друг от друга.
- Показатель надежности позволяет определить, произвела ли система надлежащие результаты в установленное время, например перевела ли средства из фонда заработной платы на соответствующие счета в нужный день.
- Показатель доступности позволяет измерить время бесперебойной работы системы, например время непрерывного мониторинга уровня кислорода у недоношенных детей в течение необходимого периода ухода.
В Jira Service Management доступны шаблоны автоматизации, позволяющие собирать данные, совершенствовать процессы сообщения об инцидентах и в целом повышать качество обслуживания клиентов.
Различия
Суть и различия надежности и доступности становятся очевидными при рассмотрении того, как использовать эти показатели для повышения производительности. Надежность направлена на сведение к минимуму количества сбоев и времени простоя системы, а доступность — на обеспечение максимального времени работы.
Оценка надежности системы для кассы самообслуживания в продуктовом магазине может включать анализ того, как часто покупателям требуется помощь сотрудника для совершения покупки. Оценка доступности может включать выяснение того, пытаются ли вообще клиенты воспользоваться этой кассой.
Сходства
Надежность и доступность дополняют друг друга. Конкурентноспособные компании стремятся улучшить оба показателя для достижения наилучших результатов. Например, системы с высоким уровнем доступности, но частыми сбоями вряд ли смогут удовлетворить потребностям клиентов, и неважно, насколько быстро устраняются такие проблемы надежности.
Для улучшения обеих областей часто требуются схожие подходы, такие как регулярное техническое обслуживание, создание избыточности, планирование действий в чрезвычайных ситуациях и тестирование.
Факторы, влияющие на надежность и доступность
На надежность и доступность системы могут повлиять следующие факторы.
- Среда. Это могут быть компоненты Интернета вещей, такие как манометры, подверженные воздействию неблагоприятных погодных условий, или циклические модели использования, например высокая посещаемость интернет-магазина в определенные дни.
- Качество компонентов. Примерами могут служить интеграции со сторонними решениями или аппаратное обеспечение сторонних производителей.
- Эксплуатация. Сюда могут входить частота проверок и технического обслуживания или инвестиции в модернизацию ПО.
Компании могут повысить общую надежность и доступность служб, стандартизировав пороговые значения среды и добавив избыточность, введя требования о соответствии качества компонентов стандартам ISO или внедрив всесторонние процедуры проверки, тестирования и обслуживания системы.
Сбалансируйте надежность и доступность с помощью Jira Service Management
Используя правильные инструменты и подход, компании могут найти баланс между надежностью и доступностью систем, что особенно важно в нашем мире непрерывного обслуживания. Jira Service Management позволяет командам быстро восстанавливать обслуживание.
Jira Software и Jira Service Management помогают клиентам сообщать о проблемах, а сервисным командам — централизованно собирать оповещения для их быстрой классификации и приоритизации. А благодаря каналам связи и правилам никто никогда не упустит из виду критическую проблему.
Подробнее об управлении инцидентами в Jira Service Management
Надежность и доступность: часто задаваемые вопросы
Какие есть примеры надежности и доступности?
Возьмем в качестве примера новую технологию беспилотных автомобилей. Стандарты надежности службы равны или близки к 100 %, поскольку один сбой может привести к травме или гибели человека.
Доступность беспилотных автомобилей, в свою очередь, влияет на впечатления пользователей. Чем выше доступность или время работы, тем лучше впечатления. Низкая доступность может привести к тому, что компания потеряет долю рынка, но вряд ли станет причиной травм или гибели людей.
Почему надежность и доступность важны?
Как надежность, так и доступность влияют на прибыль компании, поскольку от этих показателей зависит удовлетворенность клиентов. Кроме того, низкая доступность или надежность систем приводит к потере дохода, порче имущества, незапланированным расходам на техническое обслуживание и снижению производительности.
Сосредоточив усилия на повышении надежности и доступности служб, можно усилить конкурентное преимущество, увеличить долю рынка и доходы, а также оптимизировать бюджет на техническое обслуживание.
Как расставить приоритеты между надежностью и доступностью?
Иногда компаниям приходится отдавать предпочтение надежности в ущерб доступности или наоборот. В условиях сжатых сроков или ограниченных инвестиционных средств может возникнуть необходимость в компромиссах.
В случае с беспилотными автомобилями компании, скорее всего, будут вкладывать больше времени и усилий в повышение надежности, даже если это отрицательно скажется на доступности. Однако в менее критичных ситуациях, например в случае с интернет-магазинами, компании могут сделать упор на доступности, поскольку круглосуточная работа является одной из особенностей электронной торговли, отличающих эту разновидность магазинов от их физических конкурентов.
Изучайте информирование об инцидентах с помощью Statuspage
В этом руководстве мы покажем, как использовать шаблоны инцидентов, чтобы наладить эффективную коммуникацию во время разрешения инцидента. Применимо ко многим видам технических сбоев.
Читать учебное руководствоВажность процесса разбора инцидентов
Разбор инцидента, или анализ результатов реагирования на инцидент, — это лучший способ проработать произошедшее и зафиксировать полученный опыт.
Читать статью