Close

Управление инцидентами для высокоскоростных команд

Что такое оповещения об инцидентах для ИТ-команд?

Инструменты мониторинга создают оповещения об инцидентах, чтобы уведомить команду об изменениях, опасных действиях или сбоях в ИТ-среде.

Например, система, предназначенная для выписки врачами лекарств, может создавать оповещение, если запрашиваемая врачом доза необычно высока, не соответствует весу пациента, указанному в медицинской карте, или создает угрозу взаимодействия с другими распространенными лекарствами.

Аналогичным образом, система мониторинга технического продукта может создавать оповещение, если система переходит в автономный режим, веб-запросы обрабатываются дольше, чем обычно, или задержка при обращении к базе данных превышает заданный порог.

Цель ИТ-оповещений заключается в том, чтобы быстро выявлять и решать проблемы, влияющие на время безотказной работы, скорость и функциональные возможности продукта, причем делать это круглосуточно и без использования ручного режима мониторинга.

Почему оповещение ИТ-команд так важно?

Поскольку значимость постоянно доступных систем продолжает расти, растет и стоимость простоев. Эксперты оценивают ее в среднем от 5600 до 9000 долл. США в минуту. Учитывая то, как дорого обходится каждая минута отказа системы, выявление проблем прежде, чем они выйдут из-под контроля, имеет большое значение для показателей бизнеса (не говоря уже о графике работы ИТ-команд и уровне стресса).

ИТ-оповещения — это первая линия защиты от выхода из строя систем или изменений, которые могут обернуться серьезными инцидентами. Благодаря автоматическому мониторингу и генерации оповещений о выходе из строя систем и рискованных изменениях ИТ-команды могут свести к минимуму простои и связанные с ними высокие затраты.

Рекомендации по оповещениям

ИТ-оповещения, несомненно, являются важной частью управления инцидентами. Тем не менее они требуют постоянного внимания и контроля. Если задать для оповещений слишком низкие пороговые значения, это приведет к переполнению почтовых ящиков, вызовет недовольство дежурных команд и усталость от оповещений. И наоборот, установка слишком высоких пороговых значений может привести к пропуску критических проблем и обойтись компании в миллионы.

Вот почему наиболее эффективные системы ИТ-оповещения настроены с учетом следующих рекомендаций.

Автоматизируйте мониторинг

Для быстрого и эффективного выявления проблем лучше всего автоматизировать мониторинг.

База данных реагирует медленнее, чем обычно? Пользователи отмечают, что время загрузки приложения выше среднего? Произошло отключение критически важной системы? Один из технических специалистов отправил запрос, похожий на тревожный сигнал? Ваша система должна автоматически отслеживать такие проблемы и информировать об их появлении.

Установите продуманные пороговые значения для оповещений

Каждое ли оповещение требует незамедлительной реакции? Для большинства компаний ответ будет отрицательным. Вот почему необходимо устанавливать разумные пороговые значения для оповещений.

Понимание того, стоит ли будить разработчика среди ночи или дело может подождать до утра, приводит к тому, что вы получаете довольных разработчиков, которые быстро реагируют на проблемы, а не команды, уставшие от оповещений и проводящие свои выходные в поисках новой работы.

Исключите дублирование оповещений

Согласно исследованию, посвященному усталости от оповещений, у лечащих врачей, работающих в больницах, концентрация внимания снижалась на 30 % с каждым дублирующим оповещением. Если бы в исследовании участвовали разработчики, скорее всего, результаты бы не изменились. Чем чаще мы видим одно и то же оповещение, тем меньше внимания на него обращаем. Поэтому рекомендуется избавиться от дублирующих оповещений и снизить число напоминаний, насколько это возможно.

Установите приоритеты и уровни опасности

Очевидно, что некоторые оповещения бывают важнее других. Отключение веб-сайта, вероятно, важнее кратковременного замедления работы редко используемой функции. Вредоносный взлом, очевидно, имеет более высокий приоритет, чем неправильная отрисовка изображения в приложении.

Ваша система должна не только распознавать приоритет и уровень опасности оповещения, но и четко сообщать об этом приоритете сотрудникам, ответственным за устранение инцидентов. Рекомендуется использовать визуальные, звуковые и сенсорные подсказки, чтобы быстро и ясно указать, на чем командам следует сосредоточиться прежде всего.

Сделайте оповещения действенными

Важно знать, что идет не так. Еще лучше — понимать, как действовать дальше. Поэтому ваши оповещения должны быть действенными, если еще таковыми не являются.

Этому команды DevOps могут поучиться у авиационной отрасли. Когда во время полета на приборной доске пилота появляется оповещение, оно сопровождается контрольным списком действий. Встраивание в систему оповещения сведений такого рода сокращает время диагностики и помогает разработчикам быстро выполнить процесс.

Это бывает особенно полезно, когда разработчика поднимают среди ночи и он не успевает толком проснуться и понять, что происходит.

Выбор подходящей технологии оповещения

Разработать систему оповещения ИТ-команд в соответствии с рекомендациями — значит мыслить стратегически и позаботиться об оповещениях заранее. Это также предполагает выбор правильной технологии. При выборе поставщика рекомендуется обратить внимание на следующее.

Несколько каналов оповещения

Когда речь идет об оповещениях, в качестве канала связи часто выбирают электронную почту. Но дело в том, что электронная почта не всегда справляется с задачей. Для срочных оповещений могут понадобиться СМС, мобильные push-уведомления и даже голосовые звонки. Ищите систему, которая позволяет рассылать оповещения разными способами.

Повышение информативности оповещений

Действенные оповещения — это подробные оповещения. Короткого текстового сообщения не всегда бывает достаточно. Избегайте жестких ограничений на количество символов и ищите технологию, которая позволяет прикреплять диаграммы, журналы, перечни процедур и контрольные списки, чтобы разработчик получил дополнительный контекст и понял, как действовать дальше.

Специальные действия в ответ на оповещения

Большинство технологий оповещения позволяют добавить к оповещению примечание или закрыть его. Но иногда имеются дополнительные варианты. Например, эскалировать оповещение для дальнейшего рассмотрения, создать заявку на обслуживание или перезапустить сервер. Ищите технологические решения, которые позволяют делать больше, чем просто открывать и закрывать оповещения.

Автоматизированные действия

Для некоторых оповещений понять, как действовать дальше, бывает затруднительно; их должны анализировать опытные разработчики. Для других оповещений действия понятны.

Для оповещений с понятными последующими действиями (диагностическое тестирование, меры по устранению) требуется система, которая сможет запускать эти действия автоматически в ответ на оповещение, соответствующее заданным критериям.

Например, если база данных реагирует медленно, можно настроить систему оповещений так, чтобы она выполняла автоматическое переключение на резервную базу данных. Если первым шагом в решении проблемы A всегда является перезапуск сервера, можно настроить систему оповещений таким образом, чтобы она перезапускала сервер и отслеживала результат, прежде чем отправлять оповещение посреди ночи.

Настройка и классификация оповещений

Команда должна иметь возможность упорядочивать поступающие оповещения, помечать их дополнительной информацией и фильтровать.

Отслеживание жизненного цикла оповещений

В ходе ретроспективы инцидента вы захотите понять, когда поступило оповещение, кто получил его и когда, а также какие меры были приняты. Выберите технологию, которая автоматически фиксирует эту информацию. Так будет проще понять, что работает, а что нет, повысить KPI и задокументировать возникшие инциденты, чтобы дежурные команды могли извлечь из них ценный опыт и использовать его при обработке последующих инцидентов.

Правила оповещения и уведомления

Если рекомендуется устанавливать для оповещений продуманные пороговые значения, чтобы незначительные проблемы не будили разработчиков посреди фазы «быстрого сна», необходима технология, которая позволяет подавлять, замедлять или ускорять доставку оповещений в зависимости от их содержания и срочности.

Контроль систем мониторинга в режиме реального времени

Как можно в любой момент узнать, нормально ли функционируют системы оповещений?

Если вы выбрали правильную технологию, то ответ будет следующим: технология предусматривает собственную систему мониторинга. В Opsgenie для этого используется инструмент Heartbeats, который непрерывно следит за тем, чтобы инструменты мониторинга были подключены и работали, а специальные задания выполнялись по графику. Если сигнал пропадает, система немедленно оповещает об этом.

продолжение темы
Escalation Policies