Close

Путь к успешному управлению инцидентами начинается здесь

Просмотр тем

Как подобрать инструмент для управления инцидентами

Категории, ключевые функции и на что стоит обратить внимание

Не существует универсального инструмента для управления инцидентами.

Успех в управлении инцидентами кроется в правильном наборе инструментов и методик, а также в людях, которые ими пользуются.

Некоторые инструменты подходят для конкретных задач управления инцидентами, другие же подходят для общих задач и могут быть использованы в других целях. А какие-то инструменты могут подходить под одну конкретную ситуацию и включать в себя индивидуальные настройки и интеграции.

Вне зависимости от практического применения у всех хороших инструментов управления инцидентами есть что-то общее. Лучшие инструменты отличаются доступностью, надежностью и гибкостью.

Доступность. В тяжелых условиях, таких как инцидент, важно, чтобы у нужных людей был быстрый доступ к нужным инструментам и информации. Это касается не только тех, кто ответственен за разрешение инцидентов, но и всех заинтересованных сторон, которым важно видеть, как разрешаются инциденты.

Надежность. Во время разрешения инцидента нет ничего хуже неработающего инструмента. Облачные сервисы, такие как Slack и Opsgenie, сводят риски сбоя в работе вашей инфраструктуры к минимуму, обеспечивая стабильную работу инструментов реагирования.

Гибкость. Интеграции, рабочие процессы, надстройки, индивидуальные аддоны API — все это открывает еще больше возможностей, помимо уже заложенного в инструмент функционала. Вы можете начать с использования готовых настроек, а по мере совершенствования ваших методик и процессов вы сможете сделать ваши инструменты более гибкими, чтобы они подходили под ваши меняющиеся нужды.

Рисунок: цикл управления инцидентами

До инцидента

Мониторинг

Системы мониторинга позволяют командам DevOps и ИТ-командам собирать, накапливать и запускать оповещения на основе данных, приходящих из тысяч различных сервисов, в режиме реального времени. Они имеют решающее значение для обеспечения полного понимания состояния вашего сервиса и часто являются первыми признаками того, что что-то идет не так.

Преимущества

Инструменты мониторинга дают вашим командам полную информацию о состоянии инфраструктуры. Современные инструменты мониторинга также заблаговременно оповещают команду при первых признаках непредвиденной ситуации.

Функции

Техподдержка:

Служба поддержки представляет собой платформу, на которой клиенты и сотрудники могут сообщать о текущих или потенциальных инцидентах.

Преимущества

На этой платформе можно не только оставлять запросы на обслуживание и техническую поддержку. Она предоставляет вашей команде возможность узнать об инциденте от самых важных для вас людей — ваших пользователей и клиентов.

Функции

Мы рекомендуем: Jira Service Management

Управление оповещениями и дежурствами

Быстрая и надежная система оповещений критически важна для реакции на инциденты. Благодаря ей команды оповещают об инциденте всех, кому это необходимо.

Преимущества

Инструменты оповещения уведомляют назначенных дежурных при помощи комплексных систем графиков, настроек эскалации и уведомлений.

Функции

Наша рекомендация: Opsgenie

Во время инцидента

Использование базы данных управления конфигурацией (CMDB) для более быстрого разрешения инцидентов

Понимание всех элементов вашей инфраструктуры и связей между ними играет ключевую роль в определении последствий инцидента и поиске более быстрого способа его разрешения.

Преимущества

База данных управления конфигурацией поможет вам в понимании отношений и зависимостей в вашей инфраструктуре. Если что-то пойдет не так, она поможет вам найти:

  • Потенциальные причины инцидента. Например, одним нажатием кнопки определить, на каком узле запущен сервис.
  • На что еще влияет инцидент. Например, обнаружить, какие еще сервисы запущены на проблемном узле.

Таким образом, вы можете быстро увидеть и все аспекты инцидента, и взаимосвязь между ними.

Логотип Insight

Реагируйте на инциденты быстрее

Составьте схему вашей инфраструктуры и ее зависимостей прямо в Jira. Находите и разрешайте инциденты быстрее, чтобы ваша система исправно работала!

Общение в команде

Четкая и бесперебойная коммуникация бесспорно играет решающую роль в управлении инцидентами.

Преимущества

Она позволяет команде общаться, делиться наблюдениями, ссылками и снимками экрана. При этом каждое сообщение снабжается временной отметкой и сохраняется. Это позволяет доводить информацию до нужных людей во время инцидента, а также вести подробную запись хода событий, которую можно проанализировать после разрешения инцидента.

Функции

Наша рекомендация: Slack (для общения в чатах), Zoom (для общения по видео)

Коммуникация с клиентами

При помощи средств коммуникации с клиентами можно информировать клиентов о ходе разрешения инцидента.

Преимущества

Нельзя оставлять ваших клиентов в неведении, потому что обычно инциденты очень негативно сказываются на клиентском опыте. Информирование клиентов помогает выстраивать доверительные отношения с клиентами и ускоряет разрешение инцидента, потому что вы даете клиентам знать, что вы осведомлены об инциденте и работаете над его разрешением.

Функции

Наша рекомендация: Statuspage

Центр управления инцидентами

В координационном центре собирается вся необходимая и ключевая информация об инциденте. Таким центром может быть инструмент управления инцидентами, например Opsgenie, или инструмент отслеживания задач, например Jira.

Преимущества

При подобном сборе информации вы сможете с легкостью вводить всех в курс дела в течение или после инцидента, делиться ключевой информацией, такой как статус инцидента, связанные с ним оповещения, оперативные сообщения и прочее. Это также позволяет вести хронологию инцидента и запись всех действий, связанных с его разрешением.

Функции

Наша рекомендация: Opsgenie

После инцидента

Ретроспектива и анализ

Ретроспектива — это запись всего, что происходило в течение инцидента, и всех действий, которые принимались для предотвращения его повторения.

Преимущества

После разрешения инцидента команды обычно не знают, что именно вызвало инцидент, и появляется риск, что этот инцидент случится снова. Ретроспектива помогает команде понять эти причины и предотвратить повторение инцидента.

Функции

Наша рекомендация: Opsgenie

Отслеживание неполадок

При помощи инструмента отслеживания задач команда планирует дальнейшие работы по восстановлению после инцидента.

Преимущества

В большинстве случаев разрешение инцидента просто возобновляет работу сервиса, но не решает корневые проблемы. Как правило, необходима дополнительная работа для устранения корневых причин, чтобы инцидент не повторялся. Инструменты отслеживания задач и проблем (которые, мы надеемся, ваша команда уже использует в разработке) помогают расставить приоритеты и не запутаться в решении проблем.

Функции

Наша рекомендация: Jira Software

продолжение темы
KPIs