Close

Управление инцидентами для высокоскоростных команд

Как подобрать инструмент для управления инцидентами

Категории, ключевые функции и на что стоит обратить внимание

Не существует универсального инструмента для управления инцидентами.

Успех в управлении инцидентами кроется в правильном наборе инструментов и методик, а также в людях, которые ими пользуются.

Некоторые инструменты подходят для конкретных задач управления инцидентами, другие же подходят для общих задач и могут быть использованы в других целях. А какие-то инструменты могут подходить под одну конкретную ситуацию и включать в себя индивидуальные настройки и интеграции.

Вне зависимости от практического применения у всех хороших инструментов управления инцидентами есть что-то общее. Лучшие инструменты отличаются доступностью, надежностью и гибкостью.

Доступность. В тяжелых условиях, таких как инцидент, важно, чтобы у нужных людей был быстрый доступ к нужным инструментам и информации. Это касается не только тех, кто ответственен за разрешение инцидентов, но и всех заинтересованных сторон, которым важно видеть, как разрешаются инциденты.

Надежность. Во время разрешения инцидента нет ничего хуже неработающего инструмента. Облачные сервисы, такие как Slack и Opsgenie, сводят риски сбоя в работе вашей инфраструктуры к минимуму, обеспечивая стабильную работу инструментов реагирования.

Гибкость. Интеграции, рабочие процессы, надстройки, индивидуальные аддоны API — все это открывает еще больше возможностей, помимо уже заложенного в инструмент функционала. Вы можете начать с использования готовых настроек, а по мере совершенствования ваших методик и процессов вы сможете сделать ваши инструменты более гибкими, чтобы они подходили под ваши меняющиеся нужды.

До инцидента

Мониторинг

Системы мониторинга позволяют командам DevOps и ИТ-командам собирать, накапливать и запускать оповещения на основе данных, приходящих из тысяч различных сервисов, в режиме реального времени. Они имеют решающее значение для обеспечения полного понимания состояния вашего сервиса и часто являются первыми признаками того, что что-то идет не так.

Преимущества

Инструменты мониторинга дают вашим командам полную информацию о состоянии инфраструктуры. Современные инструменты мониторинга также заблаговременно оповещают команду при первых признаках непредвиденной ситуации.

Преимущества

Инструменты мониторинга дают вашим командам полную информацию о состоянии инфраструктуры. Современные инструменты мониторинга также заблаговременно оповещают команду при первых признаках непредвиденной ситуации.

Функции

Monitoring tools give your team constant insight into the health of the infrastructure. Modern monitoring tools also proactively trigger alerts during unexpected activity.

 

 

Feature Set

Questions to ask

24/7 coverage and analytics

Does the tool have visibility into all my servers and infrastructures?

Integrates with alerting tools

Can my team see real time analytics and dashboards and set alerting thresholds?

 

Does the product integrate with my alerting and on-call tool?

Техподдержка:

Служба поддержки представляет собой платформу, на которой клиенты и сотрудники могут сообщать о текущих или потенциальных инцидентах.

Преимущества

На этой платформе можно не только оставлять запросы на обслуживание и техническую поддержку. Она предоставляет вашей команде возможность узнать об инциденте от самых важных для вас людей — ваших пользователей и клиентов.

Функции

 

 

Feature set

Questions to ask

Enable self serve

Can customers quickly file tickeCan customers quickly file tickets through a self-service support portal?

 

Can customers find the help they need with automated knowledge-based suggestions?

Мы рекомендуем: Jira Service Management

Управление оповещениями и дежурствами

Быстрая и надежная система оповещений критически важна для реакции на инциденты. Благодаря ей команды оповещают об инциденте всех, кому это необходимо.

Преимущества

Инструменты оповещения уведомляют назначенных дежурных при помощи комплексных систем графиков, настроек эскалации и уведомлений.

Функции

 

 

Feature set

Questions to ask

Works globally

Can I send notifications (SMS, voice, email) to almost anywhere?

Multiple notification methods

Can I send notifications using multiple notification methods like email, SMS, phone, and mobile app push and try them multiple times?

Наша рекомендация: Opsgenie

Во время инцидента

Использование базы данных управления конфигурацией (CMDB) для более быстрого разрешения инцидентов

Понимание всех элементов вашей инфраструктуры и связей между ними играет ключевую роль в определении последствий инцидента и поиске более быстрого способа его разрешения.

Преимущества

База данных управления конфигурацией поможет вам в понимании отношений и зависимостей в вашей инфраструктуре. Если что-то пойдет не так, она поможет вам найти:

  • Потенциальные причины инцидента. Например, одним нажатием кнопки определить, на каком узле запущен сервис.
  • На что еще влияет инцидент. Например, обнаружить, какие еще сервисы запущены на проблемном узле.

Таким образом, вы можете быстро увидеть и все аспекты инцидента, и взаимосвязь между ними.

 

 

Feature set

Questions to ask

Multiple channels

How flexible is the CMDB? Can I store any CI or asset?

Integrations

Can I visualize my infrastructure graphically?

 

Can I link CIs/assets with my service desk issues?

 

Can I link CIs/assets to change requests?

Наша рекомендация Insight

Логотип Insight

Реагируйте на инциденты быстрее

Составьте схему вашей инфраструктуры и ее зависимостей прямо в Jira. Находите и разрешайте инциденты быстрее, чтобы ваша система исправно работала!

Общение в команде

Четкая и бесперебойная коммуникация бесспорно играет решающую роль в управлении инцидентами.

Преимущества

Она позволяет команде общаться, делиться наблюдениями, ссылками и снимками экрана. При этом каждое сообщение снабжается временной отметкой и сохраняется. Это позволяет доводить информацию до нужных людей во время инцидента, а также вести подробную запись хода событий, которую можно проанализировать после разрешения инцидента.

Функции

 

 

Feature set

Questions to ask

Multiple channels

Can my incident response team quickly spin up a dedicated channel for an incident?

Integrations

Can other tools in my incident toolchain post into my team's communication channel?

Наша рекомендация: Slack (для общения в чатах), Zoom (для общения по видео)

Коммуникация с клиентами

При помощи средств коммуникации с клиентами можно информировать клиентов о ходе разрешения инцидента.

Преимущества

Нельзя оставлять ваших клиентов в неведении, потому что обычно инциденты очень негативно сказываются на клиентском опыте. Информирование клиентов помогает выстраивать доверительные отношения с клиентами и ускоряет разрешение инцидента, потому что вы даете клиентам знать, что вы осведомлены об инциденте и работаете над его разрешением.

Функции

 

 

Feature set

Questions to ask

Off of my infrastructure

Will my communication tool be operational and accessible even if my internal infrastructure is down?

Subscribers and notifications

Can customers opt in to get notifications when I post about an incident?

Наша рекомендация: Statuspage

Центр управления инцидентами

В координационном центре собирается вся необходимая и ключевая информация об инциденте. Таким центром может быть инструмент управления инцидентами, например Opsgenie, или инструмент отслеживания задач, например Jira.

Преимущества

При подобном сборе информации вы сможете с легкостью вводить всех в курс дела в течение или после инцидента, делиться ключевой информацией, такой как статус инцидента, связанные с ним оповещения, оперативные сообщения и прочее. Это также позволяет вести хронологию инцидента и запись всех действий, связанных с его разрешением.

Функции

 

 

Feature set

Questions to ask

Source of truth

Can team members and stakeholders use this record to locate all the other details of the incident and response activities?

Timeline

Does the tool aggregate a chronological timeline of key events?

 

Can team members and stakeholders quickly get up to speed on the incident?

Наша рекомендация: Opsgenie

После инцидента

Ретроспектива и анализ

Ретроспектива — это запись всего, что происходило в течение инцидента, и всех действий, которые принимались для предотвращения его повторения.

Преимущества

После разрешения инцидента команды обычно не знают, что именно вызвало инцидент, и появляется риск, что этот инцидент случится снова. Ретроспектива помогает команде понять эти причины и предотвратить повторение инцидента.

Функции

 

 

Feature set

Questions to ask

Templates

Can my team use a template to fill out a postmortem?

Map out next actions

Can my team plan out next actions and remediation work during a postmortem?

Наша рекомендация: Opsgenie

Отслеживание неполадок

При помощи инструмента отслеживания задач команда планирует дальнейшие работы по восстановлению после инцидента.

Преимущества

В большинстве случаев разрешение инцидента просто возобновляет работу сервиса, но не решает корневые проблемы. Как правило, необходима дополнительная работа для устранения корневых причин, чтобы инцидент не повторялся. Инструменты отслеживания задач и проблем (которые, мы надеемся, ваша команда уже использует в разработке) помогают расставить приоритеты и не запутаться в решении проблем.

Функции

 

 

Feature set

Questions to ask

Shared workflow pipeline

Can my team plan any incident remediation work alongside their other work and priorities?

Integrations

Can my team pull in data and content from my other incident tools?

Наша рекомендация: Jira Software

продолжение темы
KPIs