Close

Путь к успешному управлению инцидентами начинается здесь

Просмотр тем

Создание идеальной хронологии инцидента (и почему она важна)

По мере развития технологий развивается и управление инцидентами. А по мере развития управления инцидентами развивается документация и коммуникация.

Именно поэтому все чаще компании ведут хронологию инцидентов — централизованную историю инцидентов, благодаря которой все команды остаются в курсе событий во время разрешения инцидента и на основе которой можно анализировать инцидент после его разрешения для выявления основных причин и повышения производительности в будущем.

Что такое хронология инцидента?

Хронология инцидента — это полная запись хода событий во время разрешения инцидента. В нее обычно входят переписка участников команды во время разрешения инцидента, обобщенные данные со всех страниц инцидента, оповещения, подтверждения и автоматические системные сообщения (например, оповещения об изменении уровня критичности инцидента или о его разрешении). Хронологию часто синхронизируют с чатом или каналом в Slack.

Хронология инцидента позволяет держать всех членов команды в курсе событий, быстро включать в работу новых участников и упрощать разбор инцидентов.

«Предоставьте мне полный список изменений, скажем, за прошлые три дня. Без четкой хронологии событий мы не сможем установить причинно-следственные связи и, скорее всего, столкнемся с еще одним сбоем в работе»,

— Из романа «Проект "Феникс"»
Джина Кима, Кевина Бера, Джорджа Спаффорда (Gene Kim, Kevin Behr, George Spafford, The Phoenix Project)

Ценность хронологии инцидента

Единое представление инцидента в режиме реального времени

Быстрее всего инциденты выходят из-под контроля, когда между командами и заинтересованными сторонами не налажена коммуникация. Хронология инцидента решает эту проблему: все получают одинаковую информацию в режиме реального времени. Это значит, что все, от разработчиков, реагирующих на инцидент, и сотрудников отделов коммуникации, ответственных за информирование пользователей, до заинтересованных сторон в руководстве, смогут быстро и просто получать информацию об инциденте в режиме реального времени, не мучая себя телефонными разговорами и перепиской в чате и по электронной почте.

Представление информации в режиме реального времени также поможет заинтересованным сторонам не только определять основную проблему, вызванную инцидентом, но и анализировать риски для взаимосвязанных систем. Нескольким командам будет проще просматривать единую хронологию событий и выявлять потенциальные проблемы или риски для взаимосвязанных систем и их причины.

Более подробная ретроспектива

В компании Atlassian разбор инцидентов является неотъемлемой частью процесса управления инцидентами и проблемами. Люди собираются вместе, чтобы обсудить ситуацию, ее причины и меры для предотвращения такой проблемы в будущем. В этом помогут подробные записи о ходе событий во время инцидента, начиная с оповещений и уведомления заинтересованных сторон и заканчивая разрешением проблемы.

Для многих компаний хронология инцидента выступает в качестве подробного протокола событий. Это не просто инструмент для совместной работы над разрешением проблемы в режиме реального времени. Хронология также позволяет понять, что именно произошло и в какой момент, а также иногда проливает свет на причины проблемы. Все это поможет командам сэкономить массу времени при разборе инцидента.

Более подробное изучение KPI

Хронология инцидента часто помогает командам разобраться в проблеме, но это не единственное ее применение. Ее можно использовать вместе с хронологиями аналогичных инцидентов, чтобы выявлять закономерности и находить причины проблем большего масштаба, затрагивающих важные KPI.

Если на разрешение инцидента ушло больше времени, чем обычно, в чем была проблема? Можно ли сопоставить этот инцидент с другими подобными инцидентами? Какие части процесса стоит пересмотреть? Можно ли выявить закономерность, которая наведет нас на более основательную проблему с процессом, технологией или организацией команды? Работают ли оповещения как нужно или стоит пересмотреть пороговые значения для оповещений? Достаточно ли график дежурств покрывает разрешение инцидентов? Правильно ли сформированы команды?

Хронология событий может использоваться как единый источник данных для анализа или один из нескольких таких источников для изучения проблем с SLA и SLO.

Сравнение хронологии инцидента и ChatOps

Хронология инцидента, как правило, ведется и используется в системах управления инцидентами, например в Opsgenie, чтобы вся информация об инцидентах собиралась и хранилась в одном месте.

ChatOps используется в управлении инцидентами для схожей цели. Единственное отличие заключается в том, что эта модель является не системой управления инцидентами, а представляет хронологию инцидента в чате, например в Slack. Решение синхронизируется с такими системами управления инцидентами, как Opsgenie, а также другими источниками информации, затем извлекает данные из них.

Какие преимущества есть у ChatOps? Благодаря этой модели все команды получают доступ к одинаковой информации, возможна коммуникация и обмен новостями в режиме реального времени, а также исчезает необходимость в телефонных разговорах и частом переключении между приложениями. В решение также встроена регистрация событий для последующего разбора. Таким образом, ChatOps может все то же, что предлагает хронология инцидента. Ключевое отличие заключается в месте ведения работы и в объеме информации. У большинства команд интерфейс ChatOps переполнен посторонней информацией, поэтому рекомендуется переместить полезные сведения в хронологию инцидента, а журнал чата сохранить на случай, если потребуется проанализировать его в будущем.

продолжение темы
5 whys