Функции оповещений и дежурств Opsgenie теперь доступны в Jira Service Management и Compass. Перенесите существующие данные и конфигурации Opsgenie до 05.04.2027 с помощью нашего инструмента автоматической миграции.Подробнее

Процесс ретроспективы инцидента: отслеживайте, документируйте и улучшайте

Основные моменты

Ретроспективы инцидентов помогают командам понять, что произошло, почему это произошло и какие изменения нужно внести, чтобы проблема не повторилась.
Используя Jira Service Management, Confluence и Jira вместе, можно создать единый рабочий процесс для реагирования, ведения документации и выполнения последующих действий.
С унифицированным шаблоном ретроспективы документировать, сравнивать разборы инцидентов и с течением времени делать из них выводы становится проще.
Команды могут создавать на основе корректирующих мер задачи Jira с владельцами и сроками, чтобы превращать сделанные выводы в реальные улучшения.

Получить Jira Service Management бесплатно

Когда в рабочей среде что-то идет не так, исправить — это только начало. Не менее важно понять причину произошедшего и не допустить, чтобы подобное повторилось.

Ретроспектива инцидента — это его структурированный разбор от начала до конца, в котором описана суть сбоя, а также то, как отреагировала команда и что нужно изменить в будущем.

Руководствуясь шаблоном для плана реагирования на инциденты, команда сможет единообразно документировать все инциденты, чтобы не упустить из виду ничего важного и с каждым разбором вносить реальные улучшения.

Принцип работы: обработка инцидентов и составление ретроспектив

Для эффективного управления инцидентами мало просто «потушить пожар». Необходимо создать систему, в которой каждый инцидент способствует улучшению процессов, инструментов и подготовки к следующей нештатной ситуации. Используя Jira Service Management, Confluence и Jira вместе, команда получает единый рабочий процесс, охватывающий весь жизненный цикл реагирования на инциденты — от срабатывания оповещения до проведения ретроспективы и выполнения последующих задач.

Такой подход позволяет единообразно вести документацию по всем инцидентам и установить стройную иерархию подотчетности. Сведения об инцидентах больше не будут разбросаны по сообщениям Slack, электронным письмам и головам сотрудников, а будут собраны в единой экосистеме, где можно их анализировать, указывать в ссылках и работать над ними. Этот принцип единства также означает, что шаблон для плана реагирования на инциденты становится центральным звеном всего процесса, а не заполняется командой для галочки, когда у них доходят руки.

Вот как этот процесс выглядит на каждом этапе.

Обработка инцидента в Jira Service Management

Именно в Jira Service Management начинается реагирование на инцидент. Возникшую проблему следует сразу зарегистрировать в JSM, установить для нее уровень серьезности и назначить подходящих реагирующих лиц.

Во время инцидента с помощью JSM команды могут делать следующее.

Отслеживать действия, решения и эскалации в реальном времени.
Вести точный учет участников и изменений.
Фиксировать сведения, которые затем лягут в основу ретроспективы.
Информировать руководителей, не отвлекая реагирующих лиц.

Поскольку JSM интегрируется с Confluence и Jira, данные, собранные в ходе инцидента, можно передавать непосредственно в документацию по ретроспективе и последующие задачи. Если команда включила JSM в общий набор ПО для ITSM, данные об инцидентах также будут дополнять более широкий контекст управления услугами.

JSM также поддерживает эффективные сообщения об инцидентах на протяжении всего процесса реагирования, помогая командам в следующем.

Держать клиентов, команды поддержки и заинтересованных лиц в курсе событий.
Устранять путаницу во время активных инцидентов.
Получать наглядное представление о статусе и влиянии инцидентов.
Четко взаимодействовать в ходе событий с высоким уровнем серьезности или выполнения сценариев управления кризисными ситуациями.

Когда инцидент будет устранен, у команды уже будет подробная запись о том, как он развивался, и ее участникам будет проще задокументировать ретроспективу, действительно полезную для будущих улучшений.

Внесение ретроспективы в Confluence

Задокументируйте инцидент по свежим следам — в идеале в течение 24–48 часов после его устранения. Чем дольше вы ждете, тем больше контекста теряется и тем менее полезной становится ретроспектива.

Создайте отдельную страницу Confluence по шаблону ретроспективы инцидента и заполните каждый раздел: хронологию, анализ основных причин, оценку влияния и выводы. На странице будет представлен шаблон реагирования на инциденты — полноценная основа, которую можно копировать и заполнять для очередного инцидента, чтобы всякий раз не начинать с чистого листа и не гадать о том, какие сведения нужно внести.

Хранение ретроспектив в Confluence дает несколько практических преимуществ.

Наглядность для всей команды. Кто угодно, от разработчика до руководителя, может узнать, что произошло, не обращаясь за устными разъяснениями к ответственному дежурному.
Определение закономерностей. Когда каждый инцидент документируется в едином формате, гораздо проще выявлять повторяющиеся сбои и системные уязвимости, возникающие в течение разных кварталов.
Документирование без поиска виноватых. Структурированный шаблон реагирования на инциденты позволяет уйти от взаимных обвинений и обсудить системы и процессы, отчего отчеты станут более честными и полезными.
Ускоренная адаптация новых сотрудников. Новые участники могут изучить имеющиеся ретроспективы, чтобы узнать о поведении систем под нагрузкой и выводах, сделанных командой на основе прошлых инцидентов.

Подробное руководство по проведению плодотворных ретроспективных разборов см. в нашем справочнике по ретроспективам инцидентов.

Отслеживание последующих действий в виде задач Jira

Ретроспектива полезна лишь тогда, когда толкает к каким-либо действиям. Каждую корректирующую меру и повторяющуюся проблему, определенную во время разбора, следует преобразовать в задачу Jira, четко указав владельца и срок выполнения.

Именно на этом шаге участники команды выбирают, пойдут ли они по пути реальных улучшений или продолжат наступать на те же грабли. Когда корректирующие меры представлены в виде отслеживаемых задач в Jira, руководители могут наблюдать за прогрессом, а команды — понимать, кто отвечает за ту или иную часть работы по внесению согласованных улучшений. Приоритеты также расставляются эффективнее: когда задачи по инцидентам находятся в том же бэклоге, что и все остальные, их проще сопоставить с другими приоритетами, а не проигнорировать, позволив опуститься в самый низ списка.

Правильные инструменты для управления инцидентами связывают весь рабочий процесс воедино. Когда системы реагирования, ведения документации и выполнения последующих действий интегрированы, предотвращать повторное возникновение проблем после их обнаружения можно без значительных пробуксовок.

Шаблон реагирования на инциденты

Ниже представлен шаблон для плана реагирования на инциденты, который команда сможет скопировать и адаптировать под очередной новый инцидент. В него включены все этапы ретроспективы: от первоначальной сводки и хронологии до анализа основных причин, сделанных выводов и корректирующих мер. Благодаря единообразной структуре разбора каждого инцидента вы ничего не пропустите, а ретроспективы за разные периоды легко будет сравнить.

Примеры в шаблоне — это отправная точка, а не строгий регламент. Настройте язык и уровень детализации под методы работы вашей организации. Вам нужно задокументировать достаточно контекста, чтобы любой, кто будет читать ретроспективу спустя месяцы, мог в точности понять, что произошло и как отреагировала команда.

Краткое описание инцидента

Опишите инцидент несколькими предложениями. Укажите, что произошло, почему, какой был уровень опасности, а также как долго продолжались последствия инцидента.

Пример:

В период {ПЕРИОД ИНЦИДЕНТА, НАПРИМЕР МЕЖДУ 15:45 И 16:35} {ДАТА} {КОЛИЧЕСТВО} пользователей столкнулись с {СИМПТОМЫ СОБЫТИЯ}.

Событие было вызвано {ИЗМЕНЕНИЕМ}, внесенным в {ВРЕМЯ ВНЕСЕНИЯ ИЗМЕНЕНИЯ, ВЫЗВАВШЕГО СОБЫТИЕ}.

{ИЗМЕНЕНИЕ} содержало {ОПИШИТЕ ИЗМЕНЕНИЕ ИЛИ ЕГО ПРИЧИНУ, НАПРИМЕР «ИЗМЕНЕНИЕ КОДА ДЛЯ ОБНОВЛЕНИЯ СИСТЕМЫ»}.

Баг в этом участке кода вызвал {ОПИСАНИЕ ПРОБЛЕМЫ}.

Событие было обнаружено {СИСТЕМА МОНИТОРИНГА}. Команда начала реагировать на событие путем {ДЕЙСТВИЯ, ПРЕДПРИНЯТЫЕ ДЛЯ РЕШЕНИЯ ПРОБЛЕМЫ}.

Этот инцидент уровня {УРОВЕНЬ СЕРЬЕЗНОСТИ} затронул {X%} пользователей.

Этот инцидент имел дальнейшие последствия, которые были отмечены в {НАПРИМЕР, КОЛИЧЕСТВО ПОДАННЫХ ЗАЯВОК В СЛУЖБУ ПОДДЕРЖКИ, УПОМИНАНИЙ В СОЦСЕТЯХ, ЗВОНКОВ МЕНЕДЖЕРАМ ПО РАБОТЕ С КЛИЕНТАМИ}.

Предшествующие события

Опишите последовательность событий, которые привели к инциденту (например, предыдущие изменения, после внесения которых появились до сих пор необнаруженные баги).

Пример:

В {16:00} {MM/DD/YY}, ({ВРЕМЯ, ПРОШЕДШЕЕ ДО МОМЕНТА ПОЯВЛЕНИЯ ПРОБЛЕМЫ У КЛИЕНТОВ, НАПРИМЕР ЗА 10 ДНЕЙ ДО ИНЦИДЕНТА}) в {НАЗВАНИЕ ПРОДУКТА ИЛИ УСЛУГИ} было внесено изменение, чтобы {ОПИСАНИЕ ИЗМЕНЕНИЙ, ПРИВЕДШИХ К ИНЦИДЕНТУ}.

Это изменение привело к {ОПИСАНИЕ ПОСЛЕДСТВИЙ ИЗМЕНЕНИЯ}.

Сбой

Опишите, что во внедренном изменении не работало должным образом. Если возможно, прикрепите снимки экрана с наглядным представлением соответствующих данных о сбое.

Пример:

Ответы в количестве {NUMBER} были ошибочно отправлены на запросы в количестве {XX%}. Это продолжалось в течение {ПЕРИОД}.

Последствия

Опишите, что наблюдали внутренние и внешние пользователи во время инцидента. Укажите, сколько поступило заявок в службу поддержки.

Пример:

На протяжении {ХХ Ч., ХХ МИН.} между {XX:XX UTC и XX:XX UTC} {MM/DD/YY} наши пользователи наблюдали {КРАТКОЕ ОПИСАНИЕ ИНЦИДЕНТА}.

Этот инцидент затронул клиентов в количестве {XX} (X% ПОЛЬЗОВАТЕЛЕЙ {СИСТЕМА ИЛИ СЛУЖБА}), которые наблюдали {ОПИСАНИЕ СИМПТОМОВ}.

Было отправлено {ХХ КОЛИЧЕСТВО ЗАЯВОК В СЛУЖБУ ПОДДЕРЖКИ И ХХ КОЛИЧЕСТВО ПУБЛИКАЦИЙ В СОЦСЕТЯХ}.

Обнаружение

Когда команда обнаружила инцидент? Как они узнали о происходящем? Как мы можем ускорить обнаружение? Подумайте, как можно сократить это время вдвое?

Пример:

Инцидент был обнаружен, когда сработало {ТИП ОПОВЕЩЕНИЯ} и было отправлено сообщение {КОМАНДА ИЛИ СОТРУДНИК}.

Затем было отправлено сообщение {ВТОРОЙ СОТРУДНИК}, потому что {ПЕРВЫЙ СОТРУДНИК} не отвечал за работу службы осуществлявшей запись на диск, что вызвало задержку реагирования на {ХХ МИН./Ч.}.

{ОПИСАНИЕ УЛУЧШЕНИЯ} будет подготовлено {КОМАНДА, ОТВЕЧАЮЩАЯ ЗА УЛУЧШЕНИЕ} с целью {ОЖИДАЕМЫЙ РЕЗУЛЬТАТ УЛУЧШЕНИЯ}.

Ответ

Кто отреагировал на инцидент? Когда они ответили и что делали? Отметьте любые задержки или барьеры, препятствующие устранению инцидента.

Пример:

После получения сообщения в {XX:XX UTC}, {ДЕЖУРНЫЙ ИНЖЕНЕР} вышел в сеть в {XX:XX UTC} в {СИСТЕМА, В КОТОРОЙ ФИКСИРУЕТСЯ ИНФОРМАЦИЯ ОБ ИНЦИДЕНТЕ}.

Однако дежурный инженер не имел достаточного опыта работы с {ЗАТРОНУТАЯ СИСТЕМА}, поэтому в {XX:XX UTC} было отправлено второе оповещение {СЛЕДУЮЩИЙ В ЦЕПОЧКЕ ЭСКАЛАЦИИ ДЕЖУРНЫЙ ИНЖЕНЕР}, который присоединился к чату в {XX:XX UTC}.

Восстановление

Опишите, как была восстановлена работа сервиса, а инцидент был признан завершенным. Подробно опишите, как вы поняли, какие шаги необходимо предпринять для восстановления.

В зависимости от сценария ответьте на следующие вопросы. Как можно было сократить время, прошедшее до смягчения последствий? Как можно было сократить это время вдвое?

Пример:

Для восстановления работы системы использовался трехсторонний подход.

{ОПИШИТЕ ДЕЙСТВИЕ, ПРЕДПРИНЯТОЕ ДЛЯ СМЯГЧЕНИЯ ПОСЛЕДСТВИЙ ПРОБЛЕМЫ, ПРИЧИНУ ЕГО ВЫБОРА И РЕЗУЛЬТАТ}

Пример. Увеличение размера BuildEng EC3 ASG с целью повысить количество доступных узлов для обслуживания рабочей нагрузки и сокращения вероятности планирования задач на перегруженных узлах.

Отключение инструмента автомасштабирования Escalator, чтобы предотвратить активное масштабирование кластера в сторону уменьшения.
Возврат планировщика Build Engineering к предыдущей версии.

Хронология

Подробно опишите хронологию инцидента. Рекомендуется использовать время UTC для стандартизации часовых поясов.

Включите значимые предшествующие события, любые запуски процессов, время первого проявления последствий, а также эскалации. Запишите все принятые решения или внесенные изменения, время окончания инцидента, а также любые примечательные события, являющиеся следствием инцидента.

Пример:

Часовой пояс всех временных отметок: UTC.

11:48 — завершено обновление плоскости управления K8S 1.9.

12:46 — завершено обновление до версии 1.9, включая средство автомасштабирования кластера и экземпляр планировщика BuildEng.

14:20 — Build Engineering сообщает о проблеме инженеру KITT Disturbed.

14:27 — KITT Disturbed начинает изучение сбоев на конкретном экземпляре EC2 (IP-адрес: 203.153.8.204).

14:42 — KITT Disturbed блокирует узел.

14:49 — BuildEng сообщает, что проблема затрагивает несколько узлов. Обнаружено 86 проблемных экземпляров, что говорит о системном характере сбоев.

15:00 — KITT Disturbed предлагает переключиться на стандартный планировщик.

15:34 — BuildEng сообщает о сбое 200 подов.

16:00 — BuildEng принудительно завершает все неудачные сборки с отчетами OutOfCpu.

16:13 — BuildEng сообщает, что сбои не были временными и постоянно повторяются с новыми сборками.

16:30 — KITT определяет возникшие сбои как инцидент, и начинает обрабатывать их соответствующим образом.

16:36 — для облегчения проблемы KITT отключает инструмент автомасштабирования Escalator, чтобы предотвратить изъятие вычислительных ресурсов.

16:40 - KITT подтверждает, что состояние группы автомасштабирования стабилизировалось, загрузка кластера нормальная и последствия для клиентов устранены.

ШАБЛОН:

XX:XX UTC — СОБЫТИЕ ИНЦИДЕНТА; ПРЕДПРИНЯТОЕ ДЕЙСТВИЕ.

Определение основной причины: пять «почему»

Метод пяти «почему» помогает определить основную причину. Он применяется следующим образом.

Сначала опишите последствия и спросите, почему это случилось.
Запишите, какие последствия повлек за собой инцидент.
Спросите, почему инцидент произошел и почему он повлек такие последствия.
Затем продолжайте задавать вопросы «почему», пока не доберетесь до основной причины.

Перечислите эти «почему» в документации по разбору инцидентов.

Пример:

Сбой приложения произошел, потому что была заблокирована база данных.
База данных была заблокирована, потому что в ней проводилось слишком много операций записи.
Потому что мы внесли в сервис изменение и не ожидали увеличения активности.
Потому что в нашем процессе разработки не учитывается необходимость нагрузочного тестирования изменений.
Потому что нагрузочное тестирование не требовалось, пока мы не достигли такого уровня масштабирования.

Основная причина

Запишите конечную основную причину возникновения инцидента, ту вещь, которую необходимо изменить, чтобы предотвратить повторное возникновение подобных инцидентов.

Пример:

Баг в

Проверка бэклога

Просмотрите бэклог разработки. Может, если бы вы выполнили какие-то незапланированные задачи в нем, этот инцидент можно было предотвратить или, по крайней мере, его последствия были бы не такими тяжелыми.

Честная оценка бэклога поможет проверить принятые ранее решения по приоритетам и рискам.

Пример:

В бэклоге нет пунктов, которые могли бы улучшить работу этого сервиса. Есть примечание об улучшениях типизации контекста, и это были текущие задачи с действующими рабочими процессами.

Есть принятые заявки на улучшение интеграционных тестов, но попытки их реализации пока не завершились успехом.

Повторение

Теперь, когда вы знаете основную причину, оглянитесь назад и посмотрите, есть ли другие инциденты, которые могли бы возникнуть по этой же причине? Если да, обратите внимание на то, какие меры по смягчению последствий были предприняты в ходе работы над этими инцидентами, и спросите, почему этот инцидент произошел снова.

Пример:

Та же самая основная причина привела к инцидентам HOT-13432, HOT-14932 и HOT-19452.

Полученный опыт

Обсудите реакцию на инцидент и решите, что прошло хорошо, что можно было бы улучшить и где вы можете показать себя лучше.

Пример:

Необходим юнит-тест, который проверял бы настройку ограничителя скорости для рабочей нагрузки.
Необходима проверка рабочих нагрузок с пакетными операциями, нетипичными для нормальной работы.
Пакетные операции должны запускаться постепенно и контролироваться. Наращивание операций должно происходить при номинальных значениях показателей сервиса.

Корректирующие действия

Опишите порядок корректирующих действий для предотвращения возникновения подобных инцидентов в будущем. Укажите ответственных за выполнение этой работы, сроки ее выполнения и инструмент для ее отслеживания.

Пример:

Временно ввести в действие ручное ограничение скорости автомасштабирования, чтобы уменьшить вероятность отказов.
Юнит-тестирование и повторная реализация ограничения скорости выполнения заданий.
Введение дополнительного механизма сбора информации о скорости распределения по кластеру для контроля последствий масштабирования.

Избранные приложения

Jira

Confluence

Jira Service Management

По варианту использования

По команде

По размеру

По отрасли

Jira

Confluence

Jira Service Management

По варианту использования

По команде

По размеру

По отрасли

Процесс ретроспективы инцидента: отслеживайте, документируйте и улучшайте

Принцип работы: обработка инцидентов и составление ретроспектив

Обработка инцидента в Jira Service Management

Внесение ретроспективы в Confluence

Отслеживание последующих действий в виде задач Jira

Шаблон реагирования на инциденты

Краткое описание инцидента

Пример:

Предшествующие события

Пример:

Сбой

Пример:

Последствия

Пример:

Обнаружение

Пример:

Ответ

Пример:

Восстановление

Пример:

Хронология

Пример:

Определение основной причины: пять «почему»

Пример:

Основная причина

Пример:

Проверка бэклога

Пример:

Повторение

Пример:

Полученный опыт

Пример:

Корректирующие действия

Пример:

Рекомендовано для вас

Изучайте информирование об инцидентах с помощью Statuspage

Подробнее об управлении инцидентами

Важность процесса разбора инцидентов