Close

Управление инцидентами для высокоскоростных команд

Создание отчетов о разборе инцидента

Почему сбор и документирование данных имеет принципиально важное значение в процессе разбора инцидента

Разбор инцидента можно разделить на два отдельных артефакта: собрание, на котором идет обсуждение инцидента, и соответствующий отчет о разборе, который создается как результат этого собрания.

Когда речь заходит о разборе инцидента, эти два действия, проведение собрания и составление отчета, часто используются как взаимозаменяемые понятия. Под «разбором» люди могут подразумевать как одно из них, так и сразу оба понятия.

Хотите начать работу с помощью шаблона разбора инцидента? Ознакомьтесь с нашими шаблонами разборов.

Однако между собранием по разбору и письменным отчетом есть разница.

В компании Atlassian словом «разбор» или «разбор инцидента» обычно описывают весь процесс анализа инцидента, в том числе:

  • проведение собрания по разбору инцидента;
  • фиксирование действий и информации во время собрания;
  • получение подтверждения относительно последующих действий и обнародование результатов собрания.

Подробнее об управлении разборами в Atlassian см. в справочнике по управлению инцидентами.

Как составить хороший отчет о разборе инцидента?

Четкие и последовательные подсказки

В основе хорошего отчета лежит четкая и последовательная методика. Эффективные команды проводят каждый разбор по шаблону, в котором участники отвечают на серию вопросов или подсказок.

Шаблон позволяет не забыть о важных деталях. Кроме того, он обеспечивает единообразие описания инцидентов и помогает команде выявлять закономерности, тенденции и возможности для улучшения. Методику можно дорабатывать после каждой итерации и улучшать с течением времени, но любые изменения должны быть осмысленными.

Подробные сведения и данные

Поля для разбора инцидента — это не то место, где можно скупиться на детали и замалчивать события. Здесь необходимо указывать очень подробные и конкретные сведения. Не говорите, что вы видели всплеск трафика, укажите точно, какой показатель изменился и насколько. Не говорите, что в команде возникла путаница, укажите точную цитату из истории чата, где кто-то выразился не очень понятно.

Отсутствие упреков и учет индивидуальных особенностей и мотивов

В компании Atlassian, как и во многих других командах, практикуют разборы без поиска виновных. На собраниях важно избегать порицания и анализировать инцидент. То же самое касается и отчетов: избегайте обвинительных формулировок и фраз, которые выделяют определенных людей.

Важные вопросы, которые следует задать при создании отчета о разборе инцидента

Функция разбора инцидентов (ретроспективы) в Opsgenie предлагает следующие подсказки.

  • Предпосылки
    Опишите обстоятельства, которые привели к этому инциденту.
  • Сбой
    Опишите, что не работало должным образом.
  • Обнаружение
    Опишите, как инцидент был обнаружен.
  • Основные причины
    Проведите анализ по методу пяти «почему», чтобы выявить настоящие причины инцидента.
  • Смягчение последствий и решение
    Какие шаги были предприняты для разрешения данного инцидента?
  • Выводы
    Что прошло хорошо? Что можно было сделать лучше? Чему еще вы научились?

В нашей статье о шаблонах для проведения разборов инцидентов вы найдете примеры других вопросов, которые можно включить в отчет о разборе.

Что еще включить в отчет о разборе инцидента

  • Снимки экрана
    Прикрепите соответствующие снимки экрана. Особенно полезны снимки, сделанные командой реагирования во время сбоя. Что изменилось в продукте? Что в продукте сработало не так, как ожидалось?
  • Заявки
    Укажите ссылки на заявки, связанные с инцидентом.
  • Отзывы клиентов
    Присылали ли клиенты сообщения об инциденте? Это могли быть обращения в службу поддержки, а также сообщения по электронной почте и в социальных сетях. Смело указывайте все.
  • Диаграммы и графики
    Какими методами представления данных можно продемонстрировать последствия инцидента?
  • Данные
    Любые другие важные данные об инциденте или его последствиях.
  • Переписка в чате
    Если при реагировании на инцидент команда использует инструменты для общения в чате вроде Slack, добавьте ключевые сообщения или переписку из истории чата.
  • Хронология
    Четкая хронология инцидента — прекрасное подспорье для анализа. Выделите ключевые события и их временные метки на протяжении инцидента.

Внутренние и внешние отчеты о разборе инцидентов

Иногда некоторые организации публикуют общедоступную версию разбора после инцидента. Обычно так делают для крупномасштабных потребительских сервисов, сбои которых затрагивают большое количество пользователей. Компании могут опубликовать полную или (скорее всего) сокращенную версию внутреннего отчета. Это делается из-за необходимости удалить конфиденциальную или личную информацию.

Справочник по управлению инцидентами

Как профессионалы реагируют на крупные инциденты

Получите наше бесплатное руководство по управлению инцидентами. Изучите все инструменты и методы, которые компания Atlassian использует для управления крупными инцидентами.

Up Next
Meeting