Close

Путь к успешному управлению инцидентами начинается здесь

Просмотр тем

Введение в жизненный цикл реагирования на инциденты

Если понаблюдать за работой специалистов по безопасности и управлению инцидентами, можно заметить одну закономерность. Самые толковые специалисты в этих сферах мыслят циклами, а не прямыми линиями.

Вы можете спросить: «Почему? Что это вообще значит?» Это значит, что каждый инцидент и перебой не являются отдельно взятыми событиями, у которых есть начало и конец (хотя может показаться иначе). Инциденты представляют собой возможность для обучения.

Если сервис снова заработал, это не значит, что работа команды завершена. Подведя итоги реагирования на инцидент, следует обновить дальнейшие дорожные карты, пересмотреть процесс подготовки к будущим инцидентам и определить, что еще нужно сделать, чтобы предотвратить последующие инциденты. Это бесконечный цикл совершенствования, допускающий разные подходы к его этапам в зависимости от вашей точки зрения.

Что такое жизненный цикл реагирования на инциденты?

Говоря о реагировании на инциденты, мы подразумеваем установленный в организации процесс реагирования на угрозы в сфере ИТ, такие как кибератаки, нарушения безопасности и сбои в работе сервера.

Жизненный цикл реагирования на инциденты — это многоэтапная программа вашей организации по выявлению перебоя в обслуживании или угрозы безопасности и реагированию на них.

Жизненный цикл реагирования на инциденты компании Atlassian

Схема жизненного цикла реагирования на инциденты компании Atlassian

1. Обнаружить инцидент

В нашей компании для обнаружения инцидентов служат инструменты мониторинга и оповещения. Однако иногда мы узнаем об инциденте от клиентов или участников команд.

2. Наладить каналы связи для команды

Первый важный шаг — это наладить каналы связи для команды реагирования на инциденты. На данном этапе необходимо сосредоточить общение участников команды в знакомом месте, например в специальном канале Slack и системе видеоконференц-связи.

3. Оценить воздействие и определить уровень опасности

На этом этапе следует оценить воздействие инцидента, чтобы команда могла решить, с кем еще нужно связаться и какие сведения передать клиентам и заинтересованным сторонам.

4. Проинформировать клиентов

Мы стремимся информировать заинтересованные стороны (как внутренние, так и внешние) в кратчайшие сроки. Оперативно сообщая точные сведения, можно завоевать доверие клиентов и других сотрудников организации.

5. Выполнить эскалацию инцидента правильным специалистам

Команде, которая первой реагировала на инцидент, часто необходимо подключить к разрешению инцидента другие команды с помощью инструмента оповещения, такого как Opsgenie.

6. Распределить роли в команде реагирования на инцидент

По мере того как к команде реагирования присоединяются новые участники, менеджер инцидентов отводит им роли.

7. Разрешить инцидент

Инцидент считается разрешенным, когда устранены текущие или потенциальные последствия для бизнеса. В этот момент процесс экстренного реагирования завершается, а команда переключается на итоговые задачи (при их наличии) и ретроспективу по инциденту.

Жизненный цикл реагирования на инциденты института NIST

Еще один жизненный цикл реагирования на инциденты, считающийся эталоном в отрасли, разработан Национальным институтом стандартов и технологий США (NIST). Институт NIST — это государственное учреждение, которое участвует в разработке стандартов и методик, связанных с реагированием на инциденты и кибербезопасностью.

Аббревиатура NIST (National Institute of Standards and Technology) в переводе звучит как Национальный институт стандартов и технологий. Это государственное учреждение США, которое с гордостью называет себя «одной из старейших физико-технических лабораторий страны». Институт занимается всеми аспектами технологий, включая кибербезопасность. В этой сфере он завоевал репутацию одного из двух главных экспертов по реагированию на инциденты, предложив собственный подход.

Институт NIST и компания Atlassian сходятся во мнении о том, что не каждый инцидент можно предотвратить. Поэтому лучше всего подготовиться.

«Превентивные меры, принятые на основании результатов оценок рисков, могут привести к уменьшению числа инцидентов, однако не все инциденты можно предотвратить. Поэтому необходимо предусмотреть возможность реагирования на инциденты, чтобы оперативно выявить инцидент, максимально уменьшить потери и вред, устранить уязвимости, вызвавшие инцидент, и восстановить работу ИТ-услуг», — институт NIST.

Согласно предложенному институтом NIST жизненному циклу, процесс реагирования на инциденты состоит из четырех основных этапов: подготовка; обнаружение и анализ; локализация, ликвидация и восстановление; меры, принимаемые после события.

Этап 1. Подготовка

На этапе подготовки организация выполняет работу, чтобы подготовиться к реагированию на инцидент, в том числе устанавливает нужные инструменты, выделяет ресурсы и обучает команду. Этот этап подразумевает выполнение действий, нацеленных на предупреждение инцидентов.

Этап 2. Обнаружение и анализ

По данным института NIST, для многих организаций в рамках реагирования часто сложнее всего безошибочно обнаружить и оценить инциденты.

Этап 3. Локализация, ликвидация и восстановление

В ходе этого этапа организация стремится как можно эффективнее ограничить воздействие инцидента и устранить перебои в обслуживании.

Этап 4. Меры, принимаемые после события

В процессе реагирования на инциденты наиболее важно делать выводы из произошедшего и совершенствоваться. Этот аспект работы игнорируется чаще других. На этом этапе анализируется инцидент и меры, принятые в рамках реагирования. Организация стремится снизить вероятность повторного возникновения инцидента и понять, как можно улучшить меры по реагированию на инциденты в будущем.

Реагирование на инциденты и современные команды DevOps

Over the past decade, the DevOps movement has helped teams reshape how they build, deploy, and operate software. Along with that are innovations on how these teams respond to incidents.

Подход DevOps к управлению инцидентами не сильно отличается от традиционной методики эффективного управления инцидентами. В рамках подхода DevOps важно привлекать команды разработчиков к управлению инцидентами на самых ранних этапах (в том числе, на дежурстве) и распределять задачи с учетом опыта и знаний, а не должности.

Реагирование на инциденты и непрерывное совершенствование

В начале статьи мы говорили о циклах и прямых линиях. Вы могли заметить, что у всех этих подходов к управлению инцидентами есть одна общая черта — они нелинейны. Каждый подход состоит из одних и тех же составляющих: способов определения, обнаружения и выявления инцидентов; способов быстрого реагирования и принятия мер для устранения инцидентов; способов анализа инцидентов для лучшего обнаружения и реагирования в будущем. Анализировать произошедший инцидент просто ради процесса не имеет смысла. Невозможно вернуться в прошлое и предотвратить случившееся. Разобравшись с инцидентом, вы получите опыт, с помощью которого можно улучшить процесс обнаружения и реагирования в будущем. Цикл для команд завершается постоянным, непрерывным обучением и совершенствованием.

продолжение темы
On call