Close

Путь к успешному управлению инцидентами начинается здесь

Просмотр тем

Правила эскалации для эффективного управления инцидентами

Наилучший сценарий при возникновении инцидента — когда дежурный инженер или SRE может устранить его быстро и без посторонней помощи.

Конечно, в реальной жизни так бывает не всегда. Иногда для устранения требуется большая команда, специальные знания или специалисты более высокой квалификации. Именно поэтому любой организации, в которой работает более двух технических специалистов, нужны план и правила эскалации инцидентов.

Что такое эскалация инцидента?

Эскалация инцидента — это то, что происходит, когда сотрудник не может устранить инцидент самостоятельно и должен передать это задание более опытному сотруднику или профильному специалисту.

Что такое правило эскалации?

Правила эскалации отвечают на вопрос о том, как организация обрабатывает такую передачу. В них указывается, кого необходимо уведомить при поступлении оповещения об инциденте, кому следует эскалировать инцидент, если первый исполнитель недоступен, кто должен взять на себя решение проблемы, если исполнитель не может решить ее самостоятельно, и как должна происходить передача (через службу поддержки? Напрямую от одного технического специалиста к другому? Через инструмент управления инцидентами?).

На первый взгляд эти вопросы кажутся простыми, но чем крупнее организация и сложнее технологическая экосистема, тем более подробными должны быть ответы. Например, ответ на вопрос о том, кого необходимо уведомить при поступлении оповещения об инциденте, может зависеть не только от того, кто из сотрудников находится на дежурстве и доступен, но и от уровня опасности инцидента, его продолжительности и т. д.

В некоторых компаниях можно сначала уведомлять одного дежурного, независимо от уровня опасности инцидента. В других компаниях имеет смысл оповестить об инциденте с уровнем опасности 3 младшего разработчика, а об инциденте с уровнем опасности 1 — более старшего по должности или специальную команду.

Аналогичным образом, в некоторых компаниях за эскалацию инцидента в случае необходимости может отвечать первый исполнитель. В других компаниях может запускаться автоматическая эскалация следующему по должности разработчику или специальной команде, если инцидент длится дольше определенного времени или начинает влиять на большее количество систем или пользователей.

Правила эскалации должны описывать не только то, как и кому компания эскалирует инциденты, но и особенности, зависящие от типа инцидента, уровня опасности, продолжительности и масштаба инцидента.

Процессы эскалации инцидентов

У компаний, следующих рекомендациям ITSM, в центре эскалации инцидентов обычно находится служба поддержки. Если первый исполнитель не может устранить инцидент, то возвращает его в службу поддержки, которая эскалирует проблему на соответствующую следующую линию защиты.

Другие компании, такие как Google, назначают ответственным за инциденты инженера SRE, который отвечает за все необходимые эскалации (а также приостанавливает выпуск новых версий, если инцидент вызывает превышение командой порогового значения для времени простоя, которое задано в SLA/SLO).

В третьих компаниях первым исполнителем может быть разработчик либо менеджер инцидентов, или же первых контактных лиц может быть несколько (особенно в случае оповещения об инциденте с высоким уровнем опасности), а эскалация может происходить через заранее определенные процессы внутри одной команды или между командами.

Независимо от того, проходит ли процесс эскалации через службу поддержки, выполняется инженером SRE или реализуется автоматически в системах отслеживания инцидентов, в правилах эскалации обычно используются маршруты трех типов.

Иерархическая эскалация

При иерархической эскалации инцидент передается команде или сотруднику в зависимости от их уровня квалификации или положения в организации.

Например, первый дежурный исполнитель может быть младшим разработчиком, недавно работающим в команде. Если в иерархической организации исполнитель не может решить проблему, он передает ее разработчику, более старшему по должности. Если этот разработчик также не может решить проблему, она снова передается более старшему разработчику по иерархии — и так до тех пор, пока проблема не будет решена.

Функциональная эскалация

При функциональной эскалации инцидент передается команде или сотруднику, лучше подготовленному для его устранения, с учетом его навыков или знания систем, а не должности.

Например, первым дежурным исполнителем может быть младший разработчик из команды, которая занимается серверной частью продукта X. Если он обнаружит, что основная проблема возникла из-за интеграции с продуктом Y, то может эскалировать инцидент другому младшему разработчику из команды по разработке продукта Y.

Автоматическая эскалация

Для команд, работающих с такими платформами, как Opsgenie, можно настроить правила, в соответствии с которыми система будет автоматически эскалировать инцидент, если основной дежурный не подтвердит или не закроет оповещение.

Команда может отдавать предпочтение тому или иному методу эскалации, но они не являются взаимоисключающими. Многие команды используют сочетание иерархической, функциональной и автоматической эскалации.

Матрица эскалации

Матрица эскалации — это документ или система, которые определяют, когда должна происходить эскалация и кто должен обрабатывать инциденты на каждом уровне эскалации.

Этот термин используется во многих отраслях. Отдел кадров может применять матрицу эскалации при решении внутренних проблем. Центры обработки вызовов могут использовать матрицу эскалации для решения проблем с обслуживанием клиентов. У команд ИТ и DevOps может быть несколько матриц, которые помогают инженерам понять, как и когда эскалировать инцидент.

Степень детализации матрицы во многом зависит от компании. Одни организации могут использовать простую иерархическую диаграмму, в соответствии с которой каждый разработчик при необходимости эскалирует инцидент сотруднику с более высоким уровнем квалификации. В других организациях могут применяться матрицы для конкретных ситуаций, которые определяют, к каким командам должны обращаться разработчики при различных типах инцидентов или различных уровнях опасности. Как и во многих других случаях, в управлении инцидентами не существует универсального ответа на вопрос о том, как разработать матрицу для организации.

Рекомендации по разработке правил эскалации

Рассматривайте правила эскалации как рекомендации, а не жесткий набор правил

Технологии развиваются, как и ваши команды. Компания Google предлагает следующее: если инженеры SRE считают, что конкретный случай требует другой стратегии эскалации, разрешите им использовать свое решение. Дело не в том, чтобы сформулировать жесткие правила, а в том, чтобы разработать рекомендации, применимые в большинстве ситуаций.

Регулярно проводите аудит графика дежурств

Есть ли пробелы в графике? Назначены ли на дежурство нужные сотрудники? Назначены ли на дежурство нужные сотрудники второй и третьей очереди? Ваши графики дежурств и правила эскалации должны работать как единый механизм, чтобы управление инцидентами было быстрым.

Установите продуманные пороговые значения для эскалации

Не все инциденты одинаково важны, а значит, не все инциденты могут и должны быть обработаны по одному и тому же правилу эскалации.

При незначительных инцидентах можно не оповещать дежурного инженера в нерабочее время. При серьезных инцидентах инженер, вероятно, понадобится независимо от времени суток. Если произошло несколько инцидентов, инженер должен определить, каким из них следует заняться в первую очередь и (или) нужно ли сразу эскалировать какой-либо инцидент другому инженеру.

Необходимо найти баланс между тем, чтобы обеспечить максимальное время безотказной работы систем, выполнить обещания SLA и достичь соглашений SLO, и тем, чтобы условия работы инженеров не приводили к выгоранию, перегруженности, недостатку сна и усталости от оповещений.

Установите четкие процессы эскалации

Должен ли разработчик, выполняющий эскалацию, обратиться к соответствующей команде или сотруднику напрямую или сделать это через службу технической поддержки? Нужно ли разработчику использовать определенную систему? Как будет отслеживаться эскалация? Что должен сделать первый исполнитель, чтобы гарантировать передачу инцидента следующему сотруднику?

Ваши правила должны давать четкие ответы на эти вопросы. Их необходимо довести до сведения всех дежурных разработчиков, чтобы эскалации проходили гладко и инциденты устранялись быстрее.

продолжение темы
Tools