Close

Готовы к работе с ITSM на высокой скорости?

Что такое управление инцидентами?

Управление инцидентами — это процесс реагирования на незапланированное событие или прекращение предоставления услуги с целью возобновить предоставление этой услуги. Согласно ITIL (библиотека ИТ-инфраструктуры), «процесс управления инцидентами гарантирует скорейшее восстановление услуги и минимизирует негативное влияние на рабочие процессы».

Инциденты — это любые события, которые нарушают или снижают качество обслуживания (или могут стать причиной таких нежелательных последствий). Остановка бизнес-приложения — это инцидент. Если сервер работает, но его производительность сильно снижена, — это также может являться инцидентом. Он работает медленно и неэффективно. Более того, в этой ситуации велика вероятность его окончательного выхода из строя.

Рассмотрим некоторые термины и их определения, чтобы всем было понятно, о чем идет речь.

ITSM (управление ИТ-услугами) широко используется для создания, поддержки ИТ-услуг и управления ими. Основной принцип ITSM заключается в том, что ИТ-продукты должны предоставляться в виде услуг. И одной из основных задач ITSM является управление инцидентами.

ITIL — это набор рекомендаций для ITSM (своего рода сборник сценариев).

Проблема — это еще пока не известная основная причина, вызвавшая один или несколько инцидентов. В инциденте, рассмотренном выше, сеть едва работает, а бизнес-приложение отключено, и причиной обеих проблем может быть неправильно настроенный маршрутизатор.

Важность управления инцидентами как методики ITSM

Сегодня в организациях используется огромное множество программных продуктов, поэтому потенциальных точек отказа сейчас больше, чем когда-либо. А последствия инцидента могут быть поистине масштабными. Исследования показывают, что убытки от крупных инцидентов могут составлять 300 000 $ за каждый час простоя системы. Если же речь идет о веб-сервисах, эта цифра может оказаться гораздо больше.

Правильно структурированный процесс управления инцидентами помогает значительно сократить потери. Среди преимуществ хорошо структурированного процесса отметим следующее:

  • ускорение разрешения инцидентов;
  • сокращение убытков и потерь прибыли, возникающих в организации в связи с инцидентами;
  • улучшенное информирование во время инцидентов (как внутри компании, так и вне ее);
  • непрерывное обучение и совершенствование.

Процесс управления инцидентами

Ключом к управлению инцидентами является качественный алгоритм действий и его соблюдение. Это непростая задача, однако вы можете учиться на опыте тысяч других команд, занимающихся ИТ-обслуживанием.

Одна из самых распространенных ошибок в перегруженных растущих ИТ-организациях — это попытка создавать такие процессы с нуля. Воспользуйтесь имеющимися рекомендациями и не теряйте времени на создание собственного инструмента для обработки заявок.

Рассмотрим наиболее важные аспекты методики управления инцидентами.

Выявите инцидент и зарегистрируйте его

Инцидент может возникнуть внезапно и где угодно. Сотрудник компании может позвонить и сообщить о проблеме, но бывает и так, что из-за неправильно закрепленного сетевого хаба или текущей крыши отрывается и падает на голову потолочная панель. (Такого, конечно, у нас не случалось, но все возможно...)

Какова бы ни была причина проблемы, важно в первую очередь выполнить два простых действия: кто-то обнаруживает инцидент, затем кто-то заносит его в журнал.

Если происходит инцидент, уже зарегистрированный в службе поддержки, — первые два шага уже сделаны. Если вам позвонили или сообщили о проблеме по электронной почте, в мессенджере (а то и голубиной почтой), команда службы поддержки должна надлежащим образом зарегистрировать проблему.

Журналы инцидентов (т. е. заявки), как правило, содержат следующее:

  • Имя человека, сообщающего об инциденте
  • Дата и время сообщения об инциденте
  • Описание инцидента (что не работает или работает не так, как должно)
  • Уникальный идентификационный номер, присвоенный инциденту, для отслеживания

Классификация инцидента

Назначение каждому инциденту интуитивно понятной, логически обоснованной категории (а если нужно — и подкатегории). Если этого не сделать, в дальнейшем будет очень трудно анализировать данные, выявлять закономерности и тенденции, а ведь именно эти задачи наиболее важны для эффективного управления проблемами и предотвращения инцидентов в дальнейшем. Обязательно выберите ITSM-решение для службы поддержи, позволяющее легко присваивать категории инцидентам.

Назначьте инциденту приоритет

Каждому инциденту должен быть назначен приоритет. Начните с оценки ущерба компании, вызванного инцидентом. Подумайте, кто ощутит на себе его последствия, а также определите потенциальное влияние на финансы, безопасность и соответствие требованиям. Это позволит понять, насколько серьезен инцидент и насколько быстро компания сможет его разрешить.

Рекомендуется задать уровни опасности и приоритета, не дожидаясь инцидента, тогда сотрудники, обрабатывающие инциденты, смогут быстро назначать им приоритет.

Если вы не уверены, какой приоритет назначить инциденту, назначьте с «округлением» в большую сторону. Лучше перестраховаться, чем недооценить проблему.

Расставив приоритеты, приступайте к разрешению всех открытых инцидентов в порядке приоритета. В большинстве организаций для каждого уровня приоритета предусмотрены соглашения об уровне обслуживания, поэтому клиенты знают, насколько быстро им ответят и решат проблему.

Реагируйте

Реакция на инциденты — довольно широкий термин, поэтому мы разберем конкретные, наиболее вероятные этапы разрешения инцидента после его обнаружения, назначения ему категории и приоритета.

Первоначальная диагностика

Здесь можно провести аналогию с распределением пациентов, поступающих в больницу, по степени тяжести их состояния. Сотрудник службы поддержки формулирует предположение о том, что могло произойти, чтобы понять, можно ли устранить проблему сразу или придется действовать в соответствии с установленной процедурой и собирать ресурсы, необходимые для разрешения инцидента. На этом этапе очень полезны базы знаний и руководства по диагностике.

Если первый отреагировавший агент может разрешить инцидент, основываясь на первоначальной диагностике, имеющихся знаниях и инструментах, инцидент успешно разрешается. В противном случае требуется его эскалация.

Эскалация инцидентов

Команда службы поддержки, поддерживающая контакт с клиентом, должна быть способна разрешить наиболее распространенные инциденты без эскалации. Но если проблема серьезная и не может быть решена сразу, необходимо собрать и зарегистрировать сведения об инциденте, чтобы квалифицированные специалисты поддержки смогли быстро его разрешить.

Анализ и диагностика

В ITIL это рассматривается как самостоятельный этап. В реальности же этот процесс происходит постоянно на протяжении всего жизненного цикла инцидента.

Первый сотрудник, отреагировавший на инцидент, уже, по сути, анализирует его, собирая соответствующую информацию, а в некоторых случаях успешно выполняет диагностику и даже разрешает проблему, не эскалируя ее. В этом случае можно переходить к нескольким следующим шагам: разрешение, восстановление и закрытие инцидента.

В противном случае анализ и диагностика происходят на каждом этапе при эскалации или привлечении внешних ресурсов для консультирования и помощи в разрешении инцидента.

Разрешение и восстановление

В конечном счете вы выполните диагностику и сделаете все необходимое, чтобы разрешить инцидент (в идеальном случае — в рамках заключенных соглашений об уровне обслуживания, SLA). Определяющим критерием при восстановлении после инцидента является время, которое будет затрачено на полное восстановление всех функций, так как уже после успешного восстановления может потребоваться установить и протестировать некоторые исправления (например, исправления багов).

Закрытие инцидента

Инцидент передается обратно службе поддержки (если он был эскалирован) для закрытия. Закрывать инциденты могут только сотрудники службы поддержки. Это позволяет поддерживать высокое качество обслуживания и последовательность в решении проблем. Владелец инцидента должен связаться с тем, кто сообщил о нем, и убедиться, что найденное решение является удовлетворительным и что инцидент действительно можно закрывать.

Резюме

Процесс управления инцидентами может показаться необязательной формальностью, особенно если вы работаете в небольшой компании. Однако жизненный цикл инцидентов одинаков, независимо от структуры команды, и зачастую требуется эскалация. Не пропускайте этапы процесса!

Инциденты случаются. Надежный процесс управления инцидентами позволит снизить их отрицательное влияние и быстро возобновить предоставление услуг.

продолжение темы
IT service continuity management