Close

Путь к успешному управлению инцидентами начинается здесь

Просмотр тем

Рекомендации по информированию об инцидентах

Incidents have always been a fact of life for people in IT and Ops. Today, it’s also DevOps and customer support teams getting a crash course in incident communication.

Информирование об инцидентах — это процесс оповещения пользователей о том, что сервис испытывает некоторые перебои в работе или снижение производительности. Это особенно важно для веб-сервисов и сервисов программного обеспечения, от которых ожидается круглосуточная доступность.

Информирование об инциденте в сфере веб-технологий не ограничивается рассылкой электронных сообщений в группе. Каждой целевой аудитории требуется особый подход. Разные обстоятельства требуют определенных сообщений и разных мер по реагированию.

Полностью избежать простоев невозможно, поэтому лучше заранее составить план и подготовить команду.

Далее приведены наши рекомендации по информированию об инцидентах. Из них вы узнаете:

  • в чем заключается важность сообщений об инцидентах;
  • как подготовиться к информированию об инцидентах;
  • как действуют профессионалы в сфере информирования об инцидентах;
  • почему процесс информирования не завершается вместе с инцидентом.
Диаграмма процесса информирования об инцидентах

Кому нужно информирование об инциденте?

Это нужно вашим клиентам и коллегам, поэтому вам тоже стоит проявить интерес. Если простою не уделить достаточно внимания, могут пострадать ваши клиенты, команды и финансовые показатели. Некоторые клиенты могут испугаться потенциальных разочарований и уйти к конкуренту. Вы потеряете будущих клиентов из-за отсутствия доверия. Это может подорвать моральный дух команды и снизить производительность. Кстати, можете забыть про «сарафанное радио», которое могло бы привести столь многих клиентов.

К счастью, внеплановые простои не должны становиться кошмаром для службы поддержки клиентов. Если держать клиентов в курсе ситуации и сообщать им о том, что вы делаете для устранения проблемы, они проявят понимание и будут гораздо спокойнее реагировать на трудности.

Подготовка к информированию об инцидентах

Правильная подготовка предотвращает плохие последствия. Это правило легко запомнить, поэтому возьмите его за основу своей стратегии информирования об инцидентах. Когда инцидент будет в самом разгаре, вы порадуетесь, что нашли время для информирования об инцидентах.

Ваше понимание инцидента

Чтобы иметь возможность сообщать об инцидентах, сначала нужно дать ему определение. Многие компании в сфере веб-технологий используют классическую четырехуровневую систему оценки опасности. Хороший подход к определению уровней опасности приведен в нашем Справочнике по инцидентам.

Какие бы пороговые значения вы ни установили для каждого уровня опасности инцидента, важно определить четкие критерии (лучше всего с привязкой к измеримому показателю). Если вы присваиваете инциденту уровень опасности 1, важно, чтобы любой участник вашей команды четко понимал его особенности.

Система оценки опасности также помогает устранить любую неоднозначность, которую неизбежно вносит простой.

В рамках любой системы рекомендуется составлять такой план информирования, который предполагает оповещение обо всех инцидентах, связанных с проблемами безопасности или потерей данных.

Заблаговременно выберите решения и каналы для информирования, а также шаблоны сообщений

Профессиональные команды службы поддержки и инженеры по техническому обеспечению надежности сайта не выбирают каналы связи второпях. У них есть заранее составленный план.

Существует пять основных каналов связи для информирования об инцидентах.

  • Специальная страница статусов
  • Встроенный статус
  • Эл. почта
  • Рабочий чат
  • Социальные сети
  • SMS

Специальная страница статусов

Командам рекомендуется использовать специальную страницу статусов в качестве основного решения для информирования об инциденте. Будь то собственная страница или размещенное решение вроде Statuspage — важно, чтобы ваши клиенты и коллеги четко понимали, где можно получить достоверную информацию во время инцидента. Сервис Statuspage также позволит вашим пользователям оформить подписку, чтобы получать оперативную информацию в момент публикации. Благодаря этому командам, которые должны активно устранять проблему, не придется вместо этого оказывать поддержку.

Встроенный статус

В Statuspage предусмотрена возможность простого вывода информации о статусе напрямую на любой веб-сайт, которым пользуются наши клиенты. Нам известно, что большинство посетителей, скорее всего, заглянут на главную страницу или страницу службы поддержки поставщика, прежде чем искать страницу статусов. Благодаря встроенному виджету (пример) этим посетителям будет легко понять, имеет ли место инцидент. Посетители также могут нажать виджет, чтобы перейти на страницу статусов.

Эл. почта

Как уже было сказано, хорошую страницу статусов отличает возможность для посетителей подписаться на обновления по электронной почте. Электронная почта представляет собой хороший канал для информирования об инцидентах, даже когда сообщения рассылаются напрямую из почтового клиента.

Чат

За последние годы значительно выросла популярность чатов наподобие Slack. Многие команды создают специальную комнату совещаний, в которой выводятся сообщения об инциденте, или открывают новую комнату для каждого инцидента. О наших интеграциях с чатом можно узнать здесь.

Социальные сети

Многие команды для информирования об инциденте используют социальные сети, такие как Twitter. Этот канал рекомендуется включить в стратегию информирования, но не стоит полагаться на него как на единственное средство связи.

Ни один из этих каналов не является идеальным решением для информирования об инцидентах. У каждого есть свои преимущества, поэтому они приносят больше пользы вместе. Так, мы сообщаем об инциденте на странице статусов и публикуем оперативную информацию в Twitter. Страница статусов также встроена в наше веб-приложение. В рассылаемых сообщениях содержатся ссылки, по которым пользователь может перейти на страницу статусов и узнать больше об инциденте. Рекомендуется выбрать один канал в качестве основного средства связи и направлять в него всех получателей сообщений из других каналов.

SMS

Часто с помощью SMS и текстовых сообщений удается быстрее связаться с нужным человеком. Многие предпочитают этот канал, когда дело касается критических входящих оповещений, таких как объявление о простое. Но этот канал может быстро вызвать усталость от оповещений, и люди отпишутся от него, если будут получать слишком много лишних сообщений.

Подготовка шаблонов сообщений об инцидентах и отказах

В разгар инцидента меньше всего хочется думать о том, как сформулировать объявление об инциденте. Неправильная формулировка инцидента может стать отличной мишенью для менеджеров нетехнического профиля, которые ищут возможность раскритиковать процесс реагирования вашей команды.

Заранее согласуйте объявление с менеджерами и сохраните его в шаблон. Так вы легко дополните его необходимой информацией и сможете выпустить в тот же день, когда произойдет инцидент.

Приведем два шаблона сообщений об инцидентах, которые мы используем для собственной страницы статусов.

  • Наблюдается аномально высокая нагрузка на сайт, из-за чего, возможно, снизится скорость загрузки страниц или страницы перестанут отвечать. Мы изучаем причины инцидента и сообщим оперативную информацию в ближайшее время.
  • Поставщик нашего хранилища, в котором содержатся данные общедоступных показателей, в настоящее время испытывает проблемы с инфраструктурой. Мы будем сообщать новости по мере развития ситуации или поступления сведений.

С другими примерами можно ознакомиться в нашей библиотеке для шаблонов сообщений об инциденте.

Профессиональное управление общением

Жизненный цикл инцидента обычно включает несколько эпизодов информирования. В оптимальном сценарии процесс реагирования часто имеет трехактную структуру: первое сообщение, обновления во время инцидента, затем объявление о разрешении и отчет о разборе инцидента.

Часть 1. Первое сообщение

Первоначальное сообщение — самое важное. Все, от сути сообщения до выбранных формулировок и времени оповещения, влияет на то, как воспримут вашу реакцию. Здесь и пригодится заранее подготовленный шаблон.

Вам нужно быстро признать наличие проблемы, кратко описать известные последствия, пообещать держать всех в курсе и постараться развеять беспокойство по поводу безопасности или потери данных. Проблему важно признать, даже если вы еще не знаете всех подробностей.

Часть 2. Регулярные обновления во время инцидента

Крайне важно сообщать информацию в ходе инцидента.

В командах по техническому обеспечению надежности сайта в Google ведущий специалист по взаимодействию с клиентами считается одной из ключевых ролей, которые кто-то должен принять на себя во время инцидента.

Автор книги Google Site Reliability Engineering о роли ведущего специалиста по взаимодействию с клиентами пишет следующее.

Этот человек отвечает за формирование у широкой публики образа специальной группы реагирования на инциденты. В его обязанности всегда входит периодическое сообщение оперативных сведений команде реагирования на инциденты и заинтересованным сторонам (обычно по электронной почте). Иногда этот сотрудник выполняет такие задачи, как внесение в документ об инциденте достоверной и актуальной информации.

Этот специалист также будет отвечать за обновление страницы статусов или публикации оперативной информации в других каналах по мере развития ситуации. Даже такое сообщение, как «Мы продолжаем работать над устранением проблемы; пока новостей нет», будет лучше, чем молчать и держать аудиторию в неведении. Когда ничего не сообщают, невольно начинаешь ждать худшего.

Часть 3. Разрешение, отчет о разборе инцидента, дальнейшие действия

В 2010 году компания Facebook столкнулась с самым масштабным отказом в истории своего существования. Около 2,5 часов к социальной сети не могли получить доступ миллионы ее пользователей (которых тогда насчитывалось полмиллиарда).

Отказ произошел в самый неподходящий момент для активно развивающегося технологического гиганта, который только начал переживать скачкообразный рост числа пользователей и пытался доказать деловому миру, что сервис неспроста снискал такую популярность.

Когда удалось устранить все последствия, инженер Facebook написал для технического блога компании текст из 395 слов, в котором подвел итоги реагирования на инцидент.

Приведем выдержку из этой публикации.

Сегодня сайт Facebook был недоступен для многих пользователей в течение примерно 2,5 часов. Это худший отказ, с которым мы столкнулись за четыре года, и прежде всего мы хотели бы извиниться. Кроме того, мы хотим подробнее рассказать о ситуации с технической точки зрения и поделиться важным выводом.

Костяк отчета о разборе инцидента состоит из следующих простых частей.

  • Признайте наличие проблемы, проявите сочувствие к тем, кого затронул инцидент, и принесите извинения.
  • Объясните, что пошло не так и почему.
  • Объясните, что было сделано для разрешения инцидента и предотвращения повторных инцидентов.
  • Признайте наличие проблемы, проявите сочувствие и принесите извинения еще раз.

В подобном сообщении можно обойтись без красивых формулировок и громких заявлений. Напишите его просто и без обиняков. Вот пример из блога Facebook:

Еще раз приносим извинения за отказ сайта. Уверяем, что мы очень серьезно относимся к производительности и надежности Facebook.

Клиентам и коллегам будет несложно поверить, что в вашей команде работают здравомыслящие специалисты, которые держат руку на пульсе.

Постоянно работающие сервисы рано или поздно неожиданно дают сбой. Эффективное общение во время простоя отлично помогает построить доверительные отношения с коллегами и клиентами. Многое зависит от вашей реакции на инцидент. Мы также создали простой инструмент, с помощью которого вы сможете быстро составлять эффективные сообщения во время инцидентов.

Рассмотренные продукты
Логотип Statuspage

Без труда информируйте пользователей о состоянии дел в режиме реального времени.

продолжение темы
On call schedule