Функции оповещений и дежурств Opsgenie теперь доступны в Jira Service Management и Compass. Перенесите существующие данные и конфигурации Opsgenie до 05.04.2027 с помощью нашего инструмента автоматической миграции.

Примеры планов аварийного восстановления и рекомендации

Бенджамин Франклин был прав, когда сказал: «Тот, кто ничего планирует, планирует провал». Это особенно верно в отношении экстренных ситуаций, которые могут нарушить бизнес-процессы или вообще сделать работу компании невозможной. Поэтому необходимы стратегия и план аварийного восстановления.

Чтобы обеспечить максимальную защиту и свести к минимуму сбои, нужны четкие, комплексные и практичные планы реагирования на различные виды аварий. В основе каждого плана должен лежать простой структурный образец, в идеале шаблон, используемый по всей компании. Кроме того, формат плана аварийного восстановления должен соответствовать проверенным рекомендациям и учитывать уникальные потребности и приоритеты компании.

В этой статье рассказывается, что такое планы аварийного восстановления и почему они важны, а также приводятся примеры, которые можно использовать в качестве основы для обеспечения безопасности ваших бизнес-процессов. Крому того, в статье представлены рекомендации по аварийному восстановлению и информация о функциях Jira Service Management, которые могут упростить планирование аварийного восстановления и сделать его более эффективным.

Что нужно знать о планировании аварийного восстановления

Вашему бизнесу может угрожать множество различных аварий и катастроф, любая из которых может помешать бизнес-процессам или полностью остановить деятельность компании. Стоимость простоя может достигать сотен или тысяч долларов в минуту. Планы аварийного восстановления — критически важная часть стратегии обеспечения непрерывности бизнеса, долгосрочного выживания и успеха компании.

Текущие процессы управления ИТ-услугами (ITSM) и поддержки DevOps помогут вам разработать эффективные планы аварийного восстановления. Для этого также могут пригодиться функции вашего программного обеспечения ITSM. Проблемы с ИТ способны быстро перерасти в катастрофы. Качественное реагирование на инциденты и информирование о них, включая ретроспективные отчеты, помогут вам планировать аварийное восстановление. 

Содержимое конкретного плана аварийного восстановления зависит от типа аварии и особенностей вашей компании. Однако все эффективные планы аварийного восстановления преследуют две общие цели: предотвратить аварию, если это возможно, и предоставить шаги по скорейшему восстановлению. Ниже приведен пример плана аварийного восстановления для всех наиболее распространенных и сложных типов аварий. Вашей компании нужно разработать и использовать план для каждой из таких аварий.

5 примеров планов аварийного восстановления

При планировании аварийного восстановления нужно учитывать различные типы аварий, чтобы обеспечить максимальную защиту бизнес-процессов. Вот примеры наиболее распространенных аварий, но возможно, вам придется создать дополнительные планы в зависимости от особенностей вашей работы.

План восстановления после кибератаки

Начиная разработку такого плана, вы должны тщательно оценить риск возникновения и последствия кибератаки. Качественный план кибербезопасности складывается из следующих составляющих.

  • Цели восстановления: время, необходимое для восстановления основных, а затем и всех операций, или максимально допустимый объем потери данных. Эти значения известны соответственно как целевое время восстановления (recovery time objective, RTO) и целевая точка восстановления (recovery point objective, RPO).

  • Подробное описание мер по резервному копированию и защите данных вашей компании, а также стратегий и решений по восстановлению. 

  • Указания, какую информацию команда по восстановлению должна сообщить затронутым и вовлеченным лицам и по каким каналам. 

  • Информация о соответствующей документации, работах по техническому обслуживанию, обучении сотрудников и заинтересованных сторон, а также о регулярном тестировании самого плана.

План восстановления после сбоев в цепочке поставок

PPRR — Prevention (предотвращение), Preparedness (подготовка), Response (реагирование) и Recovery (восстановление) — популярный подход к управлению рисками в цепочке поставок. План восстановления после сбоев в цепочке поставок должен учитывать все четыре элемента, чтобы обеспечить максимальную эффективность и свести к минимуму перебои в работе.

В рамках предотвращения и подготовки следует составить карту всех критических цепочек поставок, указав, каких поставщиков можно заменить, а каких нет.  Если поставщика можно заменить, в плане должно быть подробно описано, как это сделать и какие заинтересованные стороны нужно уведомить.

Если замена невозможна, нужно указать в плане, какие операции и команды будут затронуты при сбое в цепочке поставок. План должен включать меры по информированию затронутых сторон, в том числе сведения о конкретных действиях, которые им необходимо предпринять. Кроме того, нужно обеспечить быстрое возобновление процессов после восстановления связи с поставщиком.

План восстановления после сбоев инфраструктуры

План восстановления после сбоев ИТ-инфраструктуры должен отражать и дополнять ваш план восстановления после кибератак. В нем должны быть перечислены критически важные элементы инфраструктуры и приведены актуальные, точные и полные сведения об аппаратном и программном обеспечении и сетевых конфигурациях.

Этот план должен включать информацию об альтернативах, обходных путях и действиях сотрудников в случае сбоя инфраструктуры. Также следует включить информацию о восстановлении после сбоя физической инфраструктуры, не относящейся к ИТ.

План восстановления после сбоев в центре обработки данных

Крупные предприятия часто назначают для критически важных центров обработки данных системы резервного копирования: системы «горячей замены», которые срабатывают автоматически, и «теплой замены», которая требует работы вручную. Такие системы резервного копирования и способ доступа к ним нужно указать в плане восстановления после сбоев в центре обработки данных.

План восстановления после стихийного бедствия

Каждый план восстановления после стихийного бедствия должен начинаться с подробной информации о том, как и где хранятся и обновляются резервные копии критически важных данных. Ваша компания должна хранить хотя бы одну резервную копию за пределами здания, желательно на таком расстоянии, чтобы стихийное бедствие, затронувшее здание компании, не затронуло резервную копию. Необходима возможность безопасного удаленного доступа к резервным копиям за пределами здания компании, поскольку стихийные бедствия могут затруднить поездки.

Определите типы стихийных бедствий, которые могут затронуть деятельность вашей компании, и составьте план для каждого из них. При планировании можно использовать данные от местных органов власти и онлайн-ресурсов о погоде и климате.

Рекомендации по планированию аварийного восстановления

Опирайтесь на эти рекомендации независимо от того, какой план вы разрабатываете.

  • Определите, с какими авариями, сбоями и природными бедствиями ваша компания может столкнуться с большей вероятностью. Присвойте им приоритеты.

  • Усилия должны быть направлены в первую очередь на восстановление самых важных процессов.

  • Определите приемлемые цели восстановления. Их можно выразить в допустимом объеме потерь данных и количества сбоев в работе (цель точки восстановления) или во времени восстановления процессов (целевое время восстановления).

  • Внедрите надежные процессы резервного копирования и восстановления критически важных бизнес-данных. Храните хотя бы одну резервную копию в безопасном удаленном месте и согласуйте процессы доступа и восстановления с целями восстановления.

  • Назначьте команды для реализации каждого плана восстановления. В состав каждой команды должны входить люди, обладающие необходимыми навыками, чтобы обеспечить быстрое и эффективное восстановление даже после самых серьезных аварий. Также нужны участники, которые смогут общаться с заинтересованными сторонами и отвечать на их вопросы в течение всего периода восстановления.

  • Регулярно тестируйте и обновляйте планы. План аварийного восстановления, который просто пылится на полке, скорее всего, не поможет при реальной аварии. Постоянно пересматривайте и проверяйте свои планы, чтобы они соответствовали меняющимся обстоятельствам и потребностям бизнеса. Кроме того, при необходимости внедрите планы по частому и регулярному обучению заинтересованных сторон.

Использование Jira Service Management для планирования аварийного восстановления

Как мы уже объяснили, планирование аварийного восстановления — это сложный, важный и многогранный элемент обеспечения непрерывности бизнеса. Функции Jira Service Management позволяют упростить планирование аварийного восстановления и повысить его эффективность для вас, ваших коллег и компании.

Jira Service Management предоставляет центральную платформу для отслеживания задач, инцидентов и запросов, связанных с процессом аварийного восстановления. Благодаря этой централизации участники команды по аварийному восстановлению смогут быстрее связываться друг с другом и с заинтересованными сторонами. Функции отслеживания проблем и отчетности позволяют контролировать каждое действие по восстановлению и при необходимости изменять его. Jira Service Management также позволяет создавать базы знаний по аварийному восстановлению, чтобы все участники команды могли быстро получить доступ к информации.

Примеры планов аварийного восстановления: часто задаваемые вопросы

Как составить план аварийного восстановления?

Ниже приведены некоторые основные шаги по созданию плана восстановления для любого типа аварий, с которыми может столкнуться ваша компания.

  1. Вместе с ответственными лицами ИТ-отдела и другими заинтересованными сторонами выявите возможные аварии и связанные с ними риски, оцените их и расставьте приоритеты.

  2. Укажите цели восстановления для каждого из самых важных бизнес-процессов.

  3. Опишите, как резервное копирование и восстановление позволяют решить эти задачи и снизить риски. Подчеркните все известные пробелы или недостатки в существующих методах или решениях по резервному копированию и восстановлению.

  4. Перечислите и кратко опишите участников команды по аварийному восстановлению и роль каждого из них.

  5. Опишите график тестирования плана по восстановлению и то, как будет измеряться эффективность тестирования каждого плана.

  6. Поделитесь планом со всеми заинтересованными сторонами и обращайтесь за комментариями и отзывами во время и после создания, тестирования и реализации плана.

Что должен включать в себя план аварийного восстановления?

Любой план аварийного восстановления должен включать как минимум следующее.

  • Список наиболее важных бизнес-операций и аварий, с которыми можно столкнуться при выполнении таких операций. Расставьте их в порядке приоритета.

  • Краткое описание существующих политик, процессов и технологий резервного копирования и восстановления. Укажите все известные недостатки или пробелы.

  • Описание существующих методов и решений для устранения выявленных уязвимости.

  • Список участников команды по аварийному восстановлению с кратким описанием каждого участника и его роли.

  • Расписание регулярного тестирования плана и краткое описание действий по решению любых выявленных в ходе тестирования проблем.

  • Поправки с учетом вопросов, комментариев и предложений ключевых заинтересованных лиц.

Какие события должен охватывать план аварийного восстановления?

Планы аварийного восстановления должны учитывать как можно больше сценариев аварий, представляющих угрозу для бизнес-операций. В этой статье рассматриваются области, которые вы и ваши коллеги должны считать обязательными для своего бизнеса. В зависимости от особенностей вашего бизнеса и рынков вам также могут потребоваться планы для других типов аварий.

Рекомендовано для вас

Обучающее руководство

Изучайте информирование об инцидентах с помощью Statuspage

В этом руководстве мы покажем, как использовать шаблоны инцидентов, чтобы наладить эффективную коммуникацию во время разрешения инцидента. Применимо ко многим видам технических сбоев.

Шаблоны и примеры информирования об инцидентах

Во время реагирования на инциденты становится ясна ценность шаблонов информирования. Загрузите шаблоны, которые использует наша команда, и познакомьтесь с другими примерами распространенных инцидентов.

Подробнее об управлении инцидентами

В этом разделе можно найти другие руководства и ресурсы по управлению инцидентами.