Close

针对高速团队的事件管理

面向 IT 运营和 DevOps 专业人员的灾难恢复计划

随着 IT 服务从后台成本中心转向推动核心业务价值,有效的 IT 灾难恢复实践变得比以前更加重要。

无论是应用停机期间、数据丢失,甚至是本地火灾,灾难期间的响应都不是一件容易的事。

对于小型企业来说,恢复可能是毁灭性的。根据联邦应急管理局的数据,大约 40-60% 的小型企业在灾难发生后从未重新开业。

什么是灾难恢复计划?

灾难恢复计划是一套记录在案的做法和程序,旨在在发生灾难时保护组织及其 IT 资产。通常,该计划包括方案、操作手册、备份以及使业务和 IT 服务正常运行的说明。这在系统故障、停机期间、安全漏洞或数据丢失等事件中尤其重要。

根据 IBM 的说法

“20 世纪 70 年代之前,大多数组织只需要关心制作纸质记录的副本即可。20 世纪 70 年代,随着企业开始更加依赖计算机运营,灾难恢复计划变得越来越突出。当时,大多数系统都是面向批处理的大型机。在主站点恢复之前,可以从备份磁带加载另一个异地大型机。”

灾难恢复计划与业务连续性计划

灾难恢复计划是业务连续性计划的一个子集。灾难恢复计划的重点是让受影响的服务尽快恢复运行,而业务连续性计划则侧重于确保业务在发生灾难时能够不间断地运行。

无论是灾难恢复还是业务连续性,IT 在这两种实践中都扮演着核心角色。

很容易将灾难恢复和业务连续性混为一谈,或者将它们视为可互换。灾难恢复计划用于在事件发生后恢复服务。灾难恢复在整个业务连续性计划中只占较小的部分。业务连续性计划旨在确保组织在事件发生之前、期间和之后都能正常运转。如果说灾难恢复是“我们如何结束这一事件”,那么业务连续性就是“事件发生期间,我们如何继续作为企业运营”。

灾难恢复计划与事故管理

对于 DevOps和 IT 运营团队而言,事件管理是用于响应计划外事件或服务中断并将服务恢复到运行状态的流程。

事件管理和灾难恢复通常可以互换使用,具体取决于团队和组织。事件管理还侧重于实时处理事件,并在事件发生期间重新启动和运行服务。

Atlassian 对事件的定义是:需要紧急响应的服务中断或服务质量下降事件。

或者根据谷歌关于站点可靠性工程的书:

“有效事件管理是限制事件造成的中断和尽快恢复正常业务运营的关键。如果您没有事先弄清楚自己对潜在事件的反应,那么有原则事件管理可能会在现实中消失。”

Google 还建议将事件管理作为组织灾难恢复测试流程的一部分。在事件响应过程中,最好记录响应者的行动和通信,以创建丰富的事件时间线,作为未来相关事件或中断的资源。这对于运行灾难恢复测试的组织很有帮助,因为团队拥有完整的运营环境。

什么是恢复时间目标?

恢复时间目标是业务职能部门在中断后恢复正常服务的可接受的恢复时间段。 它与 DevOps 指标中讨论的平均恢复时间密切相关。

DevOps 环境中的灾难恢复计划

在持续交付、自动测试和每天多次部署的世界中,灾难恢复计划如何保持相关性?

换句话说,灾难恢复计划在实施 DevOps 的组织中扮演什么角色?

值得庆幸的是,这两种实践可以共存并互相受益。用于将代码从开发推送到测试再到生产的相同工具和流程也可以在灾难恢复中发挥作用。例如,用于测试部署的生产环境的备份也可以用于运行灾难模拟。而且,从 CI/CD 管道中跟踪的代码提交可以成为显示灾难恢复场景中最近更改的有用工具。

众所周知,DevOps 越来越多地为公司的所有 IT 决策设定步伐。但这并不一定意味着在恢复计划中投入的辛勤工作和资源被浪费了,也不一定意味着您的灾难恢复计划会被搁置。

详细了解 Atlassian 事件管理解决方案 Jira Service Management,并了解它如何为开发和运营团队提供协作的灵活性,无论他们是在解决事件还是在灾难恢复模式下。