Close

针对高速团队的事件管理

了解如何创建事件响应行动手册

从我们的手册中吸取经验。

我们在 Atlassian 的使命是释放每个团队的潜力。我们都知道,优秀团队有什么共同之处?他们都使用行动手册来管理流程,以保持组织平稳运行。

本文将介绍 5 个关键步骤,以创建有效的事件响应行动手册。我们将使用自己的Atlassian 事件 管理行动手册 作为模板,以制定事件响应计划。

为什么敏捷开发团队需要事件行动手册

事件行动手册为团队提供实时响应和解决事件的标准程序和步骤。行动手册还包括正常时期的训练和练习,这将有助于团队为下一次事件做好准备。

在 Atlassian,我们的事件团队不断培训、完善、测试和改进事件管理流程。我们开发事件响应行动手册,其目的是:

  • 指导员工和团队在事件和事后分析中进行自主决策。
  • 建立一致的团队文化,包括如何确定、管理事件以及从事件中吸取教训
  • 就团队应该对事件识别、解决和反思的每个部分采取的态度,让团队达成共识。

事件响应行动手册的内容是什么?

行动手册是 DevOps 和 IT 运维事件管理以及网络安全的关键组件。行动手册制定了组织应对计划外中断的政策和实践,有助于团队整顿混乱,并确保每个人都能始终如一地应对事件和安全威胁。

事件管理行动手册为您的团队提供了一套流程,针对所有事件做出响应、解决问题并吸取经验教训,无论是安全事务还是其他新出现的漏洞。内容包括运行手册、清单、模板、培训练习、安全攻击场景和模拟演习等内容。

制定事件响应行动手册

在创建Atlassian 事件管理行动手册时,我们确定了 5 种管理事件的最佳实践方法。这些步骤可以转至各种 DevOps 和 IT 运维团队,并对构建有效事件响应行动手册流程具有指导意义。

1. 为您的组织定义事件

内容包括:构成事件的具体定义

原因:如果您不知道事件何时发生,您将无法有效地解决事件。不同团队定义事件的方式有所不同。一旦出现问题,必须争分夺秒,而且您无需就语义与同事争辩。

示例:

《Atlassian 事故管理行动手册》中出现的事件定义:

什么是事件?

我们将事件定义为:需要紧急响应的服务中断或服务质量下降事件。遵循 ITIL 或 ITSM 实践的团队可能会使用术语“重大事件”指代我们所说的“事件”。

受影响的服务以惯常方式恢复正常功能后,事件就得到解决。这仅包括恢复全部功能所需的任务,不包括后续任务,例如根本原因识别和缓解措施,因为它们属于事后分析。

事件事后分析是在事件后执行,目的是确定根本原因并安排行动,确保事件不会重复发生。

2. 建立预先指定的角色

内容包括:事件角色和职责

原因:正确的事件响应行动手册明确规定了角色和职责。事件响应团队的成员熟悉每个角色,并且清楚知晓在事件发生期间的职责。

示例:

我们在 Atlassian 使用的角色已准备就绪,以确保涵盖所有必要的步骤,不会发生重复性工作,沟通顺畅高效。

  • 事件经理,对事件承担总体责任,并拥有总体权限。有权采取任何必要措施来解决事件,包括呼叫组织中的其他响应者,并督促参与事件的人员专注于尽快恢复服务。
  • 技术主管,是高级技术响应者。负责制定有关故障及其原因的猜想、决定做出的更改以及管理技术团队。与事件经理密切合作。
  • 沟通管理员,熟悉公众沟通的人员,可能来自客户支持团队或公关部门。负责撰写和发送内部和外部通信。

3. 强制执行一致的流程

内容包括:流程步骤和工作流程

原因:没有两起事件是完全相同的。但这并不意味着您的响应者无法引入一致的工作流程以响应事件。

概述关键步骤和阶段,并确保团队成员清楚每个阶段的预期内容以及接下来会发生什么。例如,Atlassian 概述了分为三个阶段、七个步骤的事件响应流程,以推动事件从检测到解决。

示例:

事件响应缩略图

检测到新事件后,事件经理开始启动内部沟通和响应组织。然后,团队就能够开始着手确定事件原因,并达成解决方案。在此阶段,良好的组织有助于推动操作,而这得益于高频沟通。坚持一致的流程可以迅速解决问题,包括我们将在下文介绍的事后分析练习。

4. 启用快速响应

内容包括:模板和清单

原因:事件行动手册必须足够简单,以便团队在压力时期能够遵循。我们自己的流程包括一份重大事件经理“速查表“,其中以一页的格式概述了评估、上报和委派等关键步骤。

遵循预先确定的事件响应流程并不意味着没有即兴创作的余地。您必须保持灵活性,明白何时应该根据不断变化的情况做出调整。顾名思义,事件是指事情没有按计划进行的情况,但这并不意味着您无法为它们做好计划。经常进行训练和练习的球队,通常能走向成功。

使用此模板:

尝试播放事件响应价值视频。 提高团队凝聚力,并在事件发生前解决任何潜在的误解。使用我们的资源Atlassian 团队使用手册,更好地了解团队的流程,从而构建一本充满活力的行动手册。

5. 促进全面的事后分析

内容包括:事后分析过程和事务字段的概述

原因:事后分析旨在通过了解所有促成原因、记录事件和模式发现,以供将来参考,并采取有效的预防措施来降低事件复发的可能性或影响,从而最大限度地提高事件的价值。

如果您认为事件是对系统可靠性的计划外投资,那么事件事后分析意味着您如何最大限度地提高投资回报。

试用此模板:

为了使事后分析有效,该过程必须使团队能够轻松确定原因并进行修复。您使用的确切方法取决于您的团队文化;在 Atlassian,我们发现了适用于事后分析团队的多种方法:

  • 面对面会议有助于推动适当的分析,并使团队在需要解决的问题上达成一致。
  • 交付和运维团队经理给出对事后分析的审批,以此激励团队全面执行事后分析。
  • 根据分配的服务级别目标 (SLO),指定优先操作,并附上提醒和报告,以确保这些操作完成。

《事件管理行动手册》第 46 页提供了有关 Atlassian 事件响应事后分析的分步概述。

最终,应使用事件响应行动手册来推动团队有效合作,以尽快解决事件。当事件发生时,没时间争论最佳实践和互相指责。内容详尽且精心设计的行动手册有助于团队实现最佳工作成果。Atlassian 的《事件管理行动手册》详细介绍了所有操作指南。

Up Next
On call