Close

针对高速团队的事件管理

Atlassian 事件手册

如今,提供技术服务的团队都需要全天候待命。

出现问题时,无论是服务中断还是功能损坏,团队成员都需要立即做出响应并恢复服务。这个流程称为事件管理,对于大大小小的公司来说,这是一项持续而复杂的挑战。

我们希望帮助各地的团队提高事件管理能力。受到 Google 等团队的启发,我们编写了本手册,总结了 Atlassian 的事件管理流程。这些是我们十多年来在响应事件时积累的经验教训。本手册基于我们自己的经验,但我们希望它能够为您的团队带去一些启发。

事件管理手册

获取印刷版或 PDF 版手册

印刷版《事件管理手册》限量供应,可应要求免费寄送。或者,也可下载 PDF 版本。

我们希望帮助各地的团队提高事件管理能力。受到 Google 等团队的启发,我们编写了本手册,总结了 Atlassian 的事件管理流程。这些是我们十多年来在响应事件时积累的经验教训。本手册基于我们自己的经验,但我们希望它能够为您的团队带去一些启发。


本指南面向哪些人?

如果您所在的开发或运维团队为需要全天候服务的客户提供互联网服务,那么本手册可以帮助您。


什么是事件?

我们将事件定义为:需要紧急响应的服务中断或服务质量下降事件。遵循 ITIL 或 ITSM 实践的团队可能会使用术语“重大事件”指代我们所说的“事件”。

受影响的服务以惯常方式恢复正常功能后,事件就得到解决。这只包括恢复完整功能所需的那些任务。

事后析误是在事件后执行,目的是确定根本原因并安排行动,确保事件不会重复。


我们的事件价值观

事件管理流程无法涵盖所有可能的情况,因此,我们用“价值观”的形式为我们的团队提供一般性指导。与 Atlassian 的公司价值观类似,我们的事件价值观旨在:

  • 指导员工和团队在事件和事后分析中所做的自主决策。
  • 就我们如何确定、管理事件以及从事件中学习,在团队之间建立一致的文化。
  • 就团队应该对事件识别、解决和反思的每个部分采取的态度,让团队达成共识。
阶段 事件价值观 相关的 Atlassian 价值观 基本原理
1. 检测 Atlassian 在客户之前知道

用心构建,寻求平衡

均衡的服务包括充分的监控和警报,以便在客户之前检测到事件。

最佳的监控可以在问题成为事件之前提醒我们。

2. 响应 上报、上报、上报

作为一个团队进行工作

没有人喜欢被吵醒,并且我们也不会掉以轻心。但是员工知道,偶尔自己会因为某些事件而被吵醒,尽管后来事实证明并不需要。通常更困难的是醒来时看到重大事件,然后拼命赶进度,而您本可以更早收到警报。

我们不会总是得到所有答案,因此“不要犹豫,请上报”。

3. 恢复 如果不幸的事情发生了,立即解决 不要叨扰客户

我们的客户并不关心服务出现问题的原因,他们只想让我们尽快恢复服务。

毫不犹豫地迅速解决事件,以便我们可以最大限度地减少对客户的影响。

4. 学习 始终不去指责 开放的公司,绝无虚言 运行服务就难免会出现事件。我们通过让团队当责而不是指责来改善服务。
5. 改进 永远不要让相同的事件发生两次 实现您寻求的改变

确定根本原因,找出可以做出哪些更改以阻止所有类似的事件再次发生。

努力按指定日期提供指定的更改。


工具要求

这里介绍的事件管理流程使用了一些 Atlassian 的工具,读者可以根据需要替换:

  • 事件跟踪 - 每个事件都会作为 Jira 事务进行跟踪,并创建一个后续事务来跟踪事后分析的完成情况(Atlassian 使用的是高度自定义的 Jira Software 版本)。
  • 聊天室 - 实时文字沟通渠道是一个团队诊断和解决事件的基础。
  • 视频聊天 - 对于大多数事件,Blue Jeans 等团队视频聊天工具可以帮助您讨论方法并达成一致。
  • 警报系统 - 类似 OpsGenie 等的工具,可管理随时进行的轮换和上报。
  • 文档工具 - 我们使用 Confluence 创建我们的事件状态文档,并通过博客分享事后析误。
  • Statuspage - 通过 Statuspage 与内部利益相关者和客户沟通状态,这有助于让每个人都参与其中。

事件跟踪

每个事件作为 Jira 事务进行跟踪,并创建一个后续事务来跟踪事后分析的完成情况。本手册中的流程参考了我们高度自定义的 Jira Software 版本。

事件事务通常由支持工程师创建以响应客户请求单,或者由把监控警报识别为事件的开发人员创建。我们建议,如果大家担心某些事情,就创建一个事务,而不要坐等事态恶化。

在 Jira 中,我们有一个简单的工作流,可以在整个解决阶段跟踪事件,并记录事件响应期间采取的所有重要行动。


事件管理员

每个事件都由事件管理员 (IM) 推动,该管理员对事件负有全面的责任和权力。这个人由事务的经办人指定。事件管理员有权采取任何必要的行动来解决事件,其中包括呼叫组织中的任何人,以及让事件涉及的人员尽可能快地恢复服务。

事件管理员是一个针对事件的角色而不是个人。在事件期间定义角色,其优点是可以更换人员。只要指定的人员知道如何承担角色,就可以在任何事件中承担这一角色。


Have ideas or suggestions for this guide?