Close

针对高速团队的事件管理

事件管理团队可从航空中学些什么?

众所周知,搭乘飞机是最安全的出行方式;几十年来,航空业一直在积极改进事件管理。事实上,在 1959 年,每百万次飞行有 40 起致命事件。十年后,这个数字掉到 2 起,如今则已降到 0.1 起。

一般而言,航空业的风险可能要高于软件业(与飞机设备故障相比,我们因电子商务中断而死亡的概率或许更低),但事件预防和管理的日常实践没有很大差别。两个行业都要管理风险,发出警报,而且必须克服警觉疲劳。两个行业都需要制定全天候处理紧急需求的时间表,都有不同严重性级别的事件。两个行业都会认真追踪 KPI,都要对公众和客户负责。

有鉴于此,科技业可以从航空业改进其事件管理和预防的坚定方法中学到一二。以下是团队可以从顶级航空公司那里偷学的五种做法:

在设计和发布时考虑事件管理

在航空和科技领域,在设计时考虑事件都可对这些事件造成的最终代价产生重要影响。

在航空业,1988 年推出的 16G 座椅增加了对头部和胸部受伤的保护,以及坠机时因变形而被困在座椅中的可能性。据估计,这些座椅 25 年来在挽救生命和避免伤害方面的收益达到了总计 7,890 万美元。一切都是因为在设计时考虑了发生事件的可能性

在科技界,我们从“谁构建,谁运行”的兴起中获得了类似的好处,这种做法融合了开发和事件管理的责任,其积极成果之一,负责开发技术的团队对事件风险更有意识,也更有可能努力预防这些风险并最大限度减轻其影响。

通过自动化减少出错机会

飞行员失误被列为航空灾难的最常见原因。对于软件和 IT 事件,人类往往是罪魁祸首。自动化在这两个阵营都可提供帮助,而且许多行业中已证明它能显著减少错误。因此,航空业每年都朝着更高水平的自动化发展,这非常合乎情理。如今,飞行过程中约 90% 是自动驾驶仪在工作,全自动方案也在测试之中。

也正是由于人为错误的多产性质,Atlassian 在事后分析中提出的一大问题是:我们可以对什么方面进行自动化,来防止这种情况再次发生?这是因为,问题常常可以通过一个简单技术修复来避免。

这方面有一个很好的例子,那是几年前在 Atlassian 发生的:

“某工程师在关键设备的配置文件中犯了一个严重语法错误,使整个公司瘫痪了 45 分钟。如果量化一下,那就是数十万美元... 是人都会犯错,这无法避免。问题在于,我们该如何减少人为错误发生的可能性?”

“最后,通过一个简单的永久修复,在加载配置文件之前对其进行自动的‘是否启动’检查,最终消除与系统配置的所有人工交互。如今,导致这次中断的问题已通过一个快速技术修复来避免。”

明确定义优先级,并围绕它们设计警报

如果说航空业最擅长什么,那就是无情地缩小优先事项范围。因为事实是,即使在紧急情况下,一些事务也比其他事务更为紧迫。而且,当飞机有坠落危险时,您希望飞行员非常明确地知道哪一种紧急状况需要他们注意,以及应当以什么顺序关注。

因此,尽管任何一刻计算机都在跟踪飞机上的 10,000 多个数据点,但所有航班中只有 10% 向飞行员发出过一次警报。飞行员是否需要知道窗户除冰器设置从高位变为中位?他们是否需要知道一台液压泵出现故障,已由另一台液压泵接管且不影响飞机或其飞行路线?根据航空专家的说法,答案都是否。

当需要警报(假如发生了引擎故障或机舱压力问题)并且确实显示在驾驶舱中时,其优先级非常清晰,不仅通过文字和红灯等视觉提示指示,还会通过音频和物理提示(例如转向机构摇晃或语音警告)来警示。

正如您预想的那样,警报级别最高的提示也最多。如果飞机即将俯冲,飞行员将收到红色文本信息、红灯提示、语音警告和转向机构摇晃。

往下一级是以上除了方向杆摇晃外的所有提示。再往下一级是以黄色亮灯和显示文本信息。而且,再往下一级不需要飞行员行动,只是屏幕上显示简单的黄色文本信息。这是一种严格的层次结构,方便飞行员知道需要注意什么。

设置较高的警报阈值

除了在警报中明确指出优先级外,航空业还非常擅长明白哪些需要警报,哪些绝对不需要。

最高优先级仅保留给最严重的紧急情况,在这种情况下,如果飞行员不立即采取明确行动,飞机就会坠落。

第二优先级的事务称为警告,也需要飞行员立即采取行动,但它们不会在恰好那一刻造成飞机坠落。这包括机舱失压或有撞机风险的交通冲突之类的事情。

第三级是提醒,需要飞行员留意,但不必立即做出反应。这正是明确彰显航空业残酷等级设定的地方。因为即使是引擎起火或单发故障也只值得划分在提醒这个级别

这种坚定地划分优先级的做法帮助航空业战胜了警觉疲劳,并确保了乘客安全。

准备好行动手册和清单

当警报响起并且飞行员得知空调设备出现故障(可能会导致机舱压力下降)或其中一台引擎处于危险之中时,航空业不是依靠飞行员训练来解决事件的。

这是因为,虽然飞行员训练会起到作用,但直接告知后续步骤会更加安全(更不用说速度更快了)。因此,驾驶舱警报会附带后续步骤清单,此清单设计为与特定的警报相对应。虽然不完全自动化,但这种方法也有类似的好处。系统不是完全依赖人员训练,而是阐明哪些要素最有可能解决问题。

航空业对优化 IM 实践的投入,揭示了包括科技在内的其他领域是如何不断完善其事件响应和管理的。

详细了解 Jira Service Management 如何帮助团队在事件发生后进行响应、解决和持续改进。