Close

针对高速团队的事件管理

了解和对抗警报疲劳

2013 年,美国一家顶级医院有一名 16 岁男孩服用了 3800% 的过量药剂

医院的内置警报系统注意到了过量药剂的命令,并向医生和药剂师发送了警报。然而,不久之后,男孩给药过量,癫痫发作、全身麻木,医生拼命开始抢救男孩的生命。

待命手册 PDF 预览

下载我们的待命手册

通过本基本指南了解如何创建和实施有效的计划

怎么会发生这种情况,尤其是当安全系统在药物送到男孩床边之前就发现了问题时?

答案是警报疲劳。

医生和药剂师都忽略了系统的警报,因为同一个系统会为他们每天处理的数百种处方中的约 50% 生成警报。他们已经了解到这些警报中的大多数都是误报,而且,作为一种应对机制,他们充其量只是粗略地看一眼。

因此,本应服用一粒药片的男孩服用了 38 粒。尽管他最终活了下来,但对他的健康造成了重大影响。

这样的故事在医院和航空业中很常见,而且往往是致命的。事实上,2013 年的一项调查发现,20 家医院中有 19 家将警报疲劳列为头号安全问题。

尽管风险各不相同,但 IT 和 DevOps 团队在监控推动我们业务发展的始终在线的技术时,警报疲劳也很常见。

什么是警报疲劳?

警报疲劳(也称为报警疲劳)是指大量警报使负责响应警报的人员失去敏感性,从而导致错过或忽略警报或响应延迟。

大多数人认为,主要问题是警报数量太多。即使单个警报中断了待命员工的正常工作或空闲时间,它也很容易响应。连续十几个警报就比较困难。而且,这个数字攀升得越高,员工错过重要事情的可能性就越大。

许多警报都是误报,这一事实使加剧了事务的复杂性。在医疗行业,研究表明,所有临床警报中有 72% 至 99% 是误报。在安全方面,一项调查发现,52% 的警报是误报,64% 是多余的。

如此大量的误报训训练得工作人员假定大多数警报都是误报并采取相应的行动,就像上面的医生和药剂师都关闭了系统剂量过量警报,假定这是又一个无足轻重的警报。

警报疲劳的三个阶段
事件疲劳的三个阶段

警报疲劳的心理

警报疲劳是医院面临的十大安全问题之一,因为心理上将频繁的警报拒之门外是对大量警报的典型心理反应。

造成这种情况的原因就是我们所说的正常化、灵敏度降低或习惯 —— 这三个概念本质上指同一件事:您接触某物的次数越多,您就越能容忍、正常化和忽略它

这适用于工作和工作以外的生活。例如,男性主角过于执着的浪漫电影在很大程度上影响了女性对现实生活中跟踪行为的容忍度。对挑战者号航天飞机上主要 O 形圈的淡漠态度正常化导致了 1986 年挑战者号爆炸。而且,当亚利桑那州的石化森林国家公园张贴标语阻止人们偷走公园的石化木头时,这些标牌适得其反,使盗窃正常化并增加了盗窃行为

就像无休止的恶作剧电话可能导致您屏蔽号码或关闭手机一样,无休止的误报、多余或不重要的警报通常会导致忽略它们。这是人性。

而且,这里起作用的不仅仅是警报的正常化。重复相同的警报会导致更大的警报疲劳。一项研究发现,对于临床医生来说,每次提醒接受警报的可能性都会下降 30%。

警报疲劳的风险

错过或忽略警报

就像上面不幸住院的青少年的例子一样,警报疲劳的最大风险是错过或忽略了警报。当警报系统喊太多次狼来了或者没有区分危险警报(例如 3800% 的药剂过量)和次要警报(例如 0.1% 的药剂服药)时,工作人员会调整自己减少对这些警报的关注。

在 DevOps 和 IT 运维中,这可能会导致更多的事件以及收入、成本和品牌声誉方面的重大后果。

缓慢响应时间

警报疲劳也会影响响应时间。即使警报没有被遗漏或永久忽略,它们也可能会被暂时忽略。毕竟,如果最后收到的 10 个警报是误报,那么待命员工在第 11 次警报时放弃晚饭或睡觉的可能性是否与第 1 次警报时相同?或者他们可以给出先吃完晚饭的正当理由?

倦怠

持续警报、睡眠中断和收件箱已满是员工倦怠的根源,可能导致流失率更高、工作满意度更低和生产力更低。

如何避免警报疲劳

警报疲劳在各个行业都是一个严重的问题,而且会带来一些可怕的后果。那么,我们如何避免忽略的警报、缓慢的响应时间和员工的倦怠呢?专家们指出,警报流程和政策本身是前进的方向。

设置智能阈值

防止警报使待命专业人员不堪重负的一种方法是为他们设置智能阈值。这里的关键问题是:每个警报都需要立即关注吗?所有警报创建时是否都是等同的?哪些事务需要立即发出警报,哪些事务可以在正常工作时间内处理?

答案永远是平衡举措。因为警报过少可能意味着错过了事件,但警报过多也可能因警报疲劳而导致错过事件。

对于任何科技公司来说,平衡举措非常艰难,但是如果不试图找到这种平衡,系统通常会在警报过多的情况下出错,并造成导致 3800% 药剂过量的这些情况。

航空业似乎在成功对抗警报疲劳方面处于遥遥领先,部分原因是他们将阈值设定得很高。计算机可以跟踪超过 10,000 个数据点,但有任何警报(即使是次要警报)的航班的百分比低于 10%。

正如机长 Chesley “Sully” Sullenberger 在 Medium Backchannel 中的一篇文章中指出的那样:

“现在优先考虑驾驶舱内的警告,这样您就不会感到警报疲劳...... 我们非常努力地避免误报,因为误报是您可以对任何预警系统所做的最糟糕的事之一。这只会让人们将它们排除在外。”

设置分级警报优先级

如果不是创建时所有警报都等同,则它们不应该在医生的批准表、开发人员的收件箱或飞行员的仪表板中等同显示。设置警报优先级并使用视觉、听觉和感官提示来指示重要性,可以大大减少警报疲劳。

在 3800% 的药剂过量的案例下,问题的很大一部分是系统的警报阈值非常低,每个警报的优先级都相同。0.1% 的药剂过量警报看起来与 3800% 的药剂过量警报相同。而且,50% 的药物请求会产生这些警报,临床医生已经学会了忽略所有这些警报。

同样,航空业树立了一个很好的榜样,它不仅积极地为自己的优先事项设定等级,而且还通过各种视觉和感官线索清楚地表明优先级。飞行员的仪表板上唯一出现红色警报(红灯、红色短信、语音警告和转向机构振动)是飞机有失速的直接危险,飞行员必须立即采取行动。没有人希望忽略这些警报,因此他们有自己的特殊类别。

其他警报——甚至对我们这些经常飞行的人来说听起来具有警示的警报,例如发动机起火或机舱压力损失——都降级为警告(将影响飞机飞行路线的事件)、警示(需要飞行员立即意识但可能不需要立即采取行动的事件)和建议(不需要采取任何行动但飞行员应该知道发生了什么事的事件)。

随着警报重要性的下降,围绕该警报的视觉、听觉和感官线索也在下降。“警告”采用红灯、短信和语音警报(尽管不是转向机构摇晃)。“警示”通常会触发琥珀色灯光和短信。此外,“建议”是琥珀色的短信,没有灯。

根据这些线索,如果飞行员正在处理另一项重要任务或一系列需要优先处理的警报,他们知道哪些警报需要优先关注,哪些警报可以暂时被合理忽略。

确保警报切实可行

与具体、可行的警报相比,模糊的警报需要更多的专注度、注意力和时间。对于那些已经因警报数量之多而感到疲劳的员工来说,需要更多的专注度和注意力是生产力低下和错过警报的根源。

这是我们可以向航空业学习的另一个地方。对于飞行员仪表板上显示的每种警报,还有一个与警报相匹配的可行的清单。

整合冗余警报

冗余警报是警报疲劳的主要罪魁祸首之一。一项研究发现,每次提醒相同警报,接收警报的人员的注意力就会下降 30%。另一项研究发现,安全系统中的所有警报中有 60% 以上是冗余的。

整合这些警报并尽可能减少提醒有助于使警报负载更易于管理,从而提高员工的注意力。

创建平衡的时间表

即使使用智能阈值和分层系统,公司(尤其是大型公司)也可能要处理大量警报。

一旦您对系统进行了优化,那么关注流程和人员也很重要。您有足够的待命专业人员吗?警报的负担是否过于沉重地落在一个人或团队身上,是否可以分担这个负担?警报的频率有多高?是否有某些时候需要更大或更少的覆盖范围?

整合信息

典型的 DevOps 专业人员至少使用五种工具来深入了解性能事务。这意味着有多种警报位置、样式和类型。这也意味着大量的重复工作。如果五个系统中的每一个都有类似的警报,则您的警报审查工作量实际上增加了 500%。

您越能整合警报和信息,就越能减少对这些警报和随附信息进行分类的疲劳。

优先考虑持续审查和改进

对于警报疲劳及其带来的危险,没有单一的普适性解决方法。必须定期审查您的流程、警报和系统,以确保您达到适当的平衡。

警报会被错过吗?如果是,为什么?您设置的阈值是否过高或过低?视觉线索不起作用吗?工作人员是否已将警报正常化,更改其设计会提升注意力吗?应该定期重新审视这些问题以及其他类似问题。

探索 Jira Service Management 与 Opsgenie 的整合优势,并了解警报灵活性和定制功能如何发挥作用。