Close

针对高速团队的事件管理

什么是 IT 事件警报?

事件警报是指监控工具生成警报,以通知您的团队更改、高风险操作或 IT 环境中的故障。

例如,如果医生要求的剂量异常高、与患者档案中列出的体重不符,或者与其他常见药物存在药物相互作用的风险,则为允许医生开药而构建的系统可能会发出警报。

同样,如果系统离线、Web 请求的处理时间比平时长,或者数据库延迟速度超过设定的阈值,则为监控技术产品而构建的系统可能会生成警报。

IT 警报的目标是全天候快速识别和解决影响产品正常运行时间、速度和功能的事务,无需手动监控。

为什么 IT 警报很重要?

随着始终在线系统的重要性不断提高,停机期间成本也在不断提高,专家估计,平均每分钟成本在 $5,600 至 $9,000 之间。由于系统故障的每一分钟都非常昂贵,因此在事务失控之前发现事务会对业务利润产生重大影响(更不用说 IT 团队的时间表和压力水平了)。

IT 警报是防止系统中断或可能转变为重大事件的变化的第一道防线。通过自动监控系统并针对中断和危险更改生成警报,IT 团队可以最大限度地减少停机期间以及随之而来的高昂成本。

警报最佳实践

不可否认,IT 警报是事件管理的重要组成部分,但事实是,它们绝不是您可以设置后便忘记的简单解决方法。将警报阈值设置得过低会导致收件箱溢出、待命团队不满意以及警报疲劳。将阈值设置得过高可能意味着遗漏关键事务并使公司损失数百万。

这就是为什么在设置最有效的 IT 警报系统时要牢记这些最佳实践的原因。

实现监控自动化

快速有效地识别事务的最佳方法是自动化监控

数据库的响应速度是否比平常慢?用户在您的应用上的加载时间是否比平均水平慢?重要的系统停机了吗?您的一位技术人员提出了一个看似危险信号的请求吗?您的系统应该自动注意此类问题,并在出现这些问题时通知您。

设置智能警报阈值

每个警报都需要立即关注吗?对于大多数公司来说,答案是否定的,这就是为什么您需要设置合理的警报阈值。

知道某事项是否值得在半夜唤醒开发人员,或是否可以等到早上,这可能是响应速度快的开发人员与周末寻找新工作的警报疲劳团队之间的区别。

删除重复的警报

一项关于警报疲劳的研究发现,对于医院环境中的临床医生来说,每次出现重复警报时,警报注意力都会下降 30%。对于开发人员来说,研究结果可能一样。我们看到的相同警报越多,对它的关注就越少。因此,此处的最佳做法是消除重复警报并最大限度地减少提醒。

设置优先级和严重性级别

显然,一些警报比其他警报更重要。网站中断可能会优先于不常使用的功能的短暂放缓。恶意黑客攻击的优先级可能高于在应用中无法正确呈现的图像。

您的系统不仅应识别警报的优先级和严重性,还应将该优先级明确传达给负责解决事件的人员。这里的最佳做法是使用视觉、听觉和感官线索,快速而清楚地表明团队接下来应该关注什么。

使警报切实可行

知道问题出在哪里很好。知道下一步该怎么做会更好。这就是为什么如果您的警报不可行,它们本应是可行的。

这是 DevOps 团队可以向航空业学习的地方。飞行期间,当飞行员的仪表板上出现警报时,它会附带一份可行的清单。在警报系统中构建此类细节可以缩短诊断时间,并帮助开发人员快速完成您的流程。

当开发人员半夜熬夜、眼神呆滞、不在状态时,这尤其有用。

选择正确的警报技术

开发遵循这些最佳实践的 IT 警报系统意味着提前对警报有策略性。这也意味着要选择正确的技术来做到这一点。选择供应商时,我们建议寻找:

多个警报渠道

在提醒方面,电子邮件通常是首选渠道。但事实是,电子邮件并不总是能减少警报。对于紧急警报,您可能想要或需要短信、移动推送通知,甚至是语音电话。寻找一个允许您以各种方式发出警报的系统。

丰富警报内容

可行的警报是非常详细的警报。这意味着一条短信并不总是足够。谨防严格的字符限制,寻找可以附加图表、日志、运行手册和清单的技术,以便为警报提供更多背景信息,并让开发人员知道下一步该怎么做。

自定义警报操作

大多数警报技术都允许您在警报中添加注释或关闭警报。但是有时候两者之间会有一些步骤。比如上报警报以进行进一步调查、创建服务工作单或重启服务器。寻找能够让您做更多事情的技术解决方案,而不仅仅是开启和关闭。

自动化操作

对于某些警报,接下来要做的事情很复杂,需要有经验的开发人员的见解。对其他人来说,前进的道路很明确。

对于包含明确后续步骤(诊断测试、补救措施)的警报,您需要一个系统自动触发这些响应,以响应符合预定义标准的警报。

例如,如果数据库速度变慢,也许您可以将警报系统设置为自动切换到备份数据库。如果解决事务 A 的第一步始终是重启服务器,则可以将警报系统设置为在发出半夜警报之前重启服务器并监控结果。

警报自定义和分类

随着警报的到来,您的团队应该能够整理警报,给警报标记其他信息并进行筛选。

警报生命周期跟踪

在您的事件事后分析中,您会想知道警报何时到达、谁收到了警报、他们何时看到警报以及采取了什么行动。确保您选择的任何技术都会自动跟踪这些细节。这将使您更容易了解什么有效,什么无效,提高您的关键绩效指标,并记录过去的事件,以便待命团队可以从中学习,并在未来事件中参考这些经验教训以备。

警报和通知策略

如果此处的最佳做法是为警报设置智能阈值,并确保小事务不会在开发人员处于快速眼动睡眠状态时唤醒他们,那么您需要能够根据警报的内容和时间来抑制、延迟和加快警报的技术。

实时监控您的监控

在任何给定时刻,您怎么知道您的警报系统已经启动并运行?

有了正确的技术,答案应该是技术人员有自己的监控系统。借助 OpsGenie,我们可以使用名为 Heartbeats 的工具来做到这一点,该工具会持续检查监视工具是否处于活动状态和连接状态,以及自定义任务是否按时间表完成。如果信号下降,系统会立即提醒您。