Close

针对高速团队的事件管理

如何选择事件管理工具

类别、主要功能和要查找的内容

事件管理没有单一的普适性工具。

表现最佳的事件团队使用一系列合适的工具、实践和人员。

有些工具特定于事件管理,其他工具则是您的团队也用于其他任务的更通用的工具。有些工具可能是基于集成和定制层的完全定制的体验。

无论用例如何,好的事件管理工具都有一些共同点。出色的事件管理工具开放、可靠和适应性强。

开放:在诸如事件之类的高压环境中,关键是正确的人员能够立即访问正确的工具和信息。这不仅适用于事件响应者,也适用于需要了解响应工作的公司利益相关者。

可靠:在事件响应期间,很少有比关键响应工具故障更糟糕的了。利用 Slack 和 Opsgenie 等云工具,可以尽可能地降低基础架构中断导致响应工具故障的风险。

适应性强:集成、工作流、附加组件、自定义和 API 等都开启了产品背后的可能性。您可能希望开始使用开箱即用的配置,但随着实践和流程的成熟,您将希望工具足够灵活,以支持不断变化的需求。

事件管理循环示意图

事件之前

监控

监控系统让 DevOps 和 IT 运维团队能够实时收集、汇总来自数千种不同服务的数据并触发警报。这些对于全面了解服务的运行状况至关重要,并且通常会在事件发生时敲响第一个警钟。

优势

监控工具可让您的团队持续洞察基础架构的运行状况。现代监控工具还可以在发生意外活动时主动触发警报。

功能

服务台

Service Desk 软件为客户和员工提供了报告事件和潜在事件的场所。

优势

除了许多其他用例(服务请求、IT 帮助台)外,Service Desk 还使您的团队能够从最重要的人员(即您的用户和客户)那里快速了解事件。

功能

 

功能集

要问的问题

 

功能集

启用自助服务

要问的问题

客户能否通过服务门户快速提交工作单?

客户能否通过基于知识的自动建议找到所需的帮助?

我们建议使用:Jira Service Management

警报和待命

及时可靠的警报是事件响应的关键一步。这就是团队如何确保正确的人员知道事件的方式。

优势

警报工具通过日程安排、上报路径和通知的复杂组合来通知指定的待命响应者。

功能

 

功能集t

要问的问题

 

功能集t

全球工作

要问的问题

我能否向世界上的任何地方发送通知(短信、语音、电子邮件)?

 

功能集t

多种通知方法

要问的问题

我能否使用多种通知方法(如电子邮件、短信、电话、手机应用推送)发送通知并多次尝试?

我们建议使用:Opsgenie

事件期间

利用配置管理数据库 (CMDB) 更快地解决问题

了解基础架构内部的相互依赖关系是确定事件的全部影响并更快地解决问题的关键。

优势

CMDB 可帮助您了解 IT 基础架构中的关系和依赖关系。如果出现故障,这张地图可以让您快速找到:

  • 事故的潜在原因。例如,单击按钮即可确定服务在哪个主机上运行。
  • 事件的涓滴效应。例如,发现在同一台故障的主机上运行的其他服务。

这意味着您可以快速调查和沟通事件的各个方面。

 

功能集

要问的问题

 

功能集

多个渠道

要问的问题

CMDB 的灵活性如何?我能否存储任何 CI 或资产?

我能否以图形方式可视化我的基础架构?

 

功能集

Integrations

要问的问题

我能否将 CI/资产与我的服务台事务关联?

我能否将 CI/资产关联到更改请求?

我们建议使用:Insight

Insight 徽标

更快地对事件做出响应

在 Jira 中以原生方式绘制基础架构及其依赖项。快速找到并解决事件的原因,增加正常运行时间!

团队沟通

不可否认,在事件管理过程中,清晰可靠的沟通至关重要。

优势

稳固的沟通平台有助于团队沟通和分享已保存且带有时间戳的观察结果、链接和屏幕截图。这在事件发生期间将正确的信息和人员汇集在一起,创建了丰富的记录供事件后学习。

功能

 

功能集

要问的问题

 

功能集

多个渠道

要问的问题

我的事件响应团队能否快速为事件启动专用渠道?

 

功能集

集成

要问的问题

我的事件工具链中的其他工具能否发布到我团队的沟通渠道中?

我们建议使用:Slack(文字)、Zoom(视频)

客户沟通

客户沟通工具可帮助客户在事件期间随时了解情况。

优势

无法回避,事件对您的客户来说通常是一种糟糕的体验。让客户了解情况可以建立信任并加快响应工作。与客户沟通可以让他们知道您已知晓该事件并正在解决。

功能

 

功能集

要问的问题

 

功能集

脱离我的基础架构

要问的问题

即使我的内部基础架构出现故障,我的通信工具是否可正常运行和访问?

 

功能集

订阅者和通知

要问的问题

当我发布有关事件时,客户可以选择接收通知吗?

我们建议使用:Statuspage

事件指挥中心

事件指挥中心是事件的规范记录及其关键细节所在的任何地方。这可以是 Opsgenie 这样的事件工具,也可以是 Jira 这样的事务跟踪工具。

优势

指挥中心工具提供了一个地方,让每个人在事件发生期间和之后都能快速掌握最新动态,列出关键细节,例如事件状态、相关警报、更新等。它还提供了事件及其相关响应工作的历史记录。

功能

 

功能集

要问的问题

 

功能集

数据源

要问的问题

团队成员和利益相关者能否快速了解事件?

团队成员和利益相关者能否使用此记录来定位事件和响应活动的所有其他详细信息?

 

功能集

Timeline

要问的问题

该工具是否汇总了关键事件的时间线?

我们建议使用:Opsgenie

事件之后

事后分析和分析

事后分析是事件期间发生的事情以及为防止事件再次发生而采取的任何后续行动的书面记录。

优势

事件解决后,团队仍然往往不知道根本原因,有可能再次发生同样的事件。事后分析通过召集团队进行事后分析来帮助防止这种情况。

功能

 

功能集

要问的问题

 

功能集

模板

要问的问题

我的团队可以使用模板填写事后分析吗?

 

功能集

规划下一步行动

要问的问题

我的团队能否在事后分析期间规划下一步行动和补救工作?

我们建议使用:Opsgenie

事务跟踪

问题跟踪工具可帮助团队规划未来需要完成的补救工作。

优势

在许多情况下,解决事件会使服务重新上线,而没有解决根本原因。通常,为了补救根本原因并确保事件不会重演,还需要做更多的工程工作。事务和工作跟踪工具(希望您的团队已经在使用这些工具进行其他开发工作)有助于确保这项工作得到优先处理,不会遗漏。

功能

 

功能集

要问的问题

 

功能集

共享的工作流水线

要问的问题

我的团队能否计划任何事件补救工作以及他们的其他工作和优先事项?

 

功能集

集成

要问的问题

我的团队能否从我的其他事件工具中提取数据和内容吗?

我们建议使用:Jira Software

Up Next
KPIs