Close

针对高速团队的事件管理

如何选择事件管理工具

类别、主要功能和要查找的内容

事件管理没有单一的普适性工具。

表现最佳的事件团队使用一系列合适的工具、实践和人员。

有些工具特定于事件管理,其他工具则是您的团队也用于其他任务的更通用的工具。有些工具可能是基于集成和定制层的完全定制的体验。

无论用例如何,好的事件管理工具都有一些共同点。出色的事件管理工具开放、可靠和适应性强。

开放:在诸如事件之类的高压环境中,关键是正确的人员能够立即访问正确的工具和信息。这不仅适用于事件响应者,也适用于需要了解响应工作的公司利益相关者。

可靠:在事件响应期间,很少有比关键响应工具故障更糟糕的了。利用 Slack 和 Opsgenie 等云工具,可以尽可能地降低基础架构中断导致响应工具故障的风险。

适应性强:集成、工作流、附加组件、自定义和 API 等都开启了产品背后的可能性。您可能希望开始使用开箱即用的配置,但随着实践和流程的成熟,您将希望工具足够灵活,以支持不断变化的需求。

事件之前

监控

监控系统让 DevOps 和 IT 运维团队能够实时收集、汇总来自数千种不同服务的数据并触发警报。这些对于全面了解服务的运行状况至关重要,并且通常会在事件发生时敲响第一个警钟。

优势

监控工具可让您的团队持续洞察基础架构的运行状况。现代监控工具还可以在发生意外活动时主动触发警报。

优势

监控工具可让您的团队持续洞察基础架构的运行状况。现代监控工具还可以在发生意外活动时主动触发警报。

功能

Monitoring tools give your team constant insight into the health of the infrastructure. Modern monitoring tools also proactively trigger alerts during unexpected activity.

 

 

Feature Set

Questions to ask

24/7 coverage and analytics

Does the tool have visibility into all my servers and infrastructures?

Integrates with alerting tools

Can my team see real time analytics and dashboards and set alerting thresholds?

 

Does the product integrate with my alerting and on-call tool?

服务台

Service Desk 软件为客户和员工提供了报告事件和潜在事件的场所。

优势

除了许多其他用例(服务请求、IT 帮助台)外,Service Desk 还使您的团队能够从最重要的人员(即您的用户和客户)那里快速了解事件。

功能

 

 

Feature set

Questions to ask

Enable self serve

Can customers quickly file tickeCan customers quickly file tickets through a self-service support portal?

 

Can customers find the help they need with automated knowledge-based suggestions?

我们建议使用:Jira Service Management

警报和待命

及时可靠的警报是事件响应的关键一步。这就是团队如何确保正确的人员知道事件的方式。

优势

警报工具通过日程安排、上报路径和通知的复杂组合来通知指定的待命响应者。

功能

 

 

Feature set

Questions to ask

Works globally

Can I send notifications (SMS, voice, email) to almost anywhere?

Multiple notification methods

Can I send notifications using multiple notification methods like email, SMS, phone, and mobile app push and try them multiple times?

我们建议使用:Opsgenie

事件期间

利用配置管理数据库 (CMDB) 更快地解决问题

了解基础架构内部的相互依赖关系是确定事件的全部影响并更快地解决问题的关键。

优势

CMDB 可帮助您了解 IT 基础架构中的关系和依赖关系。如果出现故障,这张地图可以让您快速找到:

  • 事故的潜在原因。例如,单击按钮即可确定服务在哪个主机上运行。
  • 事件的涓滴效应。例如,发现在同一台故障的主机上运行的其他服务。

这意味着您可以快速调查和沟通事件的各个方面。

 

 

Feature set

Questions to ask

Multiple channels

How flexible is the CMDB? Can I store any CI or asset?

Integrations

Can I visualize my infrastructure graphically?

 

Can I link CIs/assets with my service desk issues?

 

Can I link CIs/assets to change requests?

我们建议使用:Insight

Insight 徽标

更快地对事件做出响应

在 Jira 中以原生方式绘制基础架构及其依赖项。快速找到并解决事件的原因,增加正常运行时间!

团队沟通

不可否认,在事件管理过程中,清晰可靠的沟通至关重要。

优势

稳固的沟通平台有助于团队沟通和分享已保存且带有时间戳的观察结果、链接和屏幕截图。这在事件发生期间将正确的信息和人员汇集在一起,创建了丰富的记录供事件后学习。

功能

 

 

Feature set

Questions to ask

Multiple channels

Can my incident response team quickly spin up a dedicated channel for an incident?

Integrations

Can other tools in my incident toolchain post into my team's communication channel?

我们建议使用:Slack(文字)、Zoom(视频)

客户沟通

客户沟通工具可帮助客户在事件期间随时了解情况。

优势

无法回避,事件对您的客户来说通常是一种糟糕的体验。让客户了解情况可以建立信任并加快响应工作。与客户沟通可以让他们知道您已知晓该事件并正在解决。

功能

 

 

Feature set

Questions to ask

Off of my infrastructure

Will my communication tool be operational and accessible even if my internal infrastructure is down?

Subscribers and notifications

Can customers opt in to get notifications when I post about an incident?

我们建议使用:Statuspage

事件指挥中心

事件指挥中心是事件的规范记录及其关键细节所在的任何地方。这可以是 Opsgenie 这样的事件工具,也可以是 Jira 这样的事务跟踪工具。

优势

指挥中心工具提供了一个地方,让每个人在事件发生期间和之后都能快速掌握最新动态,列出关键细节,例如事件状态、相关警报、更新等。它还提供了事件及其相关响应工作的历史记录。

功能

 

 

Feature set

Questions to ask

Source of truth

Can team members and stakeholders use this record to locate all the other details of the incident and response activities?

Timeline

Does the tool aggregate a chronological timeline of key events?

 

Can team members and stakeholders quickly get up to speed on the incident?

我们建议使用:Opsgenie

事件之后

事后分析和分析

事后分析是事件期间发生的事情以及为防止事件再次发生而采取的任何后续行动的书面记录。

优势

事件解决后,团队仍然往往不知道根本原因,有可能再次发生同样的事件。事后分析通过召集团队进行事后分析来帮助防止这种情况。

功能

 

 

Feature set

Questions to ask

Templates

Can my team use a template to fill out a postmortem?

Map out next actions

Can my team plan out next actions and remediation work during a postmortem?

我们建议使用:Opsgenie

事务跟踪

问题跟踪工具可帮助团队规划未来需要完成的补救工作。

优势

在许多情况下,解决事件会使服务重新上线,而没有解决根本原因。通常,为了补救根本原因并确保事件不会重演,还需要做更多的工程工作。事务和工作跟踪工具(希望您的团队已经在使用这些工具进行其他开发工作)有助于确保这项工作得到优先处理,不会遗漏。

功能

 

 

Feature set

Questions to ask

Shared workflow pipeline

Can my team plan any incident remediation work alongside their other work and priorities?

Integrations

Can my team pull in data and content from my other incident tools?

我们建议使用:Jira Software

后续内容
KPIs