Close

共同对抗并终结 Bad Service Management。立即注册 Jira Service Management,立享 10 个免费代理或 30% 的折扣

准备好开启 ITSM 高速之旅了吗?

什么是事件管理?

“事件管理”是指对计划外事件或服务中断做出响应,并将服务恢复为运行状态。根据 ITIL(IT 基础架构库)的说法,“事件管理流程可确保尽快恢复正常的服务运行,并将业务影响降至最低。”

事件是指任何中断或降低服务质量(或具有此类威胁)的事件。业务应用出现故障是一个事件。运行缓慢但尚未死机的 Web 服务器也是事件。它运行缓慢,并影响工作效率。更糟糕的是,它会导致更大的风险,即彻底瘫痪。

为了让所有人都保持同步,以下提供了一些相关术语的简略定义:

ITSM(IT 服务管理)是一种创建、支持和管理 IT 服务的常用方法。ITSM 的核心理念便是相信 IT 应该作为服务进行交付。事件管理是 ITSM 的其中一种核心实践。

ITIL 是一套 ITSM 最佳实践(可以将其视为小技巧)。

问题是指其背后的根本原因尚不清楚的一个或多个事件。上述事件提到了网络迟缓以及业务应用宕机,此时,路由器配置错误可能是这两个现象背后的根本问题。

事件管理作为 ITSM 实践的重要性

考虑到当今组织所依赖的所有软件服务,潜在的故障点比以往任何时候都多。事件影响也会非常巨大。研究表明,系统每停机一小时,重大事件就会造成 30 万美元的损失。对于某些基于 Web 的服务,这个数字可能会大幅提高。

明确定义事件管理流程有助于显著降低这些成本。明确定义流程的优势包括:

  • 更快速地解决事件
  • 减少因事件而给组织带来的成本或收入损失
  • 在事件发生期间改善内外部沟通
  • 持续学习和改进

事件管理流程

事件管理的关键在于,要有一个良好的流程并坚持下去。即便如此,这也会令人望而生畏。但好消息是,您可以通过其他数以千计的 IT 服务团队的经验来学习。

忙碌的成长型 IT 组织最常犯的一个错误就是浪费时间做无用功,并从头开始创建流程。我们应借鉴最佳实践而不浪费时间构建自己开发的工具来处理工作单。

以下是事件管理实践重要步骤的高级概述:

识别事件并进行记录

事件可能源自四面八方。如果网络中心位置不当且屋顶漏水,员工可以打电话给您报告此事件,或者您也可以通过吊顶板掉下来砸到您腿上来得知此事件。(这并不是我们的经验之谈......)

无论源自何处,前两个步骤都很简单:有人发现事件,然后另有人记录事件。

如果您收到已通过服务台记录的事件,则表明已完成前两个步骤。如果您接到电话,或者事件是通过电子邮件、短信或快递报告的,则服务台团队就应负责在服务台中妥善地记录该事件。

这些事件日志(即工作单)通常包括:

  • 事件报告人员的姓名
  • 事件报告的日期和时间
  • 事件描述(什么出现了问题或无法正常运行)
  • 为便于跟踪而分配给事件的唯一标识号

对事件进行分类

为每个事件分配一个直观的逻辑类别(并按需分配子类别)。如果不这样做,您之后就无法分析数据,也无法摸索趋势和模式,而这些措施正是有效管理问题和预防未来事件的关键组成部分。此外,还应确保选择可让您轻松自定义事件类别的 ITSM 服务台解决方案。

优先处理您的事件

必须确定每个事件的优先级。首先评估其对业务的影响。考虑将受其影响的人员数量以及潜在的财务、安全和法规遵从性方面的影响。此举有助您确定事件造成的棘手程度,以及企业必须解决的紧急程度。

在此情况下,最佳做法是在事件发生之前定义严重性和优先级,从而使事件经理能够更轻松地快速评估优先级。

当您对优先级有疑问时,可选择更高的优先级。宁可小心谨慎,也不要轻举妄动,以免一些严重的事情钻了空子。

设置这些优先级后,则应按优先级顺序处理所有未决事件。大多数组织都会围绕每个优先级制定明确的服务协议,这样客户就清楚要多快才能得到响应和解决方案。

响应

事件响应是一个相当宽泛的术语,因此我们将其进一步分解为在您确定事件、对其进行分类和按优先级排序后最有可能执行的步骤。

初步诊断

我们可以将此视为医院针对新患者的分诊功能。服务台员工正在围绕可能出现的问题进行快速假设,这样他们就可以着手解决问题,或者遵循适当的程序并整合合适的资源来解决问题。在此步骤中,知识库和诊断手册是非常有用的工具。

如果第一个做出响应的支持人员能够根据其初步诊断以及现有知识和工具解决事件,则该事件便可解决。否则,就需要上报。

事件上报

您的一线支持团队应能在不上报的情况下解决大量最常见的事件。但对于那些他们无法解决的事件,其目标就是收集和记录正确的信息,以帮助支持人员快速上手,这样他们就能迅速解决事件。

调查和诊断

ITIL 将此步骤称为自己的一个步骤。但实际上,它贯穿于整个事件生命周期。

从某种程度上说,第一个做出回应的支持人员在收集信息时便已在进行调查,甚至可能成功地诊断并解决事件,而无需进行任何上报。在此情况下,您便可直接跳过接下来的几个步骤:解决和恢复以及关闭事件。

否则,在您上报或引入外部资源以进行咨询和协助解决事件的每个步骤中,您都需要调查和诊断。

解决和恢复

最终,理想情况下,在既定的服务级别协议 (SLA) 范围内,您将得出诊断结论,并执行必要的步骤以解决事件。恢复仅指完全还原操作可能需要的时间,因为即使在确定了正确的解决方案后,某些修复程序(例如错误补丁等)也可能需要测试和部署。

事件关闭

然后,事件会被传回服务台(如果事件被上报)并关闭。为了保持质量并确保流程顺利进行,只允许服务台员工关闭事件,并且事件负责人应与报告事件的人员进行核实,以确认解决方案令人满意且实际已可关闭此事件。

摘要

事件管理流程可能看似过分正式,尤其当您的组织规模较小时。但是,无论您的团队结构如何,事件的生命周期都一样,且经常需要上报。不要跳过任何步骤!

事件/事故在所难免。但是,强大的事件管理流程则意味着您可以减少事件的影响并快速恢复服务。

想了解 Jira Service Management 中的事件管理?