Close

更好的事件管理之路从这里开始

不同待命管理方法的优缺点

世界比以往任何时候都更加依赖服务。中断可能会影响数百万人,并产生真正的影响:他们无法支付账单,无法预订航班,无法与朋友进行视频通话。

而且,无论您是遇到重大错误、容量事务还是完全停机,依赖您服务的客户都希望立即得到响应。(内部团队也是如此。)

事件不仅会对美元产生真正的影响(仅在北美每年就使企业损失 $7000 亿),而且还会影响您的公司、产品和团队的声誉。

由于风险如此之大,团队开始让 IT 和开发人员团队随时待命,以确保组织在事件发生期间(无论何时发生)都有合适的人员来解决问题。

公平的待命时间表,再加上待命奖励计划,甚至可以培养分担责任的文化,并帮助您的团队更多地了解如何制作弹性软件和服务,从而实现更好的整体产品和较少的中断。

什么是待命?

待命是一种指定特定人员在出现紧急服务事件时在特定时间待命的做法,即使他们没有正式值班。

待命是许多 IT、开发人员、支持和运维团队的关键职责,他们在客户期望全天候待命的情况下运行服务。团队成员轮流为待命轮换换班,要么全天候提供覆盖,要么仅在正常工作时间以外提供覆盖。除了自动监控和警报解决方案外,待命工程师还能够对服务可用性的任何中断立即做出响应。

待命对于 IT 和软件团队的重要性日益提高

有时待命工作广受诟病。一些资深的 IT 员工讲述了在团队中工作的可怕故事,这些团队太过紧张,得不到正确应对事件所需的支持。

如果待命支持做得正确,这种焦虑可以缓解很多。借助有效的待命计划,您可以确保您的团队能够进行扩展以适应不断扩展的服务,为关键 IT 职能部门提供一致的覆盖范围,并迅速做出事件响应。

良好的待命管理计划所带来的好处不仅仅是度过停机期间。每一次失败,团队都有机会学习新技能,比如更好地了解关键服务,了解它如何应对故障,知道如何设计减少故障或改进事故响应计划。

而且,在分担责任的文化基础上制定良好的待命方案也可以改善友情和减少倦怠,这反过来又可能带来更高的员工保留率。

待命的优缺点

在实践 DevOps 的组织中,软件团队要为自己构建的服务的可靠性和可用性承担很多责任,而这项工作曾经是运维团队的专属领域。对于其中许多团队来说,“谁构建,谁运行”是新的座右铭。由于对代码最熟悉,开发人员通常是能够在最短的时间内最好地解决事务的人。

而且,通过这个流程,开发人员可以构建更好的软件,实际上失败的可能性较小。随着责任的转移,他们对代码的测试更加严格,因为如果服务有事务,实际上他们可能是在下班时间引入事务的人。

结果是系统更具弹性,随着更多的人员有空且有能力处理事件,倦怠的员工就会减少。

如果没有良好的待命方案,组织将无法实现 DevOps 的所有文化优势,也无法满足扩展基础架构的需求。如果一个团队比另一个团队承担更多应对事件的负担,他们就没有能力很好地完成日常工作。开发人员无法实施来自事件的反馈,事件响应者也没有能力强化其系统。

如果责任不平衡,那么那些待命时间表预定的人永远无法真正脱离工作,很容易陷入倦怠。

但是,如果计划考虑了组织的真实覆盖要求,平衡开发人员和 IT 运维团队的时间负担,并捕获数据以进行持续改进,则可以带来全方位的收益。它不仅可以为客户提供更好的服务,还可以帮助员工提高技能及其产品,并真正期待投入待命时间。

如何改进待命开发人员角色

“我迫不及待地想花一整晚的时间监督这次部署并应对潜在的停机!”——从来没有工程师这么说。

随着越来越多的开发人员承担起维护其构建的服务的职责,务必要确保他们为待命职责做好准备,而评估这一点的最佳时机是在招聘过程中。

现在,争夺顶尖工程人才的激烈竞争已经不是什么秘密了。而且,并不是每个人的动机都仅仅是金钱,因此向开发人员支付更多加班工资可能无法达成交易(稍后会详细介绍待命奖励)。面试过程中的软件工程师自然会询问他们需要多久从个人生活中抽出时间,参与待命时间表。

证明您有一个记录在案的待命计划,将责任公平地分散到一个由开发人员和 SRE 组成的称职团队中,这可以非常有助于让新员工放心,您的组织已经掌控了待命管理。有了记录在案的计划,您可以在面试过程中保持完全透明,并确保面试者为待命工作做好准备。

让待命对开发人员更加友好的五种简单方法

  1. 明确界定待命责任
    应明确界定待命期间的责任。这有助于防止倦怠、困惑和挫败感。我们建议记录您的事件响应流程以及它对待命意味着什么的期望。
  2. 确保将警报分配给正确的人员
    有效拨入警报工具不容忽视。通过正确的通知和覆盖确保有明确的变更流程,可以避免很多麻烦。
  3. 有主要和次要响应者
    生活不会仅仅因为有人待命而停止。就像意外的个人紧急情况可能会使开发人员在工作日离开一样,当他们待命时也会发生同样的情况。预备后备人员可以限制这种中断造成的潜在损害。
  4. 优化您的计划表
    团队不是一成不变的,您的待命时间表也不是一成不变的。我们建议采取持续审查、调整和改进您的待命事件的文化。
  5. 确保他们能够访问并熟悉所有相关的诊断工具
    每个团队用于跟踪运行状况、应用性能、资源利用率等的工具各不相同,请确保待命工程师熟悉所使用的工具,并能够正确访问这些工具。

如何改进 IT 支持和服务角色的待命

不仅仅是开发人员花更多的时间待命。对于 IT 支持和 IT 服务团队来说,全天候支持对于帮助业务运作越来越重要。

这些团队面临着许多与待命开发人员相同的挑战:压力、倦怠、角色和职责不明确、使用工具的权限。

IT 团队往往会承受更大的压力,因为他们经常和客户在同一栋大楼里,他们可能会因为事件的大量中断(电子邮件、Slack 甚至是面对面)而速度变慢。

以下是一些有助于保持 IT 事件可管理的策略:

  • 迅速、透明的沟通:主动沟通 IT 事件表明您很关心,而且完全掌控一切。
  • 跟踪重要因素:大多数 IT 服务团队都在使用某种形式的服务台软件。至关重要的是,您不仅仅要使用自由格式的数据输入字段来捕获每张工作单的详细信息。
  • 建立监控系统:从过去来看,许多 IT 运维团队会亲自监控性能仪表板,以留意中断情况。帮团队一个忙,让监控和警报工具来处理这个问题。

待命奖励

良好的待命奖励计划会为员工的专业知识和加班时间奖励员工。如果员工感到备受关怀,他们就会关心企业,为企业的成功做出贡献。

根据美国《公平劳动标准法》(FLSA),这是一项联邦法律,规定了雇主和雇员的最低工资、加班费和最低年龄要求,如果员工待命但可以自由地按自己的时间行事,则他们被视为“等待雇佣”,因此没有在工作。

根据 FSLA 的说法,如果某人的空闲时间受限,无法在下班时间按自己的意愿行事,则该待命时间可能被视为“工作时间”,有资格获得补偿。

您当地的法律可能有所不同,因此请务必咨询专家。自此,目标是制定一个有竞争力和公平的待命奖励计划,并支持分担责任的文化。

不同类型的待命奖励计划

1. 激励性待命

激励性待命奖励计划奖励那些举手参与待命时间工作的员工,以换取额外的休息日、灵活的工作时间、更高的基本工资或这些项的某种组合。

这种待命奖励方法的优势在于增强了对服务的责任感,这可以使系统更具弹性。

而且,给予充足的休假时间和有竞争力的薪水还可以让员工知道自己的工作受到重视和赞赏,从而防止倦怠并减少人员流失。

2. 根据计划的加班时间支付待命薪酬

带薪待命奖励意味着即使在轮班期间没有出现任何事务,员工待命或计划工作的时间也可直接获得补偿。

这种待命奖励模型的显而易见的优势是有形的激励。知道即使没有出现任何事务,您也会因携带寻呼机(或者更有可能是笔记本电脑和手机)而获得报酬,也更容易证明待命负担的合理性。

3. 根据事务花费的时间支付待命薪酬

另一种待命奖励方法是仅在员工处理事件时才向他们支付报酬。计算此值的一些方法是:

  • 为待命工作支付的总金额
  • 处理警报/事务所用时间的小时费率
  • 处理的警报和事务数量的费率

这种模型的优势在于,员工在下班时间投入的额外工作可以获得报酬。一个潜在的缺点是,减少警报和事务有财务上的抑制因素,这可能会损害系统的整体完整性。

4. 根据计划的加班时间和事务花费的时间支付薪酬

这是前两种模型的组合。一些公司既为待命时间表付费,又为收到的警报和解决的事务支付额外费用。这种待命奖励模型的好处在于,员工会感到组织要求他们付出的额外时间和精力获得了丰厚的奖励。此外,如果有人遇到一个特别困难的事务,消耗了他们的个人时间,他们的牺牲将获得经济奖励。但是,再次考虑一下,在您的公司文化中,为软件中的缺陷创建间接奖励是否有意义。

其他需要考虑的事项

这些是待命奖励计划的典型模型。其他一些需要适当考虑的事项是:

  • 上班时间和下班时间收到的警报数量

此数量至关重要,可用于确定您是否需要工作时间之外的待命时间表覆盖或在工作时间需要特别待命团队。

  • 处理事件所花费的时间

您的组织的事件复杂性和重要性可能不同。待命工程师可能会在某个事务上花费几分钟,或者可能花一整晚的时间来处理事务。应考虑在典型的待命轮班期间投入的时间和精力。这需要进行衡量,以获得公平的奖励。

  • 平均确认或解决时间

根据上报政策执行,确认时间对于快速解决问题至关重要。测量一段时间内确认和解决的平均时间有助于经理决定其他激励措施。

总结

使用正确的工具,浏览待命策略可以变成更加顺畅的流程。借助更好的事件管理解决方案,可以管理待命时间表、监控警报以及保持员工满意度和健康状况。Jira Service Management 的警报功能使团队能够集中和筛选所有监控、日志记录和 CI/CD 工具中的警报,确保快速响应,同时避免警报疲劳。

后续内容
待命时间表