始终在线服务的性质要求敏捷开发团队和 DevOps 团队持续做出响应。这些团队不仅要对单个事件做出反应,还需要调整团队结构、价值观和工具,以确保卓越运营成为核心竞争力。
始终在线的服务带来的挑战
自 14 年前首次讨论以来,YBIYRI 仍然在挑战现代开发团队,以兑现其缩短解决时间和扩展最佳操作实践的承诺。遗憾的是,许多团队仍将技能、日程安排和流程作为对事件的响应,而不是长期成功的基础。
团队往往未准备充分就转向 YBIYRI 文化,而第一个重大事件通常会为团队敲响警钟。然而,这种反应常常是由“我们不能让事件再次发生”的情绪所触发的。为了实现这一点,我们引入了安全门、检查点和其他程序开销。此外,变更审核委员会和每周发布审核也是团队程序的一部分。为了防止中断,需仔细审查每一项变更。虽然此举通常会减少事件,但也会减缓开发速度和产品发展势头。随着越来越多灵活的竞争对手具备更高的机动性,这可能会成为一种竞争劣势。
始终在线服务的团队最佳实践
运营准备
对于 YBIYRI 团队来说,其中一个关键转变就是将运营准备作为冲刺计划和执行周期的一部分。运营准备可能包括:
在开发过程中,在代码中构建适当的高质量警报,以最大限度地缩短平均检测时间 (MTTD) 和平均隔离时间 (MTTI)
构建监视器(在适当的时候包括合成监视器),以确保相关服务按预期运行
分配时间来构建所需的仪表板,并为所有团队成员提供仪表板使用培训
确保待命团队成员在冲刺期间没有其他必须完成的开发任务
为该服务规划“战争游戏”,以确保回滚能按预期运行
规划冲刺过程中的带宽,以完成先前事件审核中的操作
将安全性(升级/补丁/滚动凭证)和操作性事务作为冲刺周期的组成部分。
所有这些都要求产品负责人了解服务级别目标 (SLO) 并适当地确定其优先级,同时做出与功能开发和功能性相关的业务承诺。
接受事件价值观
在团队层面接受事件价值观可以为团队的 YBIYRI 之旅奠定坚实的基础。事件价值观可指导团队进行事件响应。这些价值观可确保为围绕构建和运营始终在线服务的可持续文化奠定坚实的基础。事件价值观旨在:
指导员工和团队在事件和事后析误中进行自主决策。
建立一致的团队文化,包括如何确定、管理事件以及从事件中吸取教训
就团队应该对事件识别、解决和反思的每个部分采取的态度,让团队达成共识。
《事件价值观小技巧》是一份卓越指南,可以帮助确定事件响应期间的团队价值观,以及制定持续实现这些价值观的计划。如果您的团队在进行状况监控期间遇到了以客户为中心、团队凝聚力、达成共识、服务水平或服务授权等问题时,它可以提供帮助。
Atlassian 在团队层面主张以下事件价值观:
Atlassian 价值观 | 阶段和事件价值观 | 基本原理 |
|---|---|---|
用心构建,寻求平衡 | 检测 Atlassian 在客户之前知道 | 均衡的服务包括有效的监控和警报,以便在客户之前检测到事件。最佳的监控可以在问题成为事件之前提醒我们。 |
发挥团队精神 | 响应 上报、上报、上报 | 我们并不会介意收到有关事件的提醒,即使无需提醒我们也无妨。但如果需要我们收到提醒,而我们并没有收到提醒,我们便会介意。我们并不一定总能得到所有答案,因此“不要犹豫,请上报”。 |
真诚对待客户 | 恢复 问题难免发生,及时妥善解决 | 我们的客户并不关心服务出现问题的原因,他们只想让我们尽快恢复服务。毫不犹豫地迅速解决事件,以便我们可以最大限度地减少对客户的影响。 |
开放的公司,绝无虚言 | 学习 始终不去指责 | 运行始终在线服务难免会引发事件。我们通过让团队当责而非指责来改善服务。 |
实现您寻求的改变 | 改进 永远不要让相同的事件发生两次 | 确定根本原因,以便能阻止该事件再次发生。努力按特定日期提供特定的变更。 |
适用于永远在线的企业的工具
除了强大的实践和文化外,运行始终在线服务的公司还需要使用适当的工具。拥有成熟 DevOps 实践的团队会利用工具来促进敏捷开发项目规划和冲刺、CI/CD、自动化以及高级监控和警报功能。
Opsgenie 一类的现代事件管理工具可确保您以最低的延迟接收发送至您首选通知渠道的重要警报。它还包括对警报进行分组以筛选大量警报的功能,尤其是在一个错误或故障生成多个警报时。警报管理工具必须与团队的工具(例如:日志管理、崩溃报告)无缝集成,这样才能自然适应团队的发展和运营节奏。
每个团队在工作流程、政策和利益相关者方面都有所不同。警报管理工具必须能够自定义待命值班表和路由规则,以根据警报来源和有效负载处理警报。通常,警报可能需要升级为事件。该工具应通过自动创建事件经理来管理事件,而不会分散注意力。这样您就可以像在拥有所有便利信息的战情室一样管理事件,并将这些信息都集成到通信和协作工具中。最后,该工具必须具备高级报告和分析功能,以获得有关成功领域的洞察信息并确定改进机会。它应该揭示警报源、团队的响应表现以及待命工作量的分布方式。
总结...
现代消费者对始终在线服务的渴望已不仅仅是一种需求,而更多的是一种必须。很多公司采用 YBIYRI 文化来培养满足这些需求所需的敏捷性。其中的挑战在于,很多公司未配备适当的工具和必要的团队结构/实践来维持这一速度。
如果您计划将团队转向 YBIYRI DevOps 文化,则可以采取以下措施:
让您的团队做好准备,以负责应用或服务的所有开发和运营阶段
确保与产品负责人保持一致,以便在冲刺规划过程中优先考虑 SLO
接受一系列事件价值观来指导您团队响应事件的行为
为您的团队提供可靠、快速且灵活的现代警报和事件管理工具,如 Opsgenie
下载我们免费的事件管理手册,并开始免费使用 Opsgenie。
