Close

确保始终在线的服务始终运行

组织如何构建支持始终在线服务的 DevOps 文化

Headshot of Krishna Sai
Krishna Sai

IT 解决方案工程主管


始终在线服务的性质要求敏捷开发团队和 DevOps 团队持续做出响应。这些团队不仅要对单个事件做出反应,还需要调整团队结构、价值观和工具,以确保卓越运营成为核心竞争力。

始终在线的服务带来的挑战


14 年前首次讨论以来,YBIYRI 仍然在挑战现代开发团队,以兑现其缩短解决时间和扩展最佳操作实践的承诺。遗憾的是,许多团队仍将技能、日程安排和流程作为对事件的响应,而不是长期成功的基础。

团队往往在未充分准备的情况下转向 YBIYRI 文化,而第一个重大事件通常会为团队敲响警钟。然而,此响应通常是由“我们不能让事件再次发生”的情绪所触发。为了实现这一点,我们引入了安全门、检查点和其他程序开销。此外,变更审核委员会和每周发布审核也是团队程序的一部分。为了防止中断,需仔细审查每一项变更。虽然此举通常会减少事件,但也会减缓开发速度和产品发展势头。随着越来越多灵活的竞争对手具备更高的机动性,这可能会成为一种竞争劣势。

Team best practices for always-on services


组织徽标
相关资料

免费试用

奖杯图标
查看解决方案

简化事件管理和响应

运营准备

对于 YBIYRI 团队来说,其中一个关键转变就是将运营准备作为冲刺计划和执行周期的一部分。运营准备可能包括:

  • 在开发过程中,在代码中构建适当的高质量警报,以最大限度地缩短平均检测时间 (MTTD) 和平均隔离时间 (MTTI)
  • 构建监视器(在适当的时候包括合成监视器),以确保相关服务按预期运行
  • 分配时间来构建所需的仪表板,并为所有团队成员提供仪表板使用培训
  • 确保待命团队成员在冲刺期间没有其他必须完成的开发任务
  • 为该服务规划“战争游戏”,以确保回滚能按预期运行
  • 规划冲刺过程中的带宽,以完成先前事件审核中的操作
  • 将安全性(升级/补丁/滚动凭证)和操作性事务作为冲刺周期的组成部分。

所有这些都要求产品负责人了解服务级别目标 (SLO) 并适当地确定其优先级,同时做出与功能开发和功能性相关的业务承诺。

接受事件价值观

在团队层面接受事件价值观可以为团队的 YBIYRI 之旅奠定坚实的基础。事件价值观可指导团队进行事件响应。这些价值观可确保为围绕构建和运营始终在线服务的可持续文化奠定坚实的基础。事件价值观旨在:

  • 指导员工和团队在事件和事后析误中进行自主决策。
  • 建立一致的团队文化,包括如何确定、管理事件以及从事件中吸取教训
  • 就团队应该对事件识别、解决和反思的每个部分采取的态度,让团队达成共识。

《事件价值观小技巧》是一份卓越指南,可以帮助确定事件响应期间的团队价值观,以及制定持续实现这些价值观的计划。如果您的团队在进行状况监控期间遇到了以客户为中心、团队凝聚力、达成共识、服务水平或服务授权等问题时,它可以提供帮助。

Atlassian 在团队层面主张以下事件价值观:

Atlassian 价值观

阶段和事件价值观

基本原理

平衡内心的天平图

用心构建,寻求平衡

检测
Atlassian 在客户了解相关事件之前预先获悉

均衡的服务包括有效的监控和警报,以便在客户之前检测到事件。最佳的监控可以在问题成为事件之前提醒我们。

Atlassian Jersey 图形

发挥团队精神

响应
上报、上报、上报

我们并不会介意收到有关事件的提醒,即使无需提醒我们也无妨。但如果需要我们收到提醒,而我们并没有收到提醒,我们便会介意。我们并不一定总能得到所有答案,因此“不要犹豫,请上报”。

Atlassian 价值观图形

真诚对待客户

恢复
如果出现问题,立即解决

我们的客户并不关心服务出现问题的原因,他们只想让我们尽快恢复服务。毫不犹豫地迅速解决事件,以便我们可以最大限度地减少对客户的影响。

无公牛(抱怨,bullshit)徽标

开放的公司,绝无虚言

学习
始终不予指责

运行始终在线服务难免会引发事件。我们通过让团队当责而非指责来改善服务。

图形信号改进

实现您需要的改变

改进
永远不要让同一事件再次发生

确定根本原因,以便能阻止该事件再次发生。努力按特定日期提供特定的变更。

Tools for an always-on enterprise


In addition to strong practices and culture, companies running always-on services need the right tools. Teams with mature DevOps practices use tools to facilitate agile project planning and sprintsCI/CDautomation, and advanced monitoring and alerting capabilities. 

A modern incident management tool like Opsgenie ensures you receive important alerts delivered to your preferred notification channel(s) with the lowest latencies. It also includes the ability to group alerts to filter numerous alerts, especially when several alerts are generated from a single error or failure. An alert management tool must seamlessly integrate with your team’s tools (e.g., log management, crash reporting) so that it naturally fits into your team’s development and operational rhythm.

Each team is different in terms of workflows, policies, and stakeholders. The alert management tool must be able to customize on-call schedules and routing rules to handle alerts based on their source and payload. Often the alerts may warrant an escalation to an incident. The tool should manage an incident without distractions by automatically creating an incident manager. This allows you to manage the incident like a war room with all the information handy, with integrations to communication and collaboration tools. Finally, the tool must provide advanced reporting and analytics to gain insight into areas of success and identify opportunities for improvement. It should reveal the sources of alerts, the team’s performance in responding, and how on-call workloads are distributed.

In conclusion...


The modern consumer's desire for always-on services has become less of a want and more of a need. Many companies adopt a YBIYRI culture to develop the agility required to satisfy these demands. The challenge is that many companies aren’t equipped with the appropriate tools and necessary team structures/practices to sustain this velocity.

If you are planning to shift to a YBIYRI DevOps culture for your team, here are some steps to take: 

  • Prepare your team to own all phases of development and operation of the application or service
  • Ensure alignment with product owners so that SLOs are prioritized in sprint planning
  • Embrace a set of incident values that guide the behavior of your team in response to an incident
  • Empower your team with a modern alert and incident management tool like Opsgenie, which is reliable, fast, and flexible

Download our free incident management handbook and get started with Opsgenie for free

Krishna Sai
Krishna Sai

Krishna Sai 是 Atlassian 的 IT 解决方案工程主管。20 多年来,他在多家初创公司和企业(包括 Atlassian、Groupon 和 Polycom)担任工程/技术领导者职务。他住在印度班加罗尔,热衷于构建有助于提升团队协作的产品。


分享这篇文章
下一个主题

推荐阅读

将这些资源加入书签,以了解 DevOps 团队的类型,或获取 Atlassian 关于 DevOps 的持续更新。

Devops 示意图

DevOps 社区

Devops 示意图

模拟研讨会

地图插图

免费试用

注册以获取我们的 DevOps 新闻资讯

Thank you for signing up