Close

상시 서비스를 유지

조직이 상시 서비스를 지원하는 DevOps 문화를 만드는 방법

Headshot of Krishna Sai
Krishna Sai

엔지니어링 책임자, IT 솔루션


상시 가동 서비스의 특성상 애자일 및 DevOps 팀의 지속적인 대응이 필요합니다. 팀은 단일 인시던트에 대응하는 것 그 이상을 생각하고 팀 구조, 가치 및 도구를 정렬하여 운영 우수성이 핵심 역량이 되도록 해야 합니다.

상시 서비스의 어려움


14년 전에 처음 논의된 이후로, YBIYRI는 여전히 최신 개발 팀에게 해결 시간을 단축하고 운영 모범 사례를 확장하겠다는 약속을 지키도록 도전이 되고 있습니다. 안타깝게도 많은 팀은 여전히 스킬, 일정 및 프로세스를 장기적 성공을 위한 기반이 아닌 인시던트에 대한 대응으로 삼고 있습니다.

팀은 적절한 준비 없이 YBIYRI 문화로 이동하는 경우가 많으며, 첫 번째 주요 인시던트가 일어난 후에야 이것을 인식하게 됩니다. 그러나 대체로 “다시는 인시던트가 발생하면 안 된다”는 생각 때문에 일어나는 반응입니다. 이를 위해 안전 게이트, 체크포인트 및 기타 절차적인 오버헤드가 도입됩니다. 또한 변경 검토 위원회와 주간 릴리스 검토가 팀의 중요 일정이 됩니다. 가동 중단을 방지하기 위해 모든 변경 사항을 면밀히 조사합니다. 이렇게 하면 인시던트가 감소할 수는 있겠지만, 개발 속도와 제품 가속도가 느려질 수 있습니다. 더 민첩한 경쟁자가 훨씬 빠르게 움직일 수 있기 때문에, 경쟁력에서 약점이 될 수 있습니다.

Team best practices for always-on services


조직 로고
관련 자료

무료로 사용해보기

트로피 아이콘
솔루션 보기

인시던트 관리 및 대응 간소화

운영 준비성

YBIYRI 팀의 중요한 변화는 스프린트 계획 및 실행 주기의 일부로 운영 준비성을 포함하는 것입니다. 운영 준비성에는 다음이 포함될 수 있습니다.

  • 개발 중에 평균 감지 시간(MTTD) 및 평균 격리 시간(MTTI)을 최소화하는 높은 품질의 적절한 알림을 코드에 구축
  • 종속 서비스가 예상대로 작동하는지 확인하기 위한 모니터(해당하는 경우 합성 모니터 포함) 구축
  • 필요한 대시보드를 구축하고 모든 팀원에게 대시보드를 사용하도록 교육하는 데 시간을 할당
  • 스프린트 중에 대기 중 담당자 팀원이 다른 개발을 수행하지 않도록 확인
  • 롤백이 예상대로 작동하는지 확인하기 위해 서비스에 대한 “워(전쟁) 게임”을 계획
  • 이전 인시던트 검토에서 작업을 종료하도록 스프린트에서 작업 능력을 계획
  • 스프린트 주기의 일부분으로 보안(업그레이드/패치/롤링 자격 증명) 및 운영 문제 해결

이 모든 기능을 사용하려면 제품 소유자가 기능 개발 및 기능과 관련된 비즈니스 약속과 함께 서비스 수준 목표(SLO)를 이해하고 우선 순위를 적절히 지정해야 합니다.

인시던트 가치 포용

팀 수준에서 인시던트 가치를 수용하면 팀의 YBIYRI 여정을 위한 강력한 기반을 다질 수 있습니다. 인시던트 가치는 인시던트 대응 시 팀을 안내해 줍니다. 이 가치가 있어 상시 서비스 구축 및 운영을 둘러싼 지속 가능한 문화를 위한 강력한 기반이 완성됩니다. 인시던트 가치는 다음과 같은 목적으로 설계되었습니다.

  • 인시던트와 사후 검토에서 개인과 팀이 자율적으로 의사결정을 내릴 수 있도록 안내
  • 인시던트를 식별, 관리 및 학습하는 방법을 포함하는 일관된 팀 문화 구축
  • 인시던트 식별, 해결 및 반영의 각 부분에서 팀이 가져야 하는 자세를 정렬

인시던트 가치 플레이북은 인시던트 대응 중 팀 가치를 식별하고 이 가치를 일관적으로 실천하기 위한 계획을 수립하는 데 도움이 되는 훌륭한 안내를 제공합니다. 팀이 상태 모니터의 고객 중심성, 팀 단결력, 공통된 이해, 서비스 수준 또는 서비스 명령과 관련하여 어려움을 겪고 있는 경우 도움이 될 수 있습니다.

Atlassian에서는 팀 수준에서 다음과 같은 인시던트 가치를 수용합니다.

Atlassian 가치

단계 및 인시던트 가치

원칙

저울 위에서 균형을 이루는 하트 그래픽

진심과 균형을 담아 제품을 만든다

감지
Atlassian은 고객이 알기 전에 미리 파악

균형 잡힌 서비스를 제공하기 위해서는 고객보다 먼저 인시던트를 탐지하기 위한 효과적인 모니터링과 알림이 있어야 합니다. 최상의 모니터링을 통해 문제가 인시던트로 발전하기 전에 감지할 수 있습니다.

Atlassian 저지 그래픽

팀으로 플레이

대응
에스컬레이션하고, 에스컬레이션하고, 또 에스컬레이션

인시던트가 발생했을 때 Atlassian이 꼭 필요하지 않더라도 연락을 받아도 상관없습니다. 그러나 연락을 받아야 하는 인시던트가 발생했는데도 연락을 받지 못하면 안됩니다. 늘 질문에 대한 답을 갖고 있지 않기 때문에 '주저없이 에스컬레이션'합니다.

Atlassian 가치 그래픽

고객에게 !@#$를 삼가한다

복구
문제는 발생할 수 있지만 신속하게 해결

고객은 서비스가 중단된 원인에 대해 관심을 갖는 것이 아니라 Atlassian이 최대한 빨리 서비스를 복구하는 것에 관심이 있습니다. 주저하지 말고 신속하게 인시던트를 해결해야 고객에게 미치는 영향을 최소화할 수 있습니다.

헛소리 금지 로고

열린 회사, 헛소리는 하지 않는다

학습
언제나 비난하지 않음

인시던트는 상시 서비스 운영의 일부분입니다. Atlassian은 비난하는 대신 팀에서 책임을 지게 함으로써 서비스를 개선합니다.

개선을 나타내는 그래픽

스스로 변화의 중심이 된다

개선
같은 인시던트가 반복되지 않도록 하기

인시던트가 다시 발생하지 않도록 근본 원인을 파악합니다. 지정된 날짜에 구체적인 변경 조치를 수행할 수 있도록 최선을 다합니다.

Tools for an always-on enterprise


In addition to strong practices and culture, companies running always-on services need the right tools. Teams with mature DevOps practices use tools to facilitate agile project planning and sprintsCI/CDautomation, and advanced monitoring and alerting capabilities. 

A modern incident management tool like Opsgenie ensures you receive important alerts delivered to your preferred notification channel(s) with the lowest latencies. It also includes the ability to group alerts to filter numerous alerts, especially when several alerts are generated from a single error or failure. An alert management tool must seamlessly integrate with your team’s tools (e.g., log management, crash reporting) so that it naturally fits into your team’s development and operational rhythm.

Each team is different in terms of workflows, policies, and stakeholders. The alert management tool must be able to customize on-call schedules and routing rules to handle alerts based on their source and payload. Often the alerts may warrant an escalation to an incident. The tool should manage an incident without distractions by automatically creating an incident manager. This allows you to manage the incident like a war room with all the information handy, with integrations to communication and collaboration tools. Finally, the tool must provide advanced reporting and analytics to gain insight into areas of success and identify opportunities for improvement. It should reveal the sources of alerts, the team’s performance in responding, and how on-call workloads are distributed.

In conclusion...


The modern consumer's desire for always-on services has become less of a want and more of a need. Many companies adopt a YBIYRI culture to develop the agility required to satisfy these demands. The challenge is that many companies aren’t equipped with the appropriate tools and necessary team structures/practices to sustain this velocity.

If you are planning to shift to a YBIYRI DevOps culture for your team, here are some steps to take: 

  • Prepare your team to own all phases of development and operation of the application or service
  • Ensure alignment with product owners so that SLOs are prioritized in sprint planning
  • Embrace a set of incident values that guide the behavior of your team in response to an incident
  • Empower your team with a modern alert and incident management tool like Opsgenie, which is reliable, fast, and flexible

Download our free incident management handbook and get started with Opsgenie for free

Krishna Sai
Krishna Sai

Krishna Sai는 Atlassian의 IT 솔루션 엔지니어링 책임자로, Atlassian, Groupon, Polycom을 포함한 여러 스타트업 및 기업에서 20년 이상의 엔지니어링/기술 리더십 경험을 보유하고 있습니다. 인도 벵갈루루에 거주하며 팀의 공동 작업 방식에 영향을 주는 제품을 만드는 데 열정을 가지고 있습니다.


이 기사 공유

여러분께 도움을 드릴 자료를 추천합니다.

이러한 리소스에 책갈피를 지정하여 DevOps 팀의 유형에 대해 알아보거나 Atlassian에서 DevOps에 대한 지속적인 업데이트를 확인하세요.

DevOps 일러스트레이션

DevOps 커뮤니티

DevOps 일러스트레이션

시뮬레이션 워크숍

맵 일러스트레이션

무료로 사용해보기

DevOps 뉴스레터 신청

Thank you for signing up