Close

빠른 속도의 팀을 위한 인시던트 관리

Atlassian 인시던트 핸드북

오늘날 사용자는 기술 서비스 운영 팀이 연중무휴 서비스를 제공할 것을 기대하고 있습니다.

장애 또는 기능 오류 등의 문제가 발생하면 팀원은 즉각 이에 대응하고 서비스를 복원해야 합니다. 이 프로세스를 인시던트 관리라고 하는데, 이는 크든 작든 모든 회사에서 아직도 해결되지 않은 복잡한 과제로 자리잡았습니다.

Atlassian은 전 세계의 팀이 인시던트 관리를 개선할 수 있도록 도움을 드리고 싶습니다. Atlassian 인시던트 관리 프로세스를 요약한 이 핸드북은 Google과 같은 팀에서 영감을 받아 작성되었습니다. Atlassian에서 십여 년간 인시던트에 대응하면서 얻은 교훈이 포함되어 있습니다. 이는 Atlassian의 고유한 경험을 바탕으로 하지만, 적절히 조정하여 도입하면 팀의 요구 사항을 충족할 수 있을 것입니다.

인시던트 관리 핸드북

핸드북 인쇄 버전 또는 PDF 받기

무료로 제공되는 인시던트 관리 핸드북의 인쇄 버전은 한정되어 있습니다. 또는 PDF 버전을 다운로드하세요.

Atlassian은 전 세계의 팀이 인시던트 관리를 개선할 수 있도록 도움을 드리고 싶습니다. Atlassian 인시던트 관리 프로세스를 요약한 이 핸드북은 Google과 같은 팀에서 영감을 받아 작성되었습니다. Atlassian에서 십여 년간 인시던트에 대응하면서 얻은 교훈이 포함되어 있습니다. 이는 Atlassian의 고유한 경험을 바탕으로 하지만, 적절히 조정하여 도입하면 팀의 요구 사항을 충족할 수 있을 것입니다.


이 가이드의 대상

개발팀 또는 운영팀 담당자이고 연중무휴로 제공되는 서비스를 필요로 하는 고객을 위한 인터넷 서비스를 관리하고 있는 분이라면 이 핸드북을 꼭 읽어보시기 바랍니다.


인시던트란 무엇인가요?

Atlassian에서는 인시던트를 서비스 중단 또는 서비스 품질 저하를 야기하기 때문에 즉각적인 대응이 필요한 이벤트로 정의하고 있습니다. ITIL 또는 ITSM 실무 방식을 따르는 팀에서는 이 대신 주요 인시던트 라는 용어를 사용할 수도 있습니다.

영향을 받은 서비스가 평상시와 같이 기능을 다시 시작하면 인시던트가 해결된 것으로 간주됩니다. 기능을 완전히 복원하는 데 필요한 작업만이 인시던트 해결 과정이 됩니다.

이후 근본 원인을 찾고 인시던트가 반복되지 않도록 원인을 해결하는 데 필요한 작업을 지정하기 위해, 인시던트 사후 검토가 수행됩니다.


Atlassian 인시던트의 가치

인시던트 관리 프로세스에서 발생 가능한 모든 상황을 다룰 수는 없기 때문에, Atlassian에서는 팀에 일반적인 가이드를 가치의 형태로 제공합니다. Atlassian의 기업 가치와 마찬가지로, 인시던트 가치는 다음 목적에 따라 마련되었습니다.

  • 인시던트와 사후 검토에 있어 개인과 팀이 자율적으로 의사 결정을 내릴 수 있도록 안내합니다.
  • 여러 팀에서 인시던트를 식별 및 관리하고, 인시던트를 통해 배우는 방식에 대한 공통되고 일관된 문화를 구축합니다.
  • 인시던트 식별, 해결 및 반영의 각 부분에서 견지해야 할 태도에 있어 여러 팀이 공통된 접근 방식을 취하도록 합니다.
스테이지 인시던트 가치 관련 Atlassian 가치 원칙
1. 감지 Atlassian은 고객이 알기 전에 미리 파악한다

진심과 균형

균형 잡힌 서비스를 제공하기 위해서는 고객보다 먼저 인시던트를 감지하기 위한 충분한 모니터링과 알림이 있어야 합니다.

최상의 모니터링을 통해 문제가 인시던트로 발전하기 전에 감지할 수 있습니다.

2. 대응 에스컬레이션하고, 에스컬레이션하고, 또 에스컬레이션

하나의 팀으로 플레이한다

아무도 자다가 일어나는 것을 좋아하지 않으며, Atlassian은 맡은 책임을 가볍게 받아들이지 않습니다. 하지만 알고 보니 깰 필요가 없었던 인시던트 때문에 잠에서 깨게 되는 경우도 있다는 것을 알고 있습니다. 일반적으로 더 어려운 상황은, 주요 인시던트 때문에 잠에서 깨고 더 일찍 알림을 받지 못한 채로 인시던트를 파악해야 하는 경우입니다.

우리는 늘 모든 문제에 대한 답을 갖고 있지 않기 때문에 '주저없이 에스컬레이션'해야 합니다.

3. 복구 문제가 발생하면 신속하고 완전하게 해결한다 고객에게 문제를 안기지 않는다

고객은 서비스가 중단된 원인에 대해 관심을 갖는 것이 아니라 우리가 최대한 빨리 서비스를 복구하는 것에만 관심이 있습니다.

주저하지 말고 신속하게 인시던트를 해결해야 고객에게 미치는 영향을 최소화할 수 있습니다.

4. 학습 비난하지 않는다 투명하고 개방적인 기업 서비스를 운영하면 인시던트는 불가피하게 발생합니다. 우리는 팀을 비난하는 대신 팀에서 책임을 지게 함으로써 서비스를 개선합니다.
5. 개선 동일한 인시던트가 반복되어서는 절대 안 된다 스스로 변화의 중심이 된다

근본 원인을 밝히고 전체 인시던트 클래스가 다시 발생하지 않게 하는 변경 조치를 찾습니다.

특정 날짜에 구체적인 변경 조치를 수행할 수 있도록 최선을 다합니다.


도구 요구사항

여기에 설명된 인시던트 관리 프로세스에는 Atlassian만의 고유한 여러 도구가 사용되며 필요한 경우에는 이러한 도구를 대체할 수 있습니다.

  • 인시던트 추적 - 모든 인시던트는 Jira 이슈로 추적되며, 사후 검토 완료를 추적할 수 있도록 후속 이슈가 만들어집니다(Atlassian에서는 이렇게 하기 위해 고도로 사용자 지정된 Jira Software 버전을 사용함).
  • 채팅방 - 실시간 문자 통신 채널로, 하나의 팀으로서 문제를 진단하고 해결하기 위한 기본 도구입니다.
  • 영상 채팅 - 다수의 인시던트에서 Blue Jeans와 같은 팀 영상 채팅을 통해 참여 직원이 접근 방식에 대해 더 효율적으로 논의하고 합의에 도달할 수 있습니다.
  • 알림 시스템 - OpsGenie와 같은 도구를 사용하여 순환 대기 근무와 에스컬레이션을 관리합니다.
  • 문서 도구 - Atlassia에서는 인시던트 상태 문서를 관리하고 블로그를 통해 사후 검토를 공유하는 데 Confluence를 사용하고 있습니다.
  • Statuspage - Statuspage를 통해 내부 이해관계자와 고객에게 상태를 전달하고 모든 사람이 정보를 공유할 수 있게 합니다.

인시던트 추적

모든 인시던트는 Jira 이슈로 추적되며, 사후 검토 완료를 추적하기 위해 후속 이슈가 만들어집니다. 이 핸드북에 소개된 프로세스에서는 고도로 사용자 지정된 Jira Software 버전을 참조하고 있습니다.

인시던트 이슈는 보통 고객 티켓에 대응하는 지원 엔지니어 또는 모니터링 알림을 인시던트로 인식한 개발자에 의해 생성됩니다. Atlassian은 우려사항이 있는 경우 에스컬레이션할 때까지 기다리지 않고 이슈를 생성할 것을 권장합니다.

Jira에는 해결 단계를 거치는 동안 인시던트를 추적하고, 인시던트 대응 중에 수행한 모든 중요한 조치를 기록하는 단순한 워크플로우가 있습니다.


인시던트 관리자

각 인시던트는 인시던트 관리자(IM)가 관리합니다. 인시던트 관리자는 해당 인시던트와 관련된 모든 책임과 권한을 갖습니다. 이러한 인시던트 관리자는 인시던트 이슈 담당자가 지정합니다. 인시던트 관리자는 인시던트 해결에 필요한 조치를 수행할 권한이 있으며, 여기에는 조직 내 필요한 구성원을 호출하고, 인시던트에 관련된 담당자가 최대한 빠르게 서비스를 복원하는 데 집중하게 하는 것이 포함됩니다.

인시던트와 관련하여 인시던트 관리자는 개인이라기보다는 하나의 역할입니다. 인시던트 해결 중에 개인의 역할을 정의하면 해당 개인이 다른 인시던트 처리에도 관여할 수 있다는 장점이 있습니다. 특정 개인이 특정 역할을 수행하는 방법을 알면 다른 인시던트에서도 해당 역할을 수행할 수 있습니다.


Have ideas or suggestions for this guide?