Close

The path to better incident management starts here

인시던트 대응 플레이북을 만드는 방법

핸드북의 페이지를 펼쳐보세요.

Atlassian의 임무는 모든 팀이 잠재력을 최대한 활용하게 하는 것입니다. Atlassian에서 발견한 훌륭한 팀의 공통점은 조직의 원활한 운영을 위해 공식화된 여러 프로세스를 관리하는 데 플레이북을 사용한다는 것입니다.

이 문서에서는 효과적인 인시던트 대응 플레이북을 만들기 위한 5가지 중요한 단계를 다룹니다. 여기서는 인시던트 대응 계획을 개발하기 위한 템플릿으로 자체적인 Atlassian 인시던트 관리 핸드북을 사용하겠습니다.

애자일 팀에 인시던트 플레이북이 필요한 이유

인시던트 대응 플레이북은 인시던트에 실시간으로 대응하고 해결하기 위한 표준 절차 및 단계를 팀에 제공합니다. 플레이북에는 팀이 다음 인시던트에 대비할 수 있는 평상시 교육 및 연습도 포함될 수 있습니다.

Atlassian의 인시던트 팀은 인시던트 관리 프로세스를 지속적으로 교육, 개선, 테스트 및 개선하고 있습니다. Atlassian은 다음과 같은 목적으로 인시던트 대응 플레이북을 개발했습니다.

  • 인시던트와 사후 검토에 있어 개인과 팀이 자율적으로 의사결정을 내릴 수 있도록 안내합니다.
  • 여러 팀에서 인시던트를 식별 및 관리하고, 인시던트를 통해 배우는 방식에 대한 공통되고 일관된 문화를 구축합니다.
  • 인시던트 식별, 해결 및 반영의 각 부분에서 견지해야 할 태도에 있어 여러 팀이 공통된 접근 방식을 취하도록 합니다.

인시던트 대응 플레이북에는 어떤 내용이 포함되어 있습니까?

플레이북은 사이버 보안뿐만 아니라 DevOps 및 IT Ops 인시던트 관리의 핵심 구성 요소입니다. 계획되지 않은 중단에 대응하기 위한 조직의 정책과 관행을 설정하고, 팀이 혼란 속에서도 질서를 유지하며 모두가 인시던트 및 보안 위협에 일관되게 대응하도록 지원합니다.

인시던트 관리 핸드북은 보안 문제나 또다른 새 취약성 등 모든 인시던트에 대응하고 인시던트를 해결 및 학습할 수 있는 일련의 프로세스를 팀에 제공합니다. 콘텐츠에는 런북 및 체크리스트부터 템플릿, 교육 연습, 보안 공격 시나리오 및 시뮬레이션 훈련에 이르기까지 모든 것이 포함될 수 있습니다.

인시던트 대응 플레이북 만들기

자체 Atlassian 인시던트 관리 핸드북을 만들면서 인시던트 관리에 관한 5가지 모범 사례를 알아봤습니다. 이 단계는 다양한 DevOps 및 IT Ops 팀에 맞게 변형할 수 있으며 효과적인 인시던트 대응 플레이북을 만드는 프로세스를 안내할 수 있습니다.

1. 조직의 인시던트 정의

포함할 내용: 무엇이 인시던트로 간주되는지에 대한 구체적인 정의

이유: 어떤 경우에 인시던트가 발생하는지 모르면 효과적으로 해결할 수 없습니다. 팀마다 인시던트를 정의하는 방식이 다릅니다. 문제가 발생하면 1초라도 빠르게 해결하는 것이 중요하며, 동료끼리 인시던트의 의미를 두고 다투는 일은 없어야 합니다.

예:

Atlassian 인시던트 관리 핸드북에 나와 있는 인시던트의 정의:

인시던트란 무엇인가요?

Atlassian에서는 인시던트를 서비스 중단 또는 서비스 품질 저하를 야기하여 즉각적인 대응이 필요한 이벤트로 정의하고 있습니다. ITIL 또는 ITSM 실무 방식을 따르는 팀에서는 "주요 인시던트"라는 용어를 사용하기도 합니다.

영향을 받은 서비스가 평상시와 같이 기능을 재개하면 인시던트가 해결된 것으로 간주됩니다. 여기에는 기능을 완전히 복원하는 데 필요한 작업만 포함되며, 사후 검토에 해당하는 근본 원인 식별 및 완화와 같은 후속 작업은 제외됩니다.

이후 근본 원인을 찾고 인시던트가 반복되지 않도록 원인을 해결하는 데 필요한 작업을 지정하기 위해 인시던트 사후 검토가 이루어집니다.

2. 미리 지정된 역할 설정

포함할 내용: 인시던트 역할 및 책임

이유: 올바른 인시던트 대응 플레이북에는 명확한 역할과 책임이 나와 있습니다. 인시던트 대응 팀의 각 팀원은 자신의 역할을 잘 알고 있으며 인시던트 발생 시 맡은 역할을 알고 있습니다.

예:

Atlassian에서 사용하는 역할은 모든 필수 단계가 진행되고 중복된 작업이 이루어지지 않으며 커뮤니케이션이 원활하고 효과적으로 실행되도록 갖춰져 있습니다.

  • 인시던트 관리자 - 인시던트와 관련된 전반적인 책임 및 권한을 가지고 있습니다. 조직 내 추가 대응자를 호출하고 인시던트에 관련된 인원이 최대한 빠르게 서비스를 복원하는 데 계속 집중하게 하는 것을 포함하여 인시던트 해결에 필요한 조치를 모두 수행할 권한이 있습니다.
  • 기술 리더 - 기술 관련 선임 대응자입니다. 문제와 그 이유에 대한 이론을 개발하고, 변경에 관한 의사결정을 수행하며, 기술팀을 운영하는 일을 담당합니다. 인시던트 관리자와 긴밀하게 협업합니다.
  • 커뮤니케이션 관리자 - 대중 커뮤니케이션에 능숙한 담당자로, 보통 고객 지원팀 또는 홍보팀에서 차출됩니다. 내부 및 외부 커뮤니케이션을 작성하고 보내는 일을 담당합니다.

3. 일관적인 프로세스 적용

포함할 내용: 프로세스 단계 및 워크플로

이유: 완전히 똑같은 인시던트는 없습니다. 그렇다고 해서 대응자가 인시던트에 대응하는 데 일관적인 워크플로를 도입할 수 없다는 의미는 아닙니다.

주요 단계를 간략하게 설명하고 팀원이 각 단계에서 예상되는 사항과 다음 단계에 대해 명확하게 알 수 있도록 합니다. 예를 들어 Atlassian은 인시던트의 탐지부터 해결까지 3단계에 걸쳐 7단계로 이루어진 인시던트 대응 흐름을 간략하게 설명합니다.

예:

인시던트 대응 썸네일

As a new incident is detected, the incident manager begins initiating internal communication and response organization. Then the team can begin working on fixing the cause of the incident and reaching a resolution. Strong organization in this stage facilitates action, which is powered by frequent communication. Adhering to a consistent process leads to a faster resolution, including a postmortem exercise we will cover below.

4. 신속한 대응 가능

포함할 내용: 템플릿 및 체크리스트

이유: 인시던트 플레이북은 업무 부담이 높은 시기에도 팀이 따를 수 있을 정도로 간단해야 합니다. Atlassian의 자체 프로세스에는 평가, 에스컬레이션 및 위임과 같은 주요 단계를 한 페이지로 간략하게 설명하는 주요 인시던트 관리자 “치트 시트”가 포함됩니다.

미리 지정된 인시던트 대응 프로세스를 따른다고 해서 그때그때 즉석에서 대응할 여지가 없다는 의미는 아닙니다. 유연성을 갖추고 변화하는 상황에 적응해야 할 때를 알아야 합니다. 인시던트의 정의에 따르면 인시던트란 계획대로 진행되지 않는 시나리오입니다. 하지만 인시던트에 대한 계획을 세울 수 없는 것은 아닙니다. 일련의 플레이를 훈련하고 연습하는 팀은 일반적으로 성공적인 팀입니다.

사용:

인시던트 대응 가치 플레이를 실행해 보세요. 인시던트가 발생하기 전에 팀의 단결력을 개선하고 잠재적인 오해를 해결할 수 있습니다. Atlassian 팀 플레이북 리소스인 Atlassian 팀 플레이북을 통해 팀의 프로세스를 더 효과적으로 이해하여 역동적인 플레이북을 만드세요.

5. 포괄적인 사후 검토 지원

포함할 내용: 사후 검토 프로세스 및 이슈 필드의 개요

이유: 사후 검토는 인시던트 발생에 기여한 모든 원인을 파악하고, 나중에 참조하고 패턴을 찾을 수 있도록 인시던트를 문서화하고, 인시던트가 다시 발생할 가능성 또는 영향을 줄이기 위해 효과적인 예방 조치를 시행하여 인시던트의 가치를 극대화하고자 합니다.

인시던트를 시스템의 신뢰성에 대한 예기치 못한 투자라고 생각한다면 사후 검토는 이 투자의 수익을 극대화하는 방법이라고 할 수 있습니다.

시도:

효과적인 사후 검토를 위해서는 팀이 원인을 쉽게 식별하고 해결할 수 있는 프로세스가 필요합니다. 팀에서 사용하는 정확한 방법은 팀 문화에 따라 다릅니다. Atlassian은 다음과 같이 사후 검토 팀에 효과가 있는 여러 방법을 조합하여 사용하고 있습니다.

  • 오프라인 회의는 적절한 분석을 촉진하고 수정이 필요한 부분에 팀의 역량을 집중할 수 있게 해 줍니다.
  • 배포팀 및 운영팀 관리자의 사후 검토 승인을 통해 팀이 사후 검토를 더욱 철저히 수행하도록 유도합니다.
  • 우선 순위 조치 지정에는 지정된 서비스 수준 목표(SLO)가 있으며, 각 조치를 완료하도록 확인하는 알림 및 보고서가 제공됩니다.

Atlassian 인시던트 대응 사후 검토에 대한 단계별 개요는 인시던트 관리 핸드북의 46페이지에서 확인할 수 있습니다.

궁극적으로 팀이 효과적으로 협업하여 인시던트를 최대한 빨리 해결하도록 유도하는 데 인시던트 대응 플레이북을 사용해야 합니다. 인시던트가 발생하면 모범 사례에 대해 토론하고 서로를 탓할 시간이 없습니다. 철저하게 잘 설계된 플레이북은 팀이 최고의 성과를 내도록 지원합니다. Atlassian에서 모든 플레이에 대한 안내는 인시던트 관리 핸드북에 자세히 나와 있습니다.

Up Next
oncall