Close

더 나은 인시던트 관리를 위한 길은 여기에서 시작됩니다

효과적인 인시던트 대응의 7단계

인시던트 대응은 사이버 공격, 보안 침해 및 서버 가동 중지 시간과 같은 IT 위협에 대응하는 조직의 프로세스입니다.

다른 IT Ops 및 DevOps 팀은 이 관행을 주요 인시던트 관리 또는 단순히 인시던트 관리라고 지칭할 수 있습니다.

다음 섹션에서는 인시던트 핸드북의 자료를 기반으로 인시던트 대응 프로세스, 즉 서비스가 중단되었음을 인식한 후 복구하고 다시 실행하는 것 사이의 작업에 대해 설명합니다.

이 문서에서는 인시던트 대응의 7가지 주요 단계를 다룹니다.

  1. 인시던트 감지
  2. 팀 커뮤니케이션 채널 설정
  3. 영향 평가 및 심각도 수준 적용
  4. 고객과 소통
  5. 적절한 대응자에게 에스컬레이션
  6. 인시던트 대응 역할 위임
  7. 인시던트 해결
인시던트 대응 워크플로

인시던트 감지

모니터링 및 알림 도구는 고객이 알아차리기 전에 인시던트를 감지하고 팀에 알리는 것이 이상적입니다. 하지만 때로는 Twitter 또는 고객 지원 티켓을 통해 인시던트에 대해 먼저 알게 될 수도 있습니다.

No matter how the incident is detected, your first step should be to record that a new incident is open in a tool for tracking incidents. In an incident management solution such as Jira Service Management, alerting and communication is integrated with your tracking tool.

팀 커뮤니케이션 채널 설정

One of the first things the incident manager (IM) does when they come online is set up the incident team's communication channels. The goal at this point is to establish and focus all incident team communications in well-known places, such as:

  • Slack 채팅방 또는 다른 메시징 서비스.
  • Zoom과 같은 회의 앱의 화상 채팅(또는 모두 같은 장소에 있는 경우 실제 회의실에 팀 소집).

인시던트 발생 시 화상 채팅과 문자 채팅 도구를 모두 사용하는 것이 좋습니다. 둘 다 서로 다른 부분에서 탁월하기 때문입니다. 화상 채팅은 그룹 토론을 통해 인시던트에 대한 개념을 빠르게 만들어 공유하는 데 적합합니다. 또한 Slack은 스크린샷, URL 및 대시보드에 대한 수집된 링크와 함께 인시던트의 타임스탬프 기록을 생성하는 데 도움이 됩니다.

Slack을 비롯한 대부분의 다른 채팅 도구를 사용하면 사용자가 채팅방 토픽을 설정할 수 있습니다. 인시던트 관리자는 인시던트 및 유용한 링크에 대한 정보를 위해 이 필드를 사용해야 합니다.

마지막으로, IM은 자신의 개인 채팅 상태를 현재 관리 중인 인시던트의 이슈 키로 설정합니다. 이를 통해 동료들은 IM이 현재 인시던트를 관리하고 있음을 알 수 있습니다.

영향 평가 및 심각도 수준 적용

인시던트 팀의 커뮤니케이션 채널이 설정된 후에는, 팀에서 인시던트에 대해 알릴 내용과 해당 인시던트를 해결할 담당자를 결정할 수 있도록 인시던트를 평가해야 합니다.

IM은 팀에 다음을 질문해야 합니다.

  • 내부 또는 외부 고객에게 어떤 영향을 미치는가?
  • 고객이 어떤 이슈를 겪고 있는가?
  • 얼마나 많은 고객이 영향을 받는가(일부 또는 전체)?
  • 언제 시작되었는가?
  • 고객이 얼마나 많은 지원 사례를 열었는가?
  • Twitter, 보안 또는 데이터 유실과 같은 다른 요인이 있는가?

The next step typically is to assign a severity level.

인시던트 대응 심각도 수준

심각도 1
설명: 매우 큰 영향을 미치는 중요 인시던트
예시:

  • 고객이 직접 사용하는 서비스가 모든 고객을 대상으로 중단됨
  • 기밀 유지 또는 개인 정보 보호 위반
  • 고객 데이터 손실

심각도 2
중대한 영향을 미치는 주요 인시던트
예시:

  • 고객이 직접 사용하는 서비스가 모든 고객이 아닌 일부 고객을 대상으로 중단됨
  • 핵심 기능이 중대한 영향을 받음

심각도 3
적은 영향을 미치는 경미한 인시던트
예시:

  • 고객에게 경미한 불편을 끼치며 임시 해결책이 있음
  • 성능만 저하되었으며 기능이 사용 가능함

심각도 수준에 번호 지정 시스템을 사용하면 인시던트를 신속하게 정의하고 커뮤니케이션하는 데 도움이 됩니다. "심각도 1이 발생했을 수 있습니다”라고만 말해도 적절한 담당자들은 추가 정보를 얻기 전에 문제의 심각성을 즉시 파악할 수 있습니다.

심각도 수준은 대응 기대치에 대한 가이드라인을 구축하는 데 도움이 될 수도 있습니다.

예를 들어, 일부 회사의 경우 심각도 3 인시던트는 업무 시간 중에 해결할 수 있지만 심각도 1과 2는 즉각적인 해결을 위해 팀원을 호출해야 합니다.

인시던트 심각도 정의는 조직 전체에서 문서화되고 일관성이 있어야 합니다.

고객과 소통

인시던트가 실제로 발생했음을 확인한 후 팀은 최대한 빨리 내부 및 외부의 이해 관계자와 커뮤니케이션하는 것이 가장 좋습니다.

내부 커뮤니케이션은 단일 위치에서 인시던트 대응에 집중하고 혼란을 줄이는 것을 목표로 합니다.

외부 커뮤니케이션의 목표는 팀이 문제가 있음을 인식하고 조사하고 있음을 고객에게 알리는 것입니다. 신속하고 정확한 커뮤니케이션은 고객을 비롯한 조직 내 나머지 직원들과의 신뢰를 구축하는 데 도움이 됩니다.

인시던트에 대한 내부 및 외부 커뮤니케이션에 많은 팀은 Statuspage를 사용합니다. 다음은 내부 또는 외부 Statuspage를 업데이트하기 위한 두 가지 간단한 템플릿입니다.

내부 Statuspage
<인시던트 이슈 키> - <심각도> - <인시던트 요약>

현재 <제품 x>,< 제품 y> 및 <제품 z>에 영향을 미치는 인시던트를 조사하고 있습니다. 이메일과 Statuspage를 통해 곧 업데이트를 제공할 예정입니다.

외부 Statuspage
<제품> 관련 이슈 조사
현재 <제품> 관련 이슈를 조사하고 있으며, 여기에서 곧 업데이트를 제공할 예정입니다.

적절한 대응자에게 에스컬레이션

Sometimes the initial responders are the ones who resolve the incident. More often than not, those responders need to bring other teams into the incident by paging them using an alerting tool. With Jira Service Management, responders can take their pick as to what alerting method they use, or even use them all in one central location.

알림 도구를 사용하면 팀이 대기 중 담당자 명단을 정의하여 인시던트 발생 시 연락이 닿을 것으로 예상되는 직원 교대 근무를 만들 수 있습니다. 인시던트가 발생할 때마다 특정 팀원에게 의존하는 것보다 낫습니다. 해당 팀원이 항상 가능한 상태인 것은 아닙니다(휴가를 가거나 이직을 할 수도 있고, 너무 많이 전화하면 번아웃을 겪을 수도 있습니다).

인시던트 대응 역할 위임

After a new incident responder is paged and comes online, the incident manager delegates a role to them. As It’s important they understand what's required of their role, and how to contribute to the incident team quickly and effectively.

역할을 정의할 때의 또 다른 장점은 적응성과 유연성을 높일 수 있다는 것입니다. 특정 개인이 특정 역할을 수행하는 방법을 알면 다른 인시던트에서도 그 역할을 수행할 수 있습니다.

3가지 주요 인시던트 대응 역할

인시던트 관리자

각 인시던트는 인시던트 관리자가 관리합니다. 인시던트 관리자는 인시던트와 관련된 모든 책임과 권한을 갖습니다.

인시던트 관리자는 인시던트 해결에 필요한 조치를 수행할 권한이 있으며, 여기에는 조직 내 필요한 팀원을 호출하고, 인시던트에 관련된 인원이 최대한 빠르게 서비스를 복구하도록 계속 집중하게 하는 일이 포함됩니다.

기술 리드

선임 기술 대응자로, 기술 리더는 무엇이 왜 잘못되었는지에 대한 이론을 개발하고 변경 사항을 결정하며 기술 팀을 운영합니다. 이 역할은 인시던트 관리자와 긴밀하게 협력합니다.

커뮤니케이션 매니저

대중 커뮤니케이션에 능숙한 담당자로, 보통 고객 지원 팀 또는 홍보 팀에서 차출됩니다. 인시던트에 대한 내부 및 외부 커뮤니케이션을 작성하고 보내는 일을 담당합니다.

인시던트 해결

모든 인시던트를 해결하는 하나의 만능 프로세스란 없습니다. 그런 프로세스가 있다면 프로세스를 자동화하여 간단히 문제를 해결할 수 있었을 것입니다. 대신 과학적 방법에서 영감을 얻으세요. 다양한 인시던트 대응 시나리오에 신속하게 대처하기 위해 다음 프로세스를 반복합니다.

  • 일어나는 일을 관찰합니다. 관찰한 내용을 공유하고 확인합니다.
  • 그 일이 발생한 이유에 대한 이론을 개발합니다.
  • 이론을 증명하거나 반증하는 실험을 개발하고 실행합니다.
  • 인시던트가 해결될 때까지 반복합니다.

현재 발생했거나 임박한 비즈니스 영향이 종료되면 인시던트가 해결된 것입니다. 해당 시점에 긴급 상황 대응 프로세스가 종료되고 팀은 정리 작업 및 사후 검토 작업으로 전환합니다.

인시던트가 해결되면 최종 내부 및 외부 커뮤니케이션을 보냅니다. 내부 커뮤니케이션에는 제기된 지원 사례 수 및 기타 중요한 인시던트 규모와 같이 인시던트의 영향 및 기간을 요약합니다. 또한 인시던트가 해결되었으며 이에 대한 추가 커뮤니케이션이 없을 것임을 명시해야 합니다. 외부 커뮤니케이션은 보통 간략하게 작성하며, 고객에게 서비스가 복구되었고 팀이 사후 검토를 통한 후속 조치를 취할 예정임을 알리면 됩니다.

Conclusion

There are many moving parts to the incident response process. Keeping track of each step with seamless communication is easy with an incident management tool like Jira Service Management. Centralize alerts and unify teams with flexibility to resolve incidents quickly.

다음 단계
사후 검토