Close

더 나은 인시던트 관리를 위한 길은 여기에서 시작됩니다

알림 피로를 이해하고 방지하기

2013년, 미국 최고의 병원 중 한 곳에 입원한 16세 소년이 약물 용량의 3,800%를 투여받는 사건이 있었습니다.

병원의 기본적인 알림 시스템에서는 과다 복용 지시를 감지하고 의사와 약사에게 알림을 보냈습니다. 그러나 얼마 후 과다 용량이 투여되었고 소년에게는 발작과 전신 마비가 일어났으며, 그렇게 삶을 위한 투쟁이 시작되었습니다.

대기 근무 책 PDF 미리보기

대기 근무 책 다운로드

이 필수 가이드를 통해 효과적인 프로그램을 만들고 구현하는 방법을 알아보세요

약물이 소년의 침대까지 도착하기 전에 안전 시스템에서도 문제를 발견했는데, 어떻게 이런 일이 일어날 수 있습니까?

바로 알림 피로 때문입니다.

시스템에서는 매일 처리하는 수백 개의 처방전 중 약 50%에 대해 알림을 생성하기 때문에, 의사와 약사 모두 시스템의 알림을 무시했습니다. 의사와 약사는 알림의 대부분이 허위 경보라는 것을 알게 되었고, 이에 대처하기 위해 알림은 형식적으로 한 번 보는 정도에 그쳤습니다.

그래서 알약 한 알을 복용해야 하는 소년이 38알을 복용하게 되었습니다. 생명에는 지장이 없었지만, 건강에 미치는 결과는 상당했습니다.

이러한 사례는 병원과 항공 업계에서 흔하게 발생하며, 치명적인 결과를 초래하는 경우가 너무나도 많습니다. 실제로 2013년 설문 조사에 따르면 병원 20곳 중 19곳에서는 가장 큰 안전 문제로 알림 피로를 꼽았습니다.

위험의 성질은 다르지만, 비즈니스를 주도하는 상시 가동 기술을 모니터링하는 IT 및 DevOps 팀에서도 알림 피로가 흔히 발생합니다.

알림 피로란 무엇입니까?

알림 피로(경보 피로라고도 함)는 알림에 대응하는 임무를 맡은 담당자가 알림을 너무 많이 받은 나머지 민감도가 낮아져 알림을 놓치거나, 무시하거나, 대응이 지연되는 경우입니다.

대다수의 직원에 따르면 주요 문제는 알림의 개수가 너무 많다는 것입니다. 알림이 한 개라면 대기 중 직원의 정상적인 업무 시간이나 자유 시간을 방해하더라도 쉽게 대응할 수 있습니다. 하지만 12개의 알림이 연속적으로 발생한다면 쉽지 않습니다. 그리고 그 개수가 많을수록 직원이 중요한 알림을 놓칠 가능성이 높아집니다.

이 문제는 많은 알림이 허위 경보라는 사실로 인해 더 심각해집니다. 의료 업계에서 진행된 연구에 따르면 모든 임상 경보의 72~99%가 허위 경보인 것으로 나타났습니다. 보안 업계에서 실시한 한 설문 조사에 따르면 알림의 52%는 허위 알림이며 64%는 중복되는 것으로 나타났습니다.

이렇게 수많은 허위 알림 때문에, 위 사례의 의사와 약사가 시스템의 과다 복용 알림을 중요하지 않은 경보라고 가정하여 닫은 것처럼, 직원은 대부분의 알림이 잘못된 것이라고 가정하고 그에 따라 행동하게 됩니다.

알림 피로의 3단계
인시던트 피로의 3단계

알림 피로의 심리

알림 피로는 병원의 10대 안전 문제 중 하나입니다. 빈번한 경보를 정신적으로 차단하는 것은 지나치게 많은 알림에 대한 전형적인 심리적 반응이기 때문입니다.

그 이유는 우리가 일반화, 둔감화 또는 습관화라고 부르는 것으로, 이 세 가지 개념은 본질적으로 같은 의미를 가지고 있습니다. 무언가에 더 많이 노출될수록 더 많이 참고 일반화하고 간과한다는 것입니다.

이는 직장을 비롯해 직장 밖의 생활 모두에 적용됩니다. 예를 들어, 지나치게 끈질긴 남자 주인공이 등장하는 로맨틱 영화는 실생활에서 여성이 스토킹 행동을 용인하는 수준에 상당한 영향을 미칩니다. 챌린저 우주 왕복선의 기본 O-링에 대한 무관심이 일반화되면서 1986년 챌린저 폭발이 발생했습니다. 애리조나의 페트리파이드 포레스트 국립공원에서 공원의 석화 나무를 훔치지 말라는 표지판을 설치했을 때, 표지판이 역효과를 일으켜 도난이 일반화되고 늘어났습니다.

장난 전화가 끊임없이 걸려오면 해당 번호를 차단하거나 휴대폰 전원을 끄게 될 수 있는 것처럼 잘못되거나, 중복되거나, 중요하지 않은 경보를 끝없이 받게 되면 무시하게 되는 경우가 많습니다. 이것은 인간의 본성입니다.

그리고 여기서 전체적으로 발생하는 현상은 알림의 일반화뿐만이 아닙니다. 동일한 알림이 반복되면 알림 피로가 훨씬 높아집니다. 한 연구에 따르면 임상의의 경우 미리 알림을 받을 때마다 알림을 수락할 가능성이 30% 감소한 것으로 나타났습니다.

알림 피로의 위험

누락되거나 무시된 알림

위에 나온 안타까운 십대 입원 환자의 예시처럼, 알림 피로의 가장 큰 위험은 알림을 놓치거나 무시하는 것입니다. 알림 시스템이 잘못된 알림을 너무 많이 보내거나 위험한 알림(예: 3,800% 과다 복용)과 경미한 알림(예: 0.1% 과다 복용)을 구별하지 않는 경우 직원은 이러한 알림에 주의를 덜 기울이게 되는 것입니다.

이로 인해 DevOps 및 IT Ops에서는 더 많은 인시던트가 발생하고 수익, 비용 및 브랜드 평판 모두에서 심각한 결과를 초래할 수 있습니다.

느린 대응 시간

알림 피로는 대응 시간에도 영향을 미칩니다. 알림을 놓치거나 영구적으로 무시되지는 않더라도, 일시적으로 무시될 수는 있습니다. 결국, 받은 마지막 10개의 알림이 허위 경보였다면 대기 중 직원이 열한 번째 알림을 받았을 때 저녁 식사나 잠을 제치고 달려올 가능성이 첫 번째 알림을 받았을 때와 마찬가지로 똑같이 높겠습니까? 아니면 저녁 식사를 먼저 끝내도 괜찮을 것이라고 생각하겠습니까?

번아웃

지속적인 알림, 수면 시간 방해 및 가득 찬 받은 편지함은 직원 번아웃을 유발하는 요인이며, 이는 이직률을 높이고 직무 만족도와 생산성을 낮출 수 있습니다.

알림 피로를 방지하는 방법

알림 피로는 다양한 업계에서 겪고 있는 중대한 문제이며, 심각한 결과를 초래하기도 합니다. 그렇다면 무시되는 알림, 느린 대응 시간 및 직원 번아웃을 어떻게 방지할 수 있습니까? 전문가들은 이를 해결할 수 있는 방법이 알림 프로세스 및 정책이라고 답합니다.

지능형 임계값 설정

알림이 대기 중 담당자에게 부담을 주지 않도록 하는 한 가지 방법은 지능형 임계값을 설정하는 것입니다. 여기에서 중요한 질문은 다음과 같습니다. 모든 알림에 즉각적인 주의가 필요합니까? 모든 알림의 중요도가 같습니까? 즉각적인 알림이 필요한 문제와 정상적인 근무 시간 중에 처리할 수 있는 문제는 무엇입니까?

정답은 항상 균형 잡힌 조치를 취하는 것입니다. 너무 적은 알림은 인시던트를 놓쳤다는 것을 의미할 수 있지만, 알림이 너무 많으면 알림 피로로 인해 인시던트를 놓칠 수도 있습니다.

균형 잡힌 조치는 어떤 기술 회사에게나 어려운 일입니다. 균형을 찾으려고 시도하지 않으면 시스템은 보통 너무 많은 알림을 보내는 오류를 범하고 약물 3,800% 과다 복용으로 이어진 것과 같은 상황이 발생합니다.

항공 업계는 알림 피로를 성공적으로 해결하는 데 앞장서고 있는 것으로 보이며, 그 이유 중 하나는 임계값을 높게 설정했기 때문입니다. 컴퓨터는 10,000개 이상의 데이터 포인트를 추적할 수 있지만 알림이 전혀 없는 항공편(사소한 알림 포함)의 비율은 10% 미만입니다.

Chesley “Sully” Sullenberger 기장은 Medium Backchannel의 한 글에서 다음과 같이 설명합니다.

“이제 조종석의 경고에 우선 순위가 지정되므로 경보 피로가 유발되지 않습니다... 오탐지는 알림 시스템에서 발생할 수 있는 최악의 일 중 하나이기 때문에 저희는 오탐지를 방지하기 위해 열심히 노력합니다. 직원들이 조율하게 됩니다.”

계층화된 알림 우선 순위 설정

모든 알림의 중요도가 다르다면, 알림은 의사의 승인 양식, 개발자의 받은 편지함 또는 조종사 계기판에 동일하게 표시되지 않아야 합니다. 알림의 우선 순위를 설정하고 시각적, 청각 및 감각적 신호를 사용하여 중요도를 표시하면 알림 피로를 크게 줄일 수 있습니다.

약물 3,800% 과다 복용의 경우 문제의 큰 부분은 시스템의 알림 임계값이 매우 낮았고 모든 알림에 동일한 우선 순위가 부여되었다는 것입니다. 0.1% 과다 복용 알림은 3,800% 과다 복용 알림과 똑같은 모습이었습니다. 그리고 약물 요청의 50%에서 알림이 생성됨에 따라 임상의들은 모든 알림을 무시하는 쪽으로 적응했습니다.

다시 강조하자면, 항공 업계는 우선 순위에 대한 계층을 적극적으로 설정하는 것뿐만 아니라 다양한 시각 및 감각적 신호로 우선 순위를 명확하게 나타내는 좋은 본보기가 됩니다. 조종사 계기판에 빨간색 표시등, 빨간색 텍스트 메시지, 음성 경고 및 조종 장치의 진동이 포함된 빨간색 알림이 표시되는 유일한 시간은 비행기가 즉각적인 위험에 처해 있고 조종사가 즉시 조치를 취해야 하는 경우입니다. 아무도 이러한 알림이 무시되기를 바라지 않으므로 알림은 고유한 특수 범주를 갖습니다.

비행기를 자주 타는 경우에도 엔진 화재 또는 기내 압력 손실과 같이 위험한 것처럼 들리는 알림조차도 경고(비행기의 비행 경로에 영향을 미치는 이벤트), 주의(조종사가 즉각적으로 인지해야 하지만 즉각적인 조치가 필요하지는 않은 이벤트), 그리고 권고(조치가 필요하지 않지만 어떤 일이 발생했는지 조종사가 알아야 하는 이벤트)로 하향 조정됩니다.

알림의 중요성이 떨어지면 알림을 둘러싼 시각적, 청각 및 감각적 신호도 떨어집니다. 경고는 빨간색 표시등, 텍스트 메시지 및 음성 알림을 보냅니다(조종 장치가 흔들리는 것은 아니더라도). 주의는 일반적으로 주황색 표시등과 텍스트 메시지를 트리거합니다. 그리고 권고는 주황색 텍스트 메시지를 보내며 표시등은 없습니다.

조종사는 이러한 신호를 기반으로 우선적으로 주의가 필요한 알림과 우선 순위를 지정해야 하는 다른 중요한 작업 또는 일련의 알림을 처리하는 경우 잠시 무시할 수 있는 알림을 즉시 파악할 수 있습니다.

조치 가능한 알림 만들기

모호한 알림은 조치를 취할 수 있는 구체적인 알림보다 더 많은 집중력, 주의 및 시간을 요구합니다. 엄청난 수의 알림으로 인해 이미 피로가 쌓인 직원에게 더 많은 집중력과 주의를 요구하면 생산성이 낮아지고 알림을 놓치게 됩니다.

DevOps 팀이 항공 업계로부터 배울 수 있는 또 하나의 부분입니다. 조종사의 계기판에 표시되는 각 알림의 종류에 대해, 알림에 상응하는 조치를 취할 수 있는 확인 목록도 있습니다.

중복된 알림 통합

중복된 알림은 알림 피로의 주요 원인 중 하나입니다. 한 연구에 따르면 동일한 알림을 상기시킬 때마다 알림을 받은 사용자의 주의력이 30% 감소한 것으로 나타났습니다. 또다른 연구에 따르면 보안 시스템의 모든 알림 중 60% 이상은 중복되는 것으로 나타났습니다.

알림을 통합하고 가능한 경우 미리 알림을 줄이면 알림의 부하를 더 쉽게 관리하고 직원의 주의력을 높일 수 있습니다.

균형 잡힌 일정 수립

지능형 임계값과 계층형 시스템을 사용하더라도 회사(특히 대기업)에서는 상당한 수의 알림을 처리하게 될 수 있습니다.

시스템을 최적화한 후에는 프로세스와 직원을 살펴보는 것도 중요합니다. 대기 중 담당자가 충분합니까? 한 명의 직원이나 팀에 대한 알림의 부담이 너무 커지고 있으며 그 부담을 나눌 수 있습니까? 알림은 얼마나 자주 발생합니까? 지원 범위가 더 많이 또는 더 적게 필요한 특정 시간대가 있습니까?

정보 통합

일반적인 DevOps 전문가는 성능 문제의 근본적인 원인을 파악하기 위해 최소 5개의 도구를 사용합니다. 즉, 알림 위치, 스타일 및 유형이 다양합니다. 그러면 또한 많은 중복된 작업이 발생합니다. 5개의 각 시스템에 비슷한 알림이 있는 경우, 알림 검토 워크로드가 500% 증가하는 셈입니다.

알림과 정보를 더 많이 통합할수록 이러한 알림 및 관련 정보를 정리하는 데 따르는 피로를 줄일 수 있습니다.

지속적인 검토 및 개선을 우선시

알림 피로와 그에 따른 위험을 해결해 주는 하나의 만능 해결책은 없습니다. 프로세스, 알림 및 시스템을 정기적으로 검토하여 적절한 균형을 유지하고 있는지 확인하는 것이 중요합니다.

알림을 놓치고 있습니까? 그렇다면 그 이유는 무엇입니까? 임계값을 너무 높게 설정했거나 너무 낮게 설정했습니까? 시각적 신호가 효과를 보이지 않습니까? 직원이 알림을 일반화했으며, 설계를 변경하면 더 주의를 기울일 수 있습니까? 이러한 질문과 이와 유사한 질문을 정기적으로 다시 검토해야 합니다.

Jira Service Management와 Opsgenie를 통합하는 데 따른 이점을 살펴보고 알림 유연성 및 사용자 지정 기능이 실제로 작동하는 방식을 알아보세요.

다음 단계
Improving on call