Close

빠른 속도의 팀을 위한 인시던트 관리

IT 운영을 위한 인시던트 관리 최적화

서비스 중단은 비즈니스 수익에 영향을 미칩니다.

가동 중지 시간은 수익 손실을 유발할 뿐만 아니라, 평판이 떨어지고, 컴플라이언스 및 규정에 따른 벌금이 발생하고, 고객을 잃고, 운영 비용이 증가하고, IT 전문가가 인시던트를 해결하기 위해 다른 프로젝트를 중단함에 따라 지연이 발생할 수 있습니다.

실제로 IHS의 한 보고서에 따르면 가동 중지 시간으로 인해 북미 조직에 연간 7천억 달러가 넘는 비용이 발생하며, 비용의 78%는 직원 생산성 손실로 인한 것으로 추정됩니다.

In fact, one report by IHS estimated downtime costs North American organizations over $700 billion per year—and 78% of that cost is attributed to lost employee productivity.

IT 가동 중지 시간을 보여주는 9페이지의 그래픽입니다. 지금까지 가장 큰 비용은 직원 생산성이라는 점을 강조합니다. IT 가동 중지 시간으로 인해 북미 기업에는 연간 7천억 달러의 비용이 발생하며, 대부분 직원 생산성 저하로 인한 것입니다.

수치를 보면 수익 손실이 인시던트 관리에서 유일한 우선 순위 또는 가장 중요한 우선 순위는 아니라는 것을 분명히 알 수 있습니다. 또한 최적화된 인시던트 관리 프로세스는 인시던트 관리 이면에 있는 직원, 프로세스 및 기술의 비용이 많이 드는 실질적인 문제를 해결해야 합니다.

최신 IT 인시던트 관리가 직면한 과제

단절된 프로세스 및 기술

40년 간 이루어진 컴퓨팅 혁신의 부작용은 현재 많은 회사가 다양한 애플리케이션과 시스템을 혼합하여 운영하고 있다는 것입니다. 어떤 애플리케이션은 상세하게 제어할 수 있는 자체 데이터 센터에 있는 반면, 다른 애플리케이션은 클라우드에서 제공되고 타사 공급자가 관리합니다.

여러 애플리케이션, 서비스 및 시스템의 모음으로 인해 로깅, 모니터링 및 알림을 위한 솔루션과 프로세스가 미약하게 연결되어 있는 경우가 많습니다. 기업에서 수십 개의 모니터링 도구를 사용하여 매일 수천 개의 애플리케이션 이벤트 또는 알림을 추적하는 것은 드문 일이 아닙니다.

이러한 접근 방식에서는 알림의 양이 너무 많아지고, 커뮤니케이션이 무너지고, 대기 중 직원의 우선 순위가 명확해지지 않고, 여러 가지가 섞여 있는 프로세스에서 한 단계만 실패해도 모든 것이 중단되는 상황으로 이어질 수 있습니다.

엄청난 양의 알림/인시던트

많은 IT 운영 부서는 알림의 양과 관련된 문제에 대처하기 위해 알림을 이메일 수신함으로 전달합니다. 그러나 이것은 문제를 악화시킬 뿐이며, 인시던트의 우선 순위를 지정하고 중요한 메시지를 에스컬레이션하는 고위 직원이 이메일을 연중무휴로 모니터링해야 하는 상황이 발생합니다.

알림이 끝없이 오면 부담이 될 수 있으며 알림 피로, 번아웃, 업무 불만, 불안 및 더 긴 대응 시간으로 이어질 수 있습니다. 직장에서의 직원 복지와 생산성 모두에 영향을 주며, 결과적으로 비즈니스 수익에도 직접적인 영향을 미칩니다.

운영 비용 상승

인프라 비용은 감소한 한편 운영 비용은 상승했으며, 그 비용은 부분적으로는 전체 시스템을 제어하지 않을 때 발생하는 디버깅 문제의 복잡성으로 인해 발생했습니다.

잘못된 성공 메트릭 측정

서비스 데스크 운영의 성공은 통화 처리량 및 평균 통화 시간과 같은 메트릭으로 측정되는 경우가 많았으며, 둘 다 인시던트 관리의 효과성을 직접적으로 측정하거나 이에 기여하지 않습니다.

MTTR 및 MTBF와 같은 유용한 메트릭 역시 이들만으로는 인시던트 관리 성능을 개선하기에 충분하지 않습니다. 이슈를 파악하는 데 도움이 되지만 인시던트가 어떻게, 왜 발생하고 해결되는지, 그리고 메트릭을 개선하는 방법에 대한 더 까다롭고 정량적인 질문에 답해주지는 못합니다.

오래된 인시던트 대응 팀 구조

최근 10년 전까지만 해도 운영 팀의 주요 업무는 IT 인시던트에 대응하는 것이었습니다. 조직에서는 일반적으로 고객 또는 모니터링 도구에서 보고한 이슈에 대응하기 위해 계층식 팀 구조(수준 1, 수준 2, 수준 3)를 구현했습니다.

당시의 인시던트 관리 목표는 지금과 똑같이, 서비스 수준을 유지하면서 운영 비용을 최소화하는 것이었습니다. 그래서 수준 1 대응자는 일반적으로 비용이 낮은 초급 직원이었습니다. 이 대응자가 인시던트를 해결할 수 없는 경우 수준 2(일반적으로 경험이 더 많은 중급 전문가)로 에스컬레이션했습니다. 그리고 이슈가 해결될 때까지 에스컬레이션 프로세스가 계속되었습니다.

이 프로세스는 비용 절감을 우선시하지만 애질리티를 희생합니다. 인시던트가 초급 직원에서부터 시작되어 여러 단계에 걸쳐 에스컬레이션이 필요한 팀의 대응 시간이 느려지면 인시던트 해결 타임라인에 즉각적인 영향을 미칠 수 있으며, 소셜 미디어 채널에 고객의 불만 사항이 퍼지면서 회사의 평판에 직접적인 영향을 줍니다.

또한 회사가 직원 생산성 손실로 인해 인시던트 관리 비용의 78%를 잃는 상황에서, 에스컬레이션 모델이 실제로 회사에 비용 절약 효과를 가져다주지 못한다는 점은 분명합니다. 소프트웨어를 만든 직원이 15분 안에 버그를 수정할 수 있는데도 초급 직원이 2시간을 소모한 후에 결국 에스컬레이션해야 한다면 효율적인 시스템이라고 할 수 없습니다.

상시 가동되는 서비스의 세계에서 애질리티는 그 어느 때보다 중요해졌습니다. 회사가 비용을 최소화하려면 애질리티를 최대화해야 하기 때문에 평균 대응 시간 및 평균 해결 시간과 같은 메트릭이 주목을 받고 있습니다.

IT 인시던트 관리 프로세스를 최적화하는 방법

이제 인시던트 관리 노력의 초점을 오늘날의 새로운 비즈니스 현실이 반영된 프로세스, 팀 구조 및 관행에 맞춰야 할 시기입니다. 하지만 초점을 다시 맞추는 과정은 어떤 모습일까요?

알림의 우선 순위 지정 및 통합

알림 피로의 주범이자 생산성 손실의 주요 원인은 무의미하고 조치 불가능한 과다한 알림입니다. 가장 간단한 해결책은 바로 중요한 시스템을 파악하고, 중복된 알림을 제거하고, 알림에 대한 명확한 우선 순위 계층을 만드는 것입니다.

팀에 적합한 대기 일정 수립

알림 피로, 번아웃 및 비효율성을 없애려면 팀에 적합한 대기 일정이 있어야 합니다. 즉, 한 명이나 한 팀에 과중한 부담을 주지 않고, 필요한 경우 백업 지원을 제공하며, 일정의 효과성을 정기적으로 재평가해야 합니다.

가능한 부분을 자동화

수십 개의 보고서를 수동으로 살펴보고 그 중에서 어떤 것이 중요한지 파악하여 에스컬레이션하면 집중력을 잃기 쉽습니다. 좋은 소식은, 더 이상 팀원이 수동으로 이러한 작업을 할 필요가 없으며 자동화를 통해 이러한 작업을 제거하여 생산성 손실과 알림 피로를 방지할 수 있다는 것입니다.

또한 알림 라우팅, 알림, 중복 제거, 메시지 워크플로, 컨퍼런스 브리지 만들기, 상태 페이지 업데이트, 대기 일정, 에스컬레이션 프로세스 및 KPI 추적을 모두 또는 부분적으로 자동화하여 팀의 시간을 절약하고 일련의 반복 작업에서 발생하는 사람의 실수를 줄일 수 있습니다. 시간이 지날수록 자동화가 회사의 비용을 절약해준다는 것은 말할 것도 없습니다.

채널 및 이해 관계자 간의 효과적인 커뮤니케이션

인시던트는 내부 및 외부의 다양한 이해 관계자에게 영향을 미치기 때문에 이러한 이해 관계자에게 정보를 제공해야 합니다. 연구에 따르면 비즈니스 이해 관계자의 87%는 인시던트에 대한 업데이트를 받기 원합니다(56%는 인시던트 자체보다 커뮤니케이션의 부족으로 인해 더 불만스러워 함). 고객들도 마찬가지입니다.

상시 가동 서비스를 유지해야 하는 시대에, 확고한 인시던트 커뮤니케이션 계획을 마련하는 것은 최적화의 중요한 부분입니다.

올바른 메트릭을 쉽게 추적

성공 메트릭을 추적하고 검토하기가 쉬울수록 팀에서 메트릭을 따라잡을 가능성이 높습니다. 가능한 경우 보고를 자동화하고 팀에 어떤 메트릭이 왜 중요한지 미리 명확하게 제시하세요.

비난을 배제한 사후 검토 진행

앱이나 데이터베이스가 다시 온라인 상태라고 해서 인시던트가 끝난 것은 아닙니다. 인시던트를 방지하고 향후 인시던트에 소요되는 시간을 줄이며 프로세스, 팀 및 정책이 인시던트 관리에 미치는 영향을 더 효과적으로 파악하려면 사후 검토를 수행해야 합니다.

Atlassian의 사후 인시던트에는 비난이 배제됩니다. 즉, 비난할 누군가를 찾는 것이 아니라 성능을 개선하고 앞으로 나아가는 데 중점을 둡니다.

프로세스와 요구 사항을 지원하는 기술 선택

자동화, 알림 우선 순위 지정, 대기 일정, KPI 추적입니다. 효과적으로 해내려면 각각의 필수적인 프로세스에는 지원하는 기술이 필요합니다. 기술을 선택하기 전에 목표, 프로세스 및 팀 요구 사항을 파악해야 합니다. 알림을 자동으로 구성하고, 중복을 제거하고, 우선 순위를 지정하려면 그런 기능을 갖춘 솔루션, 즉 Jira Service Management와 같은 솔루션이 필요합니다.