빠른 속도의 팀을 위한 인시던트 관리
인시던트 사후 검토 프로세스의 중요성
인시던트는 발생하기 마련입니다.
시스템의 규모와 복잡성이 증가할수록 실패는 불가피합니다.
인시던트는 학습의 기회이기도 합니다.
시스템의 취약성을 발견하고 반복적인 인시던트를 완화하며 해결 시간을 단축할 기회입니다. 이 기회를 통해 팀을 하나로 모으고 다음 번에 더 개선할 방법을 계획할 수 있습니다.
인시던트 중에 발생한 일을 분석하고 배운 교훈을 기록하는 데 가장 좋은 방법은 인시던트 사후 검토입니다.
인시던트 사후 검토에서는 다같이 모여 인시던트의 세부 사항, 즉 인시던트가 발생한 이유, 영향, 완화하고 해결하기 위해 취한 조치 및 다시 발생하지 않도록 해야 할 일에 대해 논의합니다.
버전 관리, 기능 플래그 및 지속적 제공과 같은 도구 덕분에 많은 인시던트는 빠르게 해결 가능합니다. 프로덕션으로 푸시된 변경의 버그로 인해 발생하는 경우가 많으며, 변경을 롤백하면 앱이 다시 작동할 수 있습니다. 이 도구는 모든 사용자에게 유용하며 서비스가 빠르게 다시 작동되도록 합니다. 하지만 무엇이 왜 실패했는지 파악할 수 없는 경우가 많습니다. 이때 사후 검토를 활용하면 됩니다.
인시던트 사후 검토는 인시던트로부터 배우고 문제를 통해 발전하기 위한 프레임워크입니다. 또한 고객, 동료, 최종 사용자(기본적으로 인시던트의 영향을 받는 사용자)와의 신뢰를 쌓으며 팀이 향후 인시던트 및 그 영향을 최소화하기 위해 노력하고 있다는 것을 알립니다.
A chance to uncover vulnerabilities in your system. An opportunity to mitigate repeat incidents and decrease time to resolution. A time to bring your teams together and plan for how they can be even better next time.
The best way to work through what happened during an incident and capture any lessons learned is by conducting an incident postmortem, also known as a post-incident review.
An incident postmortem brings people together to discuss the details of an incident: why it happened, its impact, what actions were taken to mitigate it and resolve it, and what should be done to prevent it from happening again.
Thanks to tools like version control, feature flags, and continuous delivery, a lot of incidents can be quickly “undone.” Many incidents are caused by some bug in a change pushed to production, and rolling back that change can get the app up and running again. This is really beneficial for everyone, it gets the service quickly working again. But it often doesn’t help you understand what failed and why. This is where postmortems come in.
An incident postmortem is a framework for learning from incidents and turning problems into progress. It also builds trust with customers, colleagues, and end users (basically the folks affected by the incident) and lets them know your team is working to minimize future incidents and impact.
사후 검토는 상시 가동 서비스의 수명 주기에서 중요한 단계입니다. 사후 검토의 결과는 계획 프로세스에 바로 반영해야 합니다. 이렇게 하면 사후 검토 과정에서 식별한 중요한 수정 작업이 향후 작업에서 적절히 이루어지고 다른 향후 작업 및 우선 순위와 균형을 이룰 수 있습니다.