Gerenciamento de incidentes para equipes de alta velocidade
A importância de um processo de análise retrospectiva de incidentes
Incidentes acontecem.
Não há como impedir. À medida que os sistemas crescem em escala e complexidade, as falhas são inevitáveis.
Contudo, incidentes também são uma oportunidade de aprendizado.
Uma chance de descobrir vulnerabilidades no sistema, uma oportunidade de mitigar incidentes repetidos e diminuir o tempo de resolução ou um momento para reunir as equipes e planejar como elas podem ter um desempenho ainda melhor da próxima vez.
A melhor maneira de resolver o que aconteceu durante um incidente e capturar todas as lições aprendidas é conduzindo uma análise retrospectiva do incidente, também conhecida como revisão pós-incidente.
Uma análise retrospectiva de incidente reúne as pessoas para discutir os dados de um incidente: por que aconteceu, seu impacto, quais ações foram tomadas para mitigá-lo e resolvê-lo e o que deve ser feito para evitar que aconteça de novo.
Graças a ferramentas como controle de versão, sinalizadores de funções e entrega contínua, muitos incidentes podem ser "desfeitos" com rapidez. Muitos incidentes são causados por algum bug em uma mudança enviada para a produção. Reverter essa mudança pode fazer com que o aplicativo volte a funcionar, o que é benéfico para todos, pois faz com que o serviço volte a funcionar com rapidez. Mas, muitas vezes, você não entende o que falhou e por quê. É aqui que entram as análises retrospectivas.
Uma análise retrospectiva de incidente é uma estrutura para aprender com os incidentes e transformar problemas em progresso. Ela também fortalece a confiança com clientes, colegas e usuários finais (em resumo, as pessoas afetadas pelo incidente) e permite que eles saibam que a equipe está trabalhando para minimizar futuros incidentes e impactos.
A chance to uncover vulnerabilities in your system. An opportunity to mitigate repeat incidents and decrease time to resolution. A time to bring your teams together and plan for how they can be even better next time.
The best way to work through what happened during an incident and capture any lessons learned is by conducting an incident postmortem, also known as a post-incident review.
An incident postmortem brings people together to discuss the details of an incident: why it happened, its impact, what actions were taken to mitigate it and resolve it, and what should be done to prevent it from happening again.
Thanks to tools like version control, feature flags, and continuous delivery, a lot of incidents can be quickly “undone.” Many incidents are caused by some bug in a change pushed to production, and rolling back that change can get the app up and running again. This is really beneficial for everyone, it gets the service quickly working again. But it often doesn’t help you understand what failed and why. This is where postmortems come in.
An incident postmortem is a framework for learning from incidents and turning problems into progress. It also builds trust with customers, colleagues, and end users (basically the folks affected by the incident) and lets them know your team is working to minimize future incidents and impact.
Uma análise retrospectiva é uma etapa importante no ciclo de vida de um serviço sempre ativo. As descobertas da análise devem retroalimentar o processo de planejamento. Assim, você garante que o importante trabalho de remediação identificado na análise retrospectiva encontre um lugar nos próximos trabalhos e seja equilibrado com outros trabalhos futuros e prioridades.
Configuração de um on-call schedule com o Opsgenie
Neste tutorial, aprenda a configurar um on-call schedule, aplicar regras de substituição, configurar notificações de plantão e muito mais. Tudo no Opsgenie.
Leia este tutorialTemplates análise retrospectiva de incidentes: melhore o processo de resposta
Acesse templates personalizáveis de análise retrospectiva de incidentes para agilizar a análise e aprimorar as futuras respostas a incidentes.
Leia este artigo