O caminho para um gerenciamento de incidentes melhor começa aqui
O que é gerenciamento de incidentes?
O gerenciamento de incidentes é o processo usado pelas equipes de DevOps e operações de TI para responder a um evento ou interrupção de serviço não planejada e restaurar o serviço ao estado operacional.
Na Atlassian, um incidente é um evento que causa interrupção ou redução na qualidade de um serviço que requer uma resposta de emergência. As equipes que seguem as práticas da ITIL ou do ITSM podem usar o termo incidente grave.

Obtenha o Manual de gerenciamento de incidentes em formato impresso ou PDF
Quantidade limitada de versões impressas do Manual de gerenciamento de incidentes com envio grátis ou baixe a versão em PDF.
Um incidente é resolvido quando o serviço afetado volta a funcionar no estado pretendido. Estão incluídas apenas as tarefas necessárias para atenuar o impacto e restaurar a funcionalidade.
Esses tipos de incidentes podem variar muito em gravidade, de uma falha no serviço web global a um pequeno número de usuários com erros intermitentes.
Tópicos sobre gerenciamento de incidentes
Tutoriais apresentados
Quer ver como a Atlassian lida com incidentes graves? A gente publicou o manual interno de gerenciamento de incidentes. Fique à vontade para aprender com ele, adaptá-lo e usá-lo como quiser.
Setting up an on-call schedule with Opsgenie
In this tutorial, you’ll learn how to set up an on-call schedule, apply override rules, configure on-call notifications, and more, all within Opsgenie.
Leia este tutorialPros and cons of different approaches to on-call management
On call teams are rapidly evolving. Explore the pros and cons of different approaches to on call management.
Leia este artigo