Gerenciamento de incidentes para equipes de alta velocidade
A mudança nas funções de gerenciamento de incidentes e de problemas
Na última década, o gerenciamento de incidentes mudou muito.
As diretrizes de ITIL foram atualizadas. As equipes de TI começaram a compartilhar responsabilidades com DevOps e SecOps. Sistemas cada vez mais complicados levaram a soluções de gerenciamento de incidentes mais complicadas. E muitas empresas estão adotando o post mortem sem repreensão e novas formas de medir o desempenho.
Conforme o gerenciamento de incidentes muda e evolui, este fato também acontece com seu primo, o gerenciamento de problemas, e com a relação entre as duas práticas.
O que é um problema e como ele se difere de um incidente?
A ITIL define assim: um problema é "uma causa ou uma possível causa, de um ou mais incidentes".
E um incidente é um único evento não planejado que causa a interrupção do serviço.
Em outras palavras, os incidentes são os episódios desagradáveis que os funcionários de plantão em geral lutam para resolver completamente e com a maior rapidez possível. E os problemas são a causa raiz desses eventos prejudiciais.
Um problema pode causar um só incidente ou vários incidentes. E um incidente pode ser rastreado por um só problema ou, às vezes, a vários problemas.
Por exemplo, a interrupção de cinco horas que custou US$ 150 milhões à Delta Airlines em 2016 foi um incidente. O problema que causou esse incidente foi a falta de energia em um centro de operações e, talvez, a ausência de um plano de backup para casos de falta de energia.
Da mesma forma, a interrupção de 12 horas da App Store que custou à Apple cerca de US$ 25 milhões foi um incidente. O problema por trás disso? Um problema de DNS.
Usando esses termos fora do contexto da tecnologia: correr para o médico com enxaqueca seria um incidente. A causa da enxaqueca, como alergias, problemas de visão ou estresse, seria o problema.
Gerenciamento de problemas vs. gerenciamento de incidentes
É claro, problemas e incidentes estão intrinsecamente ligados. Um causa o outro e as equipes têm que prestar atenção nos dois.
Para as equipes de TI tradicionais, as diretrizes de ITIL mais recentes exigem o gerenciamento separado de problemas e incidentes. O gerenciamento de problemas é a prática concentrada na prevenção de incidentes ou na redução do impacto deles. O gerenciamento de incidentes concentra-se em abordar os incidentes em tempo real.
O benefício da abordagem de ITIL é que ela prioriza os principais objetivos do gerenciamento de problemas e do gerenciamento de incidentes. Ao separar essas práticas e atribuir igual importância às duas, as diretrizes estão tentando evitar o problema comum em que equipes de TI estão sempre apagando o incêndio dos incidentes sem lidar com a causa raiz deles.
Se o objetivo principal de um gerente de incidentes é a rápida resolução de incidentes e o objetivo principal de um gerente de problemas é a prevenção, a combinação dessas funções pode significar que um desses objetivos, ambos vitais para uma empresa, pode ser prejudicado a favor do outro.
A desvantagem dessa abordagem é que a separação das duas práticas, que são tão ligadas na realidade, pode criar lacunas de conhecimento e a quebra na comunicação entre a resolução do incidente e a análise da causa raiz que leva à causa inerente.
DevOps e a mudança nas funções de gerenciamento de incidentes e problemas
Como de costume, o movimento colaborativo de DevOps ultrapassou os limites do pensamento tradicional de TI, enxergando o gerenciamento de incidentes e problemas não como duas práticas distintas, mas como metades sobrepostas de uma visão abrangente.
Essa mudança não vem apenas do fato de que as práticas são dois lados da mesma moeda, a prevenção e a resolução de incidentes, mas também da abordagem de DevOps que geralmente afirma o seguinte:
- Em geral, há mais de uma causa raiz de um incidente
- Os post mortems devem ocorrer sem repreensão e incluir todas as equipes afetadas por um incidente
- A colaboração é fundamental para a melhoria contínua
A sobreposição no gerenciamento de incidentes e problemas também pode estar relacionada à mudança de todo o setor para a abordagem “você cria, você gerencia”. Como as equipes que criam sistemas se tornam responsáveis pela resolução de incidentes nesses sistemas, é coerente que a mesma equipe seja responsável por executar post mortems, fazer o trabalho de detetive para chegar à causa raiz de um incidente e fazer recomendações que impeçam ou diminuam o impacto de novos incidentes.
A ponte entre o gerenciamento de incidentes e problemas aqui é o post mortem sem repreensão, no qual após a fase de urgência, os gerentes de incidentes viram detetives e passam para tarefas de gerenciamento e prevenção de problemas.
O principal desafio que as equipes de DevOps que eliminam as diferenças entre essas duas práticas podem enfrentar é garantir que o gerenciamento de problemas, com seus objetivos de longo prazo menos urgentes, mas muito valiosos, não sejam prejudicados a favor da evidente urgência do gerenciamento de incidentes.
É claro que, muitas vezes, é mais fácil falar do que fazer, unir o gerenciamento de incidentes e o gerenciamento de problemas, mas é fundamental encontrar e resolver a causa raiz. Descubra como a solução de gerenciamento de incidentes Jira Service Management oferece às equipes a flexibilidade de colaborarem no trabalho: registre o contexto e crie cronogramas avançados enquanto resolvem incidentes, utilizando isso para ajudar as equipes a gerenciar melhor os problemas.
Configuração de um on-call schedule com o Opsgenie
Neste tutorial, aprenda a configurar um on-call schedule, aplicar regras de substituição, configurar notificações de plantão e muito mais. Tudo no Opsgenie.
Leia este tutorialPrós e contras de diferentes abordagens ao gerenciamento de plantão
As equipes de plantão estão evoluindo com rapidez. Explore os prós e contras de diferentes abordagens ao gerenciamento de plantão.
Leia este artigo