Close

O caminho para um gerenciamento de incidentes melhor começa aqui

A mudança nas funções de gerenciamento de incidentes e de problemas

Na última década, o gerenciamento de incidentes mudou muito.

As diretrizes de ITIL foram atualizadas. As equipes de TI começaram a compartilhar responsabilidades com DevOps e SecOps. Sistemas cada vez mais complicados levaram a soluções de gerenciamento de incidentes mais complicadas. E muitas empresas estão adotando o post mortem sem repreensão e novas formas de medir o desempenho.

Conforme o gerenciamento de incidentes muda e evolui, este fato também acontece com seu primo, o gerenciamento de problemas e com a relação entre as duas práticas.

O que é um problema e como ele se difere de um incidente?

A ITIL define assim: um problema é "uma causa ou uma possível causa, de um ou mais incidentes".

E um incidente é um único evento não planejado que causa a interrupção do serviço.

Em outras palavras, os incidentes são os episódios desagradáveis que os funcionários de plantão em geral lutam para resolver completamente e com a maior rapidez possível. E os problemas são a causa raiz desses eventos prejudiciais.

Um problema pode causar um só incidente ou vários incidentes. E um incidente pode ser rastreado por um só problema ou, às vezes, a vários problemas.

Coluna de servidores com um caindo e causando problemas

Por exemplo, a interrupção de cinco horas que custou US$ 150 milhões à Delta Airlines em 2016 foi um incidente. O problema que causou esse incidente foi a falta de energia em um centro de operações e, talvez, a ausência de um plano de backup para casos de falta de energia.

Da mesma forma, a interrupção de 12 horas da App Store que custou à Apple cerca de US$ 25 milhões foi um incidente. O problema por trás disso? Um problema de DNS.

Usando esses termos fora do contexto da tecnologia: correr para o médico com enxaqueca seria um incidente. A causa da enxaqueca, como alergias, problemas de visão ou estresse, seria o problema.

Gerenciamento de problemas vs. gerenciamento de incidentes

É claro, problemas e incidentes estão intrinsecamente ligados. Um causa o outro e as equipes têm que prestar atenção nos dois.

Para as equipes de TI tradicionais, as diretrizes de ITIL mais recentes exigem o gerenciamento separado de problemas e incidentes. O gerenciamento de problemas é a prática concentrada na prevenção de incidentes ou na redução do impacto deles. O gerenciamento de incidentes concentra-se em abordar os incidentes em tempo real.

O benefício da abordagem de ITIL é que ela prioriza os principais objetivos do gerenciamento de problemas e do gerenciamento de incidentes. Ao separar essas práticas e atribuir igual importância às duas, as diretrizes estão tentando evitar o problema comum em que equipes de TI estão sempre apagando o incêndio dos incidentes sem lidar com a causa raiz deles.

Se o objetivo principal de um gerente de incidentes é a rápida resolução de incidentes e o objetivo principal de um gerente de problemas é a prevenção, a combinação dessas funções pode significar que um desses objetivos, ambos vitais para uma empresa, pode ser prejudicado a favor do outro.

A desvantagem dessa abordagem é que a separação das duas práticas, que são tão ligadas na realidade, pode criar lacunas de conhecimento e a quebra na comunicação entre a resolução do incidente e a análise da causa raiz que leva à causa inerente.

DevOps e a mudança nas funções de gerenciamento de incidentes e problemas

Como de costume, o movimento colaborativo de DevOps ultrapassou os limites do pensamento tradicional de TI, enxergando o gerenciamento de incidentes e problemas não como duas práticas distintas, mas como metades sobrepostas de uma visão abrangente.

Diagrama de ITIL com círculos separados para o gerenciamento de incidentes e problemas e diagrama de DevOps com diagrama de Venn de gerenciamento de problemas e de incidentes

Essa mudança não vem apenas do fato de que as práticas são dois lados da mesma moeda, a prevenção e a resolução de incidentes, mas também da abordagem de DevOps que geralmente afirma o seguinte:

  • Em geral, há mais de uma causa raiz de um incidente
  • Os post mortems devem ocorrer sem repreensão e incluir todas as equipes afetadas por um incidente
  • A colaboração é fundamental para a melhoria contínua

A sobreposição no gerenciamento de incidentes e problemas também pode estar relacionada à mudança de todo o setor para a abordagem “você cria, você gerencia”. Como as equipes que criam sistemas se tornam responsáveis pela resolução de incidentes nesses sistemas, é coerente que a mesma equipe seja responsável por executar post mortems, fazer o trabalho de detetive para chegar à causa raiz de um incidente e fazer recomendações que impeçam ou diminuam o impacto de novos incidentes.

A ponte entre o gerenciamento de incidentes e problemas aqui é o post mortem sem repreensão, no qual após a fase de urgência, os gerentes de incidentes viram detetives e passam para tarefas de gerenciamento e prevenção de problemas.

O principal desafio que as equipes de DevOps que eliminam as diferenças entre essas duas práticas podem enfrentar é garantir que o gerenciamento de problemas, com seus objetivos de longo prazo menos urgentes, mas muito valiosos, não sejam prejudicados a favor da evidente urgência do gerenciamento de incidentes.

a seguir
ChatOps