As funçÔes de alerta e de plantão do Opsgenie agora estão disponíveis no Jira Service Management e no Compass. Migre dados e configuraçÔes existentes do Opsgenie antes de 5 de abril de 2027 usando nossa ferramenta de migração automatizada.

Gerenciamento de incidentes na era do DevOps

Aplicando princípios de comunicação aberta e sem repreensão às equipes de gerenciamento de incidentes

NĂŁo se pode repensar como criar, implementar e operar softwares sem repensar como responder aos incidentes.

Na palestra inspiradora de 2009, “10+ ImplantaçÔes por dia: Dev e Ops Cooperation no Flickr," John Allspaw e Paul Hammond esboçaram a visĂŁo de um mundo onde desenvolvedores e equipes de operaçÔes de TI trabalham juntos e entregam com frequĂȘncia. Na dĂ©cada seguinte, essa visĂŁo tomou forma como o movimento DevOps.

A natureza de DevOps depende de novas formas de responder a incidentes. NĂŁo Ă© de se surpreender que o gerenciamento de incidentes tenha sido tĂŁo enfatizado na palestra de Allspaw e Hammond. “O importante a perceber Ă© que falhas vĂŁo acontecer”, disse Hammond na palestra. “NĂŁo Ă© a questĂŁo de se, Ă© a questĂŁo de quando”.

Ao contrĂĄrio de estruturas como a ITIL, nĂŁo hĂĄ um documento 'oficial' de prĂĄticas recomendadas para a equipe de DevOps. Mas, em geral, podemos concordar que DevOps trata da entrega de valor comercial a uma empresa, dividindo silos organizacionais, aumentando a transparĂȘncia e fomentando a comunicação aberta entre desenvolvedores e equipes de operaçÔes de TI.

Essa mesma cultura de transparĂȘncia, visibilidade e aprendizado rĂĄpido estende-se ao gerenciamento de incidentes.

Por quĂȘ? Porque as primeiras e mais crĂ­ticas etapas no gerenciamento de incidentes envolvem entender o que deu errado, fazer com que as pessoas certas trabalhem no problema e promover uma cultura sem repreensĂŁo. 

O gerenciamento de incidentes de DevOps exige uma cultura de comunicação aberta e sem repreensão entre desenvolvedores e equipes de operaçÔes de TI. E o estabelecimento de processos leves que melhorem a confiabilidade dos serviços de TI, aumentem a satisfação do cliente e agreguem valor para a empresa. Um engenheiro de DevOps pode ajudar a implementar a cultura e as pråticas de DevOps. 

A ITIL, em comparação, Ă© o conjunto prescrito de 26 processos, procedimentos, tarefas e listas de verificação desenvolvidos para melhorar prĂĄticas especĂ­ficas no gerenciamento de serviços de TI. A ITIL concentra-se na qualidade e na consistĂȘncia do serviço e na melhoria da resiliĂȘncia dos sistemas.

Um dos benefícios da ITIL é que as empresas que querem melhorar o ITSM podem começar com um template de pråticas recomendadas em vez de começar do zero. E embora alguns acreditem que a ITIL é mais adequada para grandes empresas, a estrutura é flexível o suficiente para que empresas menores possam escolher os processos mais interessantes para seus negócios e também encontrar valor.

Uma desvantagem da ITIL, se vocĂȘ estĂĄ com pressa para mudar o processo de resposta a incidentes, Ă© que ela pode envolver o gerenciamento formal de mudanças e um consultor especializado, atrasando as melhorias.

Para as equipes que querem começar de imediato, a abordagem de gerenciamento de incidentes de DevOps pode ajudar a fazer a mudança e a obter benefícios imediatos.

O processo de gerenciamento de incidentes de DevOps

A abordagem de DevOps para gerenciar incidentes nĂŁo Ă© muito diferente das etapas tradicionais de um gerenciamento de incidentes eficaz. O gerenciamento de incidentes de DevOps inclui a ĂȘnfase explĂ­cita no envolvimento das equipes de desenvolvedores desde o inĂ­cio, inclusive no plantĂŁo, e na atribuição de tarefas com base em conhecimento especializado, nĂŁo em cargos.

1. Detecção

Em vez de esperar que os incidentes nunca aconteçam (porque, sem dĂșvida, eles vĂŁo acontecer), as equipes de resposta a incidentes de DevOps investem bastante na preparação. Elas trabalham em colaboração para planejar as respostas a possĂ­veis incidentes identificando as fraquezas dos sistemas. Elas configuram ferramentas de monitoramento, sistemas de alerta e runbooks que ajudam cada membro a saber com quem entrar em contato quando um incidente Ă© detectado e o que fazer em seguida.

2. Resposta

Em vez de contar com um sĂł engenheiro de plantĂŁo responsĂĄvel por responder a todos os incidentes do cronograma de plantĂŁo, as equipes de gerenciamento de incidentes de DevOps designam vĂĄrios membros da equipe para estarem disponĂ­veis para escalonamento. Quando o engenheiro de plantĂŁo designado nĂŁo consegue resolver um incidente sozinho, hĂĄ um runbook pronto para ser usado como um guia. O engenheiro de plantĂŁo pode fazer com que as pessoas certas avaliem o nĂ­vel de impacto e a gravidade do problema, encaminhando para os respondentes certos.

3. Resolução

Quando chega a hora de responder a um incidente, as equipes de gerenciamento de incidentes de DevOps na maioria das vezes conseguem uma resolução råpida. O motivo é que elas estão mais familiarizadas com o aplicativo ou o código do sistema porque foram elas que o escreveram! E com o benefício da preparação avançada e de bons sistemas de comunicação, em conjunto elas podem fazer o trabalho que resolve o incidente, alcançando uma resolução mais råpida do que uma equipe de resposta de terceiros analisando o código pela primeira vez.

4. AnĂĄlise

As equipes de gerenciamento de incidentes de DevOps fecham um incidente com um processo de post-mortem sem repreensĂŁo. Elas se reĂșnem para compartilhar informaçÔes, mĂ©tricas e liçÔes aprendidas com a meta de sempre melhorar a resiliĂȘncia dos sistemas e de resolver incidentes futuros com rapidez e eficiĂȘncia.

5. Preparação

Depois que um incidente é resolvido, todas as etapas de correção são concluídas e o sistema é restaurado, as equipes de gerenciamento de incidentes de DevOps se concentram para avaliar a preparação para o próximo incidente. Elas pegam o que aprenderam no processo post-mortem, atualizam os runbooks e fazem os ajustes necessårios nas ferramentas de monitoramento e nos sistemas de alerta. E o foco de DevOps na melhoria contínua se aplica às pessoas e à equipe, não apenas à tecnologia. Após um incidente, cada membro da equipe estå mais bem preparado para o próximo.

PrĂĄticas recomendadas para garantir a eficĂĄcia das equipes de GI de DevOps

A adoção da abordagem de DevOps para a resposta a incidentes pode melhorar a comunicação entre as equipes de desenvolvimento e de operaçÔes de TI, acelerar a resposta e a correção de incidentes e aumentar a resiliĂȘncia do sistema.

Automatizar processos e fluxos de trabalho

Integre as ferramentas da central de atendimento, monitoramento, emissão de tickets, gestão de recursos/CMDB e chat para simplificar os alertas de incidentes de TI e os fluxos de trabalho, garantindo que as pessoas certas sejam notificadas com as informaçÔes necessårias para começar a resolução. Configure runbooks com fluxos de trabalho predefinidos para que as pessoas possam começar a trabalhar de imediato quando um incidente ocorre.

Comunicação entre equipes

Garanta que os membros das equipes possam se comunicar em toda a organização com ferramentas de chat em tempo real. Use ferramentas que criem um registro do incidente para que qualquer pessoa possa entrar a qualquer momento e se atualizar sobre o que aconteceu e o que estå sendo feito.

Usar a abordagem sem repreensĂŁo

Depois de ter resolvido o incidente, faça uma reunião da equipe para rever o que aconteceu em uma sessão de post-mortem sem repreensão. Evite culpar alguém e foque no compartilhamento de informaçÔes que ajudem a melhorar o trabalho das pessoas e contribuam para um sistema mais confiåvel.

Identificar e focar nos resultados dos negĂłcios

A resposta a incidentes de DevOps é mais do que um meio de melhorar a comunicação, é também a forma de garantir que desenvolvedores e operaçÔes trabalhem juntos para agregar um valor real para os negócios. Acompanhe métricas como o tempo médio de detecção (MTTD), o tempo médio para reparo (MTTR) e o tempo médio entre falhas (MTBF) para entender a taxa de melhoria da equipe.

Utilize o cronograma de plantĂŁo para posicionar desenvolvedores e administradores de sistemas como SREs

Nas equipes de DevOps, a distinção entre desenvolvedor e administrador de sistema começa a não ser tão clara e aqueles que respondem ao incidente no geral se tornam engenheiros de confiabilidade do site (SRE). Ainda assim, cada indivíduo vai poder ter um conhecimento especializado no código do aplicativo ou no código da infraestrutura. Defina o cronograma de plantão para garantir a combinação certa de conhecimentos disponíveis para responder aos incidentes.

Saiba mais sobre como o Jira Service Management pode apoiar uma abordagem de DevOps para o gerenciamento de incidentes.

Recomendado para vocĂȘ

ĂĄgil

Configuração de um cronograma de plantão com o Opsgenie

Neste tutorial, aprenda a configurar um on-call schedule, aplicar regras de substituição, configurar notificaçÔes de plantão e muito mais. Tudo no Opsgenie.

Pråticas recomendadas da comunicação de incidentes

A comunicação de incidentes é o processo de alertar os usuårios de que algum serviço estå passando por algum tipo de interrupção ou teve queda no desempenho.

Saiba mais sobre gerenciamento de incidentes

Encontre mais guias e recursos de gerenciamento de incidentes neste hub.