As funções de alerta e de plantão do Opsgenie agora estão disponíveis no Jira Service Management e no Compass. Migre dados e configurações existentes do Opsgenie antes de 5 de abril de 2027 usando nossa ferramenta de migração automatizada.Saiba mais

O que é gerenciamento de incidentes?

Obtenha grátis

Saiba mais

O gerenciamento de incidentes é o processo utilizado pelas equipes de desenvolvimento e operações de TI para responder a um evento imprevisto ou interrupção do serviço e restaurar o serviço ao seu estado operacional.

Na Atlassian, a gente define um incidente como um evento que causa interrupção ou redução na qualidade de um serviço, exigindo uma resposta de emergência. Equipes que seguem as práticas ITIL ou ITSM podem usar o termo incidente grave para se referir a isso.

Obtenha o Manual de Gerenciamento de Incidentes

Baixe o PDF para conhecer os princípios e as práticas de gerenciamento de incidentes e como aplicar essas lições usando o Jira Service Management.

Leia o manual

Incidents are events of any kind that disrupt or reduce the quality of service (or threaten to do so). A business application going down is an incident. A crawling-but-not-yet-dead web server can be an incident, too. It’s running slowly and interfering with productivity. Worse yet, it poses the even-greater risk of complete failure. Incidents can vary widely in severity, ranging from an entire global web service crashing to a small number of users having intermittent errors. An incident is resolved when the affected service resumes functioning in its intended state. This includes only those tasks required to mitigate impact and restore functionality.

Use o template grátis de relatório semanal de incidentes graves de ITSM

A importância do gerenciamento de incidentes

Valores do gerenciamento de incidentes da Atlassian

O gerenciamento de incidentes é um dos processos mais importantes que uma organização precisa acertar. Interrupções no serviço podem custar caro para a empresa, e as equipes precisam de uma maneira eficiente de responder e resolver esses problemas com rapidez. As equipes precisam de um método confiável para priorizar incidentes, chegar a uma solução com mais rapidez e oferecer um serviço melhor aos usuários.

Quando as equipes se deparam com um incidente, elas precisam de um plano que as ajude a:

Responder com eficácia para que possam se recuperar com rapidez.
Informar com clareza aos clientes, partes interessadas, proprietários de serviços e outros membros da organização.
Colaborar com eficácia para resolver o problema com mais rapidez em equipe e remover as barreiras que impedem as equipes de alcançar essa resolução.
Melhorar o tempo todo para aprender com essas interrupções e aplicar as lições aprendidas para melhorar o serviço e refinar seus processos para o futuro.

Quer ver como a Atlassian lida com incidentes graves? A gente publicou o manual interno de gerenciamento de incidentes. Fique à vontade para aprender com ele, adaptá-lo e usá-lo como quiser.

Confira o manual

Tipos de processos de gerenciamento de incidentes

Diferentes tipos de empresas tendem a se inclinar por diferentes tipos de processos de gerenciamento de incidentes. Não existe um processo único que seja ideal para todas as empresas, portanto, é provável que você veja várias abordagens em diversas empresas.

Muitas equipes dependem de um processo de gerenciamento de incidentes mais tradicional, semelhante ao utilizado em TI, como os descritos nas certificações ITIL. Outras equipes tendem a adotar um processo de gerenciamento de incidentes mais semelhante ao utilizado por engenheiros de confiabilidade do site (SRE) ou DevOps.

Processo de gerenciamento de incidentes de TI

Um processo de gerenciamento de incidentes ajuda as equipes de TI a investigar, registrar e resolver interrupções ou falhas no serviço. O fluxo de trabalho de gerenciamento de incidentes ITIL visa reduzir o tempo de inatividade e minimizar o impacto dos incidentes na produtividade dos funcionários. Usando templates projetados para gerenciar incidentes, você pode criar um fluxo de trabalho repetível de gerenciamento de incidentes, que garante que as equipes registrem, diagnostiquem e resolvam incidentes além de manter um registro das atividades.

A estrutura da ITIL é muito usada por equipes de TI que executam serviços dentro das empresas. Em geral, as equipes pegam o que precisam da ITIL (que abrange quase todos os tipos de incidentes, itens e processos que as equipes de TI podem enfrentar) e descartam o restante. A ITIL é ótima quando as equipes precisam se concentrar em cultivar uma cultura de solução de problemas ativa. Os processos prescritos ajudam as equipes a rastrear incidentes e ações com consistência, o que melhora os relatórios e análises e pode levar a um serviço mais saudável e uma equipe mais bem-sucedida.

Etapas no processo de gerenciamento de incidentes de TI

Identificar e registrar um incidente

Um incidente pode surgir em qualquer lugar: com um funcionário, cliente, fornecedor ou sistemas de monitoramento. Seja qual for a origem, as duas primeiras etapas são simples: alguém identifica um incidente e, em seguida, alguém o registra. Esses registros de incidentes (ou seja, tickets) costumam incluir:

o nome da pessoa que relatou o incidente;
a data e a hora em que o incidente foi relatado;
uma descrição do incidente (o que está fora do ar ou não está funcionando direito);
um número de identificação único atribuído ao incidente, para rastreamento.

Categorizar

Atribua uma categoria (e subcategoria, conforme a necessidade) lógica e intuitiva a cada incidente. Fazendo assim, você possibilita a análise de dados em busca de tendências e padrões, o que é uma parte essencial de um gerenciamento de problemas efetivo e da prevenção de incidentes futuros.

Priorizar

Cada incidente deve ser priorizado. Comece avaliando o impacto nos negócios, o número de pessoas que vão ser afetadas e os SLAs aplicáveis, assim como as possíveis implicações financeiras, de segurança e conformidade do incidente. Compare esse incidente com todos os outros incidentes abertos para determinar a prioridade relativa. Como prática recomendada, defina os níveis de gravidade e prioridade antes que um incidente ocorra, facilitando aos gerenciadores de incidentes medir a prioridade com rapidez.

Responder

Diagnóstico inicial: o ideal é que sua equipe de suporte de primeira linha acompanhe um incidente desde o diagnóstico até o encerramento, mas, se isso não for possível, o próximo passo é registrar todas as informações pertinentes e encaminhar o caso para a equipe do nível seguinte.
Encaminhar: a equipe seguinte pega os dados registrados e continua com o processo de diagnóstico e, se essa equipe não conseguir diagnosticar o incidente, ele é encaminhado para a equipe seguinte.
Comunicar: a equipe compartilha com frequência atualizações com as partes interessadas internas e externas afetadas.
Investigação e diagnóstico: esse processo continua até que a natureza do incidente seja identificada. Às vezes, as equipes recorrem a recursos externos ou a outros membros do departamento para consultar e ajudar na resolução.
Resolução e recuperação: nesta etapa, a equipe chega a um diagnóstico e executa as etapas necessárias para resolver o incidente. A recuperação implica apenas o tempo que pode levar para que as operações sejam restauradas por completo, já que algumas correções (como correções de erros, etc.) podem exigir testes e implantação mesmo após a resolução adequada ter sido identificada.
Encerramento: se o incidente foi escalado, ele é devolvido à central de atendimento para ser encerrado. Para manter a qualidade e garantir um processo tranquilo, apenas os funcionários da central de atendimento têm permissão para encerrar incidentes, e o proprietário do incidente deve verificar com a pessoa que o relatou se a resolução é satisfatória e se o incidente pode, de fato, ser encerrado.

Processo de gerenciamento de incidentes de DevOps e SRE

Com uma abordagem DevOps ou SRE para gerenciamento de incidentes, a equipe que cria o serviço também o executa e o corrige se ele apresentar falhas. Essa abordagem ganhou popularidade com o crescimento dos serviços em nuvem sempre ativos, aplicativos da Web acessíveis em todo o mundo, microsserviços e software como um serviço.

Cada vez mais, o software do qual você depende para sua vida e seu trabalho não está hospedado em um servidor no mesmo local físico que você. É provável que seja um aplicativo acessado pela Web, implantado em um data center para milhares ou milhões de usuários em todo o mundo. Para as equipes encarregadas de executar esses serviços, agilidade e velocidade são fundamentais. Qualquer tempo de inatividade tem o potencial de afetar milhares de organizações, não apenas uma.

Uma vantagem da abordagem “você constrói, você opera” é que ela oferece a flexibilidade necessária às equipes Ágeis, mas também pode ocultar quem é responsável por quê e quando. As equipes de DevOps podem se sentir confortáveis e bem-sucedidas com processos de desenvolvimento menos estruturados. Mas é melhor padronizar um conjunto básico de processos para gerenciamento de incidentes, para que não haja dúvidas sobre como responder no calor do momento e para que você possa acompanhar os problemas e relatar como eles foram resolvidos.

Três crenças das equipes de gerenciamento de incidentes para DevOps

Fazer revezamento de plantão: em vez de certos membros da equipe se especializarem em ficar de plantão, as equipes de DevOps costumam se revezar em um cronograma de plantão, no qual todos os membros compartilham a responsabilidade de talvez serem acordados à noite para responder a um incidente.
O engenheiro que construiu é a pessoa mais indicada para consertar.: a ideia central da filosofia “você constrói, você opera” é que as pessoas mais familiarizadas com o serviço (os construtores) são as mais bem equipadas para corrigir uma interrupção.
Construa com rapidez, mas pratique a responsabilidade: quando os engenheiros sabem que eles e seus colegas de equipe estão em risco durante interrupções, há um incentivo adicional para garantir que o código implantado seja de qualidade.

Essa abordagem garante tempos de resposta curtos e feedback mais rápido para as equipes que precisam saber como construir um serviço confiável.

A gente descreve uma abordagem muito favorável ao DevOps para o gerenciamento de incidentes no Manual de incidentes da Atlassian.

Ferramentas de gerenciamento de incidentes

O gerenciamento de incidentes não é feito apenas com uma ferramenta, mas com a combinação certa de ferramentas, práticas e pessoas. Aqui estão algumas das categorias de ferramentas mais comuns para um gerenciamento eficaz de incidentes:

Monitoramento de incidentes: todos os incidentes devem ser monitorados e documentados para que você possa identificar tendências e fazer comparações ao longo do tempo.
Sala de chat: a comunicação por texto em tempo real é fundamental para diagnosticar e resolver o incidente em equipe. Além disso, ela oferece um rico conjunto de dados para análise posterior da resposta.
Chat por vídeo: o chat por vídeo complementa o chat por texto em muitos incidentes, e o chat por vídeo em equipe pode ajudar a discutir as conclusões e traçar uma estratégia de resposta.
Sistema de alerta: uma ferramenta como o Jira Service Management é integrada ao seu sistema de monitoramento e gerencia rodízios de plantão e escalonamentos.
Ferramenta de documentação: uma ferramenta como o Confluence pode coletar documentos sobre o estado dos incidentes e análises post-mortem.
Statuspage: comunicar o status tanto para as partes interessadas internas quanto para os clientes por meio da Statuspage ajuda a manter todos informados.

Tópicos sobre gerenciamento de incidentes

Manual de gerenciamento de incidentes da Atlassian

Este manual apresenta processos reais de gerenciamento de incidentes que a gente criou como uma empresa global com milhares de funcionários e mais de 200.000 clientes.

Confira o manual

Práticas recomendadas da comunicação de incidentes

A comunicação de incidentes é o processo de alertar os usuários de que algum serviço está passando por algum tipo de interrupção ou teve queda no desempenho.

Resposta a incidentes

Descubra as principais técnicas de resposta a incidentes para abordar e resolver com rapidez problemas críticos da empresa.

Saiba mais

De plantão

As equipes de plantão estão evoluindo com rapidez. Explore os prós e contras de diferentes abordagens ao gerenciamento de plantão.

Explore

Ferramentas

Explore as principais funções do software de gerenciamento de incidentes. Saiba como escolher as ferramentas certas para uma resposta eficaz a incidentes e operações perfeitas.

Saiba mais

Análise retrospectiva

Uma análise retrospectiva de incidente, também conhecida como revisão pós-incidente, é a melhor maneira de trabalhar o que aconteceu durante um incidente e capturar as lições aprendidas.

DevOps

Para as equipes que praticam DevOps, o processo de Gerenciamento de Incidentes (GI) se concentra na transparência e em melhorias contínuas no ciclo de vida do incidente.

Explore

Tutoriais apresentados

Tutorial

Comunicação de incidentes

Neste tutorial, você vai ver como usar templates de incidentes para se comunicar com eficácia durante interrupções. Adaptável a muitos tipos de interrupção de serviço.

Saiba mais

Tutorial

Cronograma de plantão

Neste tutorial, aprenda a configurar um on-call schedule, aplicar regras de substituição, configurar notificações de plantão e muito mais. Tudo no Opsgenie.

Saiba mais

Quer saber mais sobre o gerenciamento de incidentes no Jira Service Management?

Acessar o guia

Aplicativos apresentados

Jira

Confluence

Jira Service Management

Por caso de uso

Por equipe

Por tamanho

Por setor

Jira

Confluence

Jira Service Management

Por caso de uso

Por equipe

Por tamanho

Por setor

O que é gerenciamento de incidentes?

Obtenha o Manual de Gerenciamento de Incidentes

A importância do gerenciamento de incidentes

Tipos de processos de gerenciamento de incidentes

Processo de gerenciamento de incidentes de TI

Etapas no processo de gerenciamento de incidentes de TI

Identificar e registrar um incidente

Categorizar

Priorizar

Responder

Processo de gerenciamento de incidentes de DevOps e SRE

Três crenças das equipes de gerenciamento de incidentes para DevOps

Ferramentas de gerenciamento de incidentes

Tópicos sobre gerenciamento de incidentes

Manual de gerenciamento de incidentes da Atlassian

Práticas recomendadas da comunicação de incidentes

Resposta a incidentes

De plantão

Ferramentas

Análise retrospectiva

DevOps

Tutoriais apresentados

Comunicação de incidentes

Cronograma de plantão

Recomendado para você

Configuração de um cronograma de plantão com o Opsgenie

Prós e contras de diferentes abordagens ao gerenciamento de plantão

O que é MTTR?