As funções de alerta e de plantão do Opsgenie agora estão disponíveis no Jira Service Management e no Compass. Migre dados e configurações existentes do Opsgenie antes de 5 de abril de 2027 usando nossa ferramenta de migração automatizada.

Manual de incidentes da Atlassian

Espera-se que as equipes que executam serviços tecnológicos atualmente tenham uma disponibilidade de tempo integral.

Quando algo dá errado, seja uma queda de energia ou uma função com falha, os membros da equipe precisam responder imediatamente e restaurar o serviço. Este processo é chamado de gerenciamento de incidente, e é um desafio complexo e contínuo para todas as empresas, grandes e pequenas.

Queremos ajudar as equipes de todos os lugares a melhorar o gerenciamento de incidentes. Inspirados por equipes como as do Google, a gente criou este manual como um resumo do processo de gerenciamento de incidentes da Atlassian. Existem duas lições que aprendemos respondendo a incidentes durante mais de uma década. Embora dependa de experiências únicas, a gente espera que ele possa ser adaptado às necessidades da sua própria equipe.

Manual de gerenciamento de incidentes

Obtenha o manual em formato impresso ou PDF

Oferecemos uma quantidade limitada de versões impressas do Manual de gerenciamento de incidentes com envio grátis. Você também pode baixar a versão em PDF.

Queremos ajudar as equipes de todos os lugares a melhorar o gerenciamento de incidentes. Inspirados por equipes como as do Google, a gente criou este manual como um resumo do processo de gerenciamento de incidentes da Atlassian. Existem duas lições que aprendemos respondendo a incidentes durante mais de uma década. Embora dependa de experiências únicas, a gente espera que ele possa ser adaptado às necessidades da sua própria equipe.

A quem se destina este guia?

Se você faz parte de uma equipe de desenvolvimento ou operações responsável por serviços de internet para clientes que precisam de uma disponibilidade integral, este manual é para você.

O que é um incidente?

Definimos incidente como um evento que causa interrupção ou redução na qualidade de um serviço e que requer uma resposta emergencial. As equipes que seguem as práticas de ITIL ou ITSM podem usar o termo incidente grande.

Um incidente é resolvido quando o serviço afetado volta a funcionar da maneira usual. Isto inclui apenas as tarefas necessárias para restaurar a funcionalidade integral. 

autópsia do incidente é realizada depois do incidente, para determinar a causa-raiz e determinar ações a fim de garantir que ele seja abordado antes que possa causar um incidente repetido.

Nossos valores relacionados a incidentes

Um processo para gerenciar incidentes não é capaz de abranger todas as situações possíveis, então nós damos autonomia às nossas equipes com orientações gerais na forma de valores. Semelhantes aos valores da empresa da Atlassian, nossos valores relacionados a incidentes foram criados para:

  • Orientar uma tomada de decisões autônoma pelas pessoas e equipes nas situações de incidentes e análises retrospectivas. 

  • Construir uma cultura consistente entre as equipes sobre como nós identificamos, gerenciamos, e aprendemos com os incidentes.

  • Alinhar as equipes sobre quais atitudes elas devem ter em cada parte da identificação, resolução e reflexo do incidente.

Estágio

Valores relacionados a incidentes

Valor relacionado da Atlassian

Justificativa

1. Detectar

A Atlassian sabe antes que os nossos clientes saibam

Construir com o coração e equilíbrio

Um serviço equilibrado inclui o monitoramento e alerta adequados para detectar os incidentes antes dos clientes.

O melhor monitoramento nos alerta sobre os problemas antes que se tornem incidentes.

2. Reagir

Escalonar, escalonar, escalonar 

Jogar sempre em equipe

Ninguém gosta de ser acordado e a gente leva essa responsabilidade a sério. Mas as pessoas entendem que, às vezes, elas podem ser acordadas para resolver um incidente e que, no fim, elas não eram necessárias. O que costuma ser mais difícil é acordar por causa de um incidente grave e tentar recuperar o atraso quando você deveria ter sido alertado antes.

Nem sempre teremos todas as respostas; então, "não hesite em escalonar".

3. Recuperar

As coisas dão errado, conserte imediatamente

Não !@#$ o cliente

Nossos clientes não se importam com o motivo do serviço não estar funcionando, somente com a restauração do serviço o mais rápido possível.

Nunca hesite em resolver incidentes com rapidez para que a gente possa minimizar o impacto nos clientes. 

4. Aprender

Sempre sem culpa

Empresa aberta, sem papo-furado

Os incidentes fazem parte da execução de serviços. Melhoramos os serviços dando responsabilidade às nossas equipes, não apontando um culpado.

5. Melhorar

Não deixe que o incidente se repita

Seja a mudança que você quer

Identifique a causa-raiz e as mudanças que evitarão que toda a classe de incidentes ocorra novamente.

Comprometa-se em promover mudanças específicas em datas específicas.

Ferramentas necessárias

O processo de gerenciamento de incidentes descrito aqui usa várias ferramentas específicas da Atlassian e que podem ser substituídas conforme a necessidade:

  • Rastreamento de incidentes: cada incidente é rastreado como um item do Jira, com um item de acompanhamento criado para rastrear a conclusão das análises retrospectivas (a Atlassian usa uma versão bastante personalizada do Jira Software).

  • Sala de chat - um canal de comunicação de texto em tempo real é fundamental para diagnosticar e resolver o incidente como uma equipe.

  • Chat de vídeo - para muitos incidentes, o chat de vídeo com a equipe, como o Blue Jeans, pode ajudá-lo a discutir e concordar sobre as abordagens.

  • Sistema de alerta - uma ferramenta como o OpsGenie gerencia os remanejamentos e escalonamentos de plantão.

  • Ferramenta de documentação - usamos o Confluence para nossos documentos de relato de incidentes e compartilhamento das autópsias por meio de blogs.

  • Statuspage - a comunicação do status com as partes interessadas internas e externas e com os clientes por meio do Statuspage ajuda a manter todos informados.

Rastreamento de incidentes

Cada incidente é rastreado como um item Jira, com um item de acompanhamento criado para rastrear a conclusão das análises retrospectivas. O processo neste manual faz referência à versão bastante personalizada do Jira Software da Atlassian.

Os itens de incidente geralmente são criados por um engenheiro de suporte em resposta a um chamado do cliente ou por um desenvolvedor que reconhece um alerta de monitoramento como sendo um incidente. Nós pedimos que as pessoas criem um item se estiverem preocupadas com algo, ao invés de esperar para escaloná-lo.

No Jira, temos um fluxo de trabalho simples para rastrear os incidentes durante o estágio de resolução e para registrar todas as ações importantes tomadas durante a resposta ao incidente.

Gestor de incidentes

Cada incidente é conduzido pelo gerenciador de incidentes (GI), que tem a autoridade e responsabilidade geral pelo incidente. Esta pessoa é indicada pelo responsável no item do incidente. O gerenciador de incidentes tem autoridade para realizar qualquer ação necessária para resolver o incidente, o que inclui convocar qualquer pessoa da empresa e manter as pessoas envolvidas em um incidente focadas na restauração do serviço o mais rápido possível. 

O gestor de incidentes é uma função, e não uma pessoa no incidente. A vantagem de definir funções durante um incidente é que isto permite que as pessoas se tornem intercambiáveis. Contanto que uma determinada pessoa saiba como executar determinada função, ela pode assumir esta função para qualquer incidente.

Obtenha o manual em formato impresso ou PDF

Oferecemos uma quantidade limitada de versões impressas do Manual de gerenciamento de incidentes com envio grátis. Você também pode baixar a versão em PDF.

Recomendado para você

ágil

Configuração de um cronograma de plantão com o Opsgenie

Neste tutorial, aprenda a configurar um on-call schedule, aplicar regras de substituição, configurar notificações de plantão e muito mais. Tudo no Opsgenie.

Como a gente responde a um incidente

Veja aqui o processo para responder a incidentes no manual da Atlassian. Aprenda as etapas que o gerenciador de incidentes segue da detecção à resolução.

Saiba mais sobre gerenciamento de incidentes

Encontre mais guias e recursos de gerenciamento de incidentes neste hub.