Close

O Insight da Mindville agora faz parte dos planos Premium, Enterprise e Data Center do Jira Service Management. Saiba mais.

O caminho para um gerenciamento de incidentes melhor começa aqui

O que é gerenciamento de incidentes?

O gerenciamento de incidentes é o processo usado pelas equipes de DevOps e operações de TI para responder a um evento ou interrupção de serviço não planejada e restaurar o serviço ao estado operacional.

Na Atlassian, um incidente é um evento que causa interrupção ou redução na qualidade de um serviço que requer uma resposta de emergência. As equipes que seguem as práticas da ITIL ou do ITSM podem usar o termo incidente grave.

Manual de gerenciamento de incidentes

Obtenha o Manual de gerenciamento de incidentes em formato impresso ou PDF

Quantidade limitada de versões impressas do Manual de gerenciamento de incidentes com envio grátis ou baixe a versão em PDF.

Um incidente é resolvido quando o serviço afetado volta a funcionar no estado pretendido. Estão incluídas apenas as tarefas necessárias para atenuar o impacto e restaurar a funcionalidade.

Esses tipos de incidentes podem variar muito em gravidade, de uma falha no serviço web global a um pequeno número de usuários com erros intermitentes.

Tópicos sobre gerenciamento de incidentes

Tutoriais apresentados

[CONTINUAÇÃO]

A importância do gerenciamento de incidentes

Valores do gerenciamento de incidentes

Valores do gerenciamento de incidentes da Atlassian

O gerenciamento de incidentes é um dos processos mais importantes que uma empresa precisa acertar. As interrupções de serviço podem custar caro para os negócios e as equipes precisam de uma maneira eficiente de responder e resolver esses itens com rapidez.

Muitas empresas relatam que o tempo de inatividade custa mais de US$ 300.000 por hora, de acordo com o Gartner. Para alguns serviços baseados na web, o número pode ser muito maior.

As equipes precisam de um método confiável para priorizar incidentes, chegar à resolução com mais rapidez e oferecer um serviço melhor aos usuários.

Quando as equipes enfrentam um incidente, elas precisam de um plano que as ajude a:

  • Responder com eficácia para que possam se recuperar com rapidez.
  • Estabelecer com clareza a comunicação com os clientes, interessados, proprietários de serviços e outros na empresa.
  • Colaborar com eficácia para resolver o item com mais rapidez como equipe e remover barreiras que impedem que elas resolvam o item.
  • Fazer melhorias com continuidade para aprender com essas interrupções e aplicar as lições para melhorar um serviço e refinar o processo para o futuro.

Quer ver como a Atlassian lida com incidentes graves? A gente publicou o manual interno de gerenciamento de incidentes. Fique à vontade para aprender com ele, adaptá-lo e usá-lo como quiser.

Tipos de processos de gerenciamento de incidentes

Tipos diferentes de empresas tendem a gravitar em direção a tipos diferentes de processos de gerenciamento de incidentes. Nenhum processo único é o melhor para todas as empresas, então é provável que você veja várias abordagens em empresas diferentes.

Muitas equipes contam com um processo de gerenciamento de incidentes de TI mais tradicional, como os descritos nas certificações ITIL. Outras equipes se voltam para um processo de gerenciamento de incidentes mais no estilo de Engenheiro de confiabilidade do site (SRE) ou DevOps.

Processo de gerenciamento de incidentes de TI

Um processo de gerenciamento de incidentes ajuda as equipes de TI a investigar, registrar e resolver interrupções ou paralisações de serviço. O fluxo de trabalho de gerenciamento de incidentes da ITIL visa reduzir o tempo de inatividade e minimizar o impacto na produtividade dos funcionários decorrentes de incidentes. Com o uso de templates criados para gerenciar incidentes, você pode criar um fluxo de trabalho de gerenciamento de incidentes repetível que garante que as equipes registrem, diagnostiquem e resolvam incidentes, mantendo um registro das atividades.

A estrutura da ITIL é usada em particular por equipes de TI que executam serviços dentro das empresas. Em geral, as equipes pegam o que precisam da ITIL, que abrange quase todos os tipos de incidentes, itens e processos que as equipes de TI podem enfrentar e descartam o restante. A ITIL é ótima quando as equipes precisam se concentrar em cultivar uma cultura de solução de problemas ativa. Os processos prescritos ajudam as equipes a rastrear incidentes e ações com consistência, o que melhora os relatórios e análises e pode levar a um serviço mais saudável e uma equipe mais bem-sucedida.

Etapas no processo de gerenciamento de incidentes de TI

Identificar e registrar um incidente

Um incidente pode vir de qualquer lugar: um funcionário, um cliente, um fornecedor, sistemas de monitoramento. Não importa a origem, as primeiras duas etapas são simples: alguém identifica um incidente e, depois, alguém o registra. Esses registros de incidente (ex.: tickets) costumam incluir:

  • O nome da pessoa que relatou o incidente
  • A data e hora que o incidente foi relatado
  • Uma descrição do incidente (o que está inativo ou não funciona direito)
  • Um número de identificação exclusivo atribuído ao incidente para o rastreamento

Categorizar

Atribua uma categoria (e subcategoria, conforme a necessidade) lógica e intuitiva a cada incidente. Fazendo assim, você possibilita a análise de dados em busca de tendências e padrões, o que é uma parte essencial de um gerenciamento de problemas efetivo e da prevenção de incidentes futuros.

Priorize

Cada incidente deve ser priorizado. Comece avaliando o impacto nos negócios, o número de pessoas que vão ser afetadas e os SLAs aplicáveis, assim como as possíveis implicações financeiras, de segurança e conformidade do incidente. Compare esse incidente com todos os outros abertos para determinar a prioridade relativa.

Responder

  • Diagnóstico inicial: em uma situação ideal, a equipe de suporte de linha de frente pode ver um incidente do diagnóstico ao fechamento, mas se não for possível, a etapa seguinte é registrar todas as informações pertinentes e escalonar para a próxima equipe de nível.
  • Escalonar: a equipe seguinte assume os dados registrados e continua com o processo de diagnóstico. Se essa equipe não conseguir diagnosticar o incidente, ela vai escalonar para a próxima.
  • Comunicar: a equipe compartilha com frequência atualizações com interessados afetados, tanto internos quanto externos.
  • Investigação e diagnóstico: continua até que a natureza do incidente seja identificada. Às vezes, as equipes utilizam recursos externos ou outros membros do departamento para consultar e ajudar com a resolução.
  • Resolução e recuperação: nessa etapa, a equipe chega a um diagnóstico e realiza as etapas necessárias para resolver o incidente. A recuperação implica a quantia de tempo que pode levar para que as operações sejam restauradas por completo, uma vez que algumas correções (como correções de bugs etc.) podem exigir teste e implementação mesmo após a resolução adequada ser identificada.
  • Encerramento: se o incidente tiver sido escalonado, ele retorna à central de atendimento para ser encerrado. Para manter a qualidade e garantir um processo sem problemas, apenas os funcionários da central de atendimento têm permissão para encerrar incidentes e o proprietário do incidente deve verificar com a pessoa que relatou o incidente se a resolução é satisfatória e o incidente pode, de fato, ser encerrado.

Incidentes, problemas e mudanças: qual é a diferença?

Existem tipos diferentes de itens que as equipes de TI em geral enfrentam e são classificadas para que a gente possa aplicar as técnicas de gerenciamento apropriadas a elas.

  • Solicitação de serviço – Uma solicitação formal de um cliente para que algo seja entregue, por exemplo, provisionamento de um notebook novo.
  • Incidente – Uma interrupção não planejada de um serviço de TI ou redução na qualidade do serviço, por exemplo, o site sair do ar.
  • Problema – Um problema é a causa raiz e associada de um incidente, por exemplo, uma configuração incorreta de um servidor. São itens que você precisa ficar por dentro para não ter incidentes completos.
  • Mudança – Uma ação que você toma, que pode ser padrão, normal ou emergencial. Uma mudança padrão tem um procedimento estabelecido. Uma mudança normal é muitas vezes não trivial e tem que passar por um processo de aprovação. Uma mudança emergencial é promulgada com imediatismo e, em uma situação ideal, é testada antes de ser implementada.

Processo de gerenciamento de incidentes de DevOps e SRE

Com uma abordagem DevOps ou SRE para o gerenciamento de incidentes, a equipe que cria o serviço também o executa e o corrige se ele parar de funcionar. Essa abordagem ganhou popularidade com o crescimento de serviços contínuos de nuvem, aplicativos web acessados em todo mundo, microsserviços e software como serviço.

Cada vez mais, o software em que você confia para a vida e o trabalho não está hospedado em um servidor na mesma localização física que você. É provável que seja um aplicativo acessado pela web implementado em um data center para milhares ou milhões de usuários em todo o mundo. Para equipes encarregadas de executar esses serviços, agilidade e velocidade são fundamentais. E qualquer tempo de inatividade tem o potencial de afetar milhares de empresas, não apenas uma.

Uma vantagem da abordagem "você cria, você gerencia" é que ela oferece a flexibilidade que as equipes ágeis precisam, mas também pode deixar confuso quem é responsável pelo que e quando. As equipes de DevOps podem ficar confortáveis e bem-sucedidas com processos de desenvolvimento menos estruturados. Mas é melhor padronizar um conjunto central de processos para o gerenciamento de incidentes, para que não haja perguntas de como responder no calor de um incidente e para que você possa acompanhar itens e relatar como eles são resolvidos.

Três crenças das equipes de gerenciamento de incidentes para DevOps

  • Faça revezamentos no plantão: em vez de certos membros da equipe especializados em estar de plantão, as equipes de DevOps revezam de acordo com um cronograma de plantão, onde todos os membros compartilham a possibilidade de serem acordados à noite para responder a um incidente.
  • O engenheiro que criou é a melhor pessoa para corrigir: a ideia central do princípio "você cria, você gerencia" é que as pessoas mais familiarizadas com o serviço (os criadores) são as mais bem equipadas para corrigir uma interrupção.
  • Crie com velocidade, mas pratique com responsabilidade: quando os engenheiros sabem que eles e os colegas de equipe estão encarregados durante as interrupções, há um incentivo adicional para garantir que você implemente código de qualidade.

Essa abordagem garante tempos de resposta e feedback mais rápidos para as equipes que precisam saber como criar um serviço confiável.

A gente descreve uma abordagem favorável a DevOps para o gerenciamento de incidentes no Manual de incidentes da Atlassian.

Ferramentas de gerenciamento de incidentes

O gerenciamento de incidentes não é feito apenas com uma ferramenta, mas com a combinação certa de ferramentas, práticas e pessoas. Veja abaixo várias das categorias de ferramentas mais comuns para o gerenciamento de incidentes efetivo:

  • Rastreamento de incidentes: cada incidente deve ser rastreado e documentado para que você possa identificar tendências e fazer comparações ao longo do tempo.
  • Sala de bate-papo: a comunicação de texto em tempo real é crucial para diagnosticar e resolver o incidente como uma equipe. E propicia um conjunto rico de dados para análise de resposta mais tarde.
  • Bate-papo por vídeo: o bate-papo por vídeo complementa o bate-papo de texto para muitos incidentes. A equipe do bate-papo por vídeo pode ajudar a discutir os resultados e mapear uma estratégia de resposta.
  • Sistema de alerta: uma ferramenta como o Opsgenie se integra ao sistema de monitoramento e gerencia revezamentos e escalonamentos de plantão.
  • Ferramenta de documentação: uma ferramenta como o Confluence pode capturar documentos de estado de incidentes e análises retrospectivas.
  • Statuspage: a comunicação do status com interessados internos e com os clientes por meio do Statuspage ajuda a manter todos informados.

Registre-se para ver mais artigos e tutoriais

Thank you for subscribing