Close

Ganhe 30% de desconto na assinatura do Jira Service Management

Gerenciamento de incidentes para equipes de alta velocidade

O que é gerenciamento de incidentes?

Incident management is the process used by development and IT Operations teams to respond to an unplanned event or service interruption and restore the service to its operational state.

Na Atlassian, um incidente é um evento que causa interrupção ou redução na qualidade de um serviço que requer uma resposta de emergência. As equipes que seguem as práticas da ITIL ou do ITSM podem usar o termo incidente grave.

Manual de gerenciamento de incidentes

Get our Incident Management Handbook

Download the PDF to learn tips and best practices from Atlassian’s incident management experts.

Incidents are events of any kind that disrupt or reduce the quality of service (or threaten to do so). A business application going down is an incident. A crawling-but-not-yet-dead web server can be an incident, too. It’s running slowly and interfering with productivity. Worse yet, it poses the even-greater risk of complete failure. Incidents can vary widely in severity, ranging from an entire global web service crashing to a small number of users having intermittent errors.

Um incidente é resolvido quando o serviço afetado volta a funcionar no estado pretendido. Estão incluídas apenas as tarefas necessárias para atenuar o impacto e restaurar a funcionalidade.

Tópicos sobre gerenciamento de incidentes

Tutoriais apresentados

[CONTINUAÇÃO]

A importância do gerenciamento de incidentes

Valores do gerenciamento de incidentes

Valores do gerenciamento de incidentes da Atlassian

Incident management is one of the most critical processes an organization needs to get right. Service outages can be costly to the business and teams need an efficient way to respond to and resolve these issues quickly. Teams need a reliable method to prioritize incidents, get to resolution faster, and offer better service for users.

Quando as equipes enfrentam um incidente, elas precisam de um plano que as ajude a:

  • Responder com eficácia para que possam se recuperar com rapidez.
  • Estabelecer com clareza a comunicação com os clientes, interessados, proprietários de serviços e outros na empresa.
  • Colaborar com eficácia para resolver o item com mais rapidez como equipe e remover barreiras que impedem que elas resolvam o item.
  • Continuously improve to learn from these outages and apply lessons to improve a service and refine their process for the future.

Quer ver como a Atlassian lida com incidentes graves? A gente publicou o manual interno de gerenciamento de incidentes. Fique à vontade para aprender com ele, adaptá-lo e usá-lo como quiser.

Tipos de processos de gerenciamento de incidentes

Tipos diferentes de empresas tendem a gravitar em direção a tipos diferentes de processos de gerenciamento de incidentes. Nenhum processo único é o melhor para todas as empresas, então é provável que você veja várias abordagens em empresas diferentes.

Muitas equipes contam com um processo de gerenciamento de incidentes de TI mais tradicional, como os descritos nas certificações ITIL. Outras equipes se voltam para um processo de gerenciamento de incidentes mais no estilo de Engenheiro de confiabilidade do site (SRE) ou DevOps.

Processo de gerenciamento de incidentes de TI

Um processo de gerenciamento de incidentes ajuda as equipes de TI a investigar, registrar e resolver interrupções ou paralisações de serviço. O fluxo de trabalho de gerenciamento de incidentes da ITIL visa reduzir o tempo de inatividade e minimizar o impacto na produtividade dos funcionários decorrentes de incidentes. Com o uso de templates criados para gerenciar incidentes, você pode criar um fluxo de trabalho de gerenciamento de incidentes repetível que garante que as equipes registrem, diagnostiquem e resolvam incidentes, mantendo um registro das atividades.

A estrutura da ITIL é usada em particular por equipes de TI que executam serviços dentro das empresas. Em geral, as equipes pegam o que precisam da ITIL, que abrange quase todos os tipos de incidentes, itens e processos que as equipes de TI podem enfrentar e descartam o restante. A ITIL é ótima quando as equipes precisam se concentrar em cultivar uma cultura de solução de problemas ativa. Os processos prescritos ajudam as equipes a rastrear incidentes e ações com consistência, o que melhora os relatórios e análises e pode levar a um serviço mais saudável e uma equipe mais bem-sucedida.

Etapas no processo de gerenciamento de incidentes de TI

Identificar e registrar um incidente

Um incidente pode vir de qualquer lugar: um funcionário, um cliente, um fornecedor, sistemas de monitoramento. Não importa a origem, as primeiras duas etapas são simples: alguém identifica um incidente e, depois, alguém o registra. Esses registros de incidente (ex.: tickets) costumam incluir:

  • O nome da pessoa que relatou o incidente
  • A data e hora que o incidente foi relatado
  • Uma descrição do incidente (o que está inativo ou não funciona direito)
  • Um número de identificação exclusivo atribuído ao incidente para o rastreamento

Categorizar

Atribua uma categoria (e subcategoria, conforme a necessidade) lógica e intuitiva a cada incidente. Fazendo assim, você possibilita a análise de dados em busca de tendências e padrões, o que é uma parte essencial de um gerenciamento de problemas efetivo e da prevenção de incidentes futuros.

Priorize

Every incident must be prioritized. Start by assessing its impact on the business, the number of people who will be impacted, any applicable SLAs, as well as the potential financial, security, and compliance implications of the incident. Compare this incident to all other open incidents to determine its relative priority. As a best practice, define your severity and priority levels before an incident happens, making it simpler for incident managers to gauge priority quickly.

Responder

  • Diagnóstico inicial: em uma situação ideal, a equipe de suporte de linha de frente pode ver um incidente do diagnóstico ao fechamento, mas se não for possível, a etapa seguinte é registrar todas as informações pertinentes e escalonar para a próxima equipe de nível.
  • Escalonar: a equipe seguinte assume os dados registrados e continua com o processo de diagnóstico. Se essa equipe não conseguir diagnosticar o incidente, ela vai escalonar para a próxima.
  • Comunicar: a equipe compartilha com frequência atualizações com interessados afetados, tanto internos quanto externos.
  • Investigação e diagnóstico: continua até que a natureza do incidente seja identificada. Às vezes, as equipes utilizam recursos externos ou outros membros do departamento para consultar e ajudar com a resolução.
  • Resolução e recuperação: nessa etapa, a equipe chega a um diagnóstico e realiza as etapas necessárias para resolver o incidente. A recuperação implica a quantia de tempo que pode levar para que as operações sejam restauradas por completo, uma vez que algumas correções (como correções de bugs etc.) podem exigir teste e implementação mesmo após a resolução adequada ser identificada.
  • Encerramento: se o incidente tiver sido escalonado, ele retorna à central de atendimento para ser encerrado. Para manter a qualidade e garantir um processo sem problemas, apenas os funcionários da central de atendimento têm permissão para encerrar incidentes e o proprietário do incidente deve verificar com a pessoa que relatou o incidente se a resolução é satisfatória e o incidente pode, de fato, ser encerrado.

Processo de gerenciamento de incidentes de DevOps e SRE

Com uma abordagem DevOps ou SRE para o gerenciamento de incidentes, a equipe que cria o serviço também o executa e o corrige se ele parar de funcionar. Essa abordagem ganhou popularidade com o crescimento de serviços contínuos de nuvem, aplicativos web acessados em todo mundo, microsserviços e software como serviço.

Increasingly the software you rely on for life and work is not being hosted on a server in the same physical location as you. It’s likely a web-accessed application deployed in a data center for thousands or millions of users around the globe. For teams tasked with running these services, agility and speed are paramount. Any downtime has the potential to affect thousands of organizations, not just one.

An advantage of the “you build it, you run it” approach is that it offers the flexibility agile teams need, but it can also obscure who is responsible for what and when. DevOps teams can be comfortable—and successful—with less structured development processes. But it’s best to standardize on a core set of processes for incident management so there is no question how to respond in the heat of an incident, and so you can track issues and report how they’re resolved.

Três crenças das equipes de gerenciamento de incidentes para DevOps

  • Faça revezamentos no plantão: em vez de certos membros da equipe especializados em estar de plantão, as equipes de DevOps revezam de acordo com um cronograma de plantão, onde todos os membros compartilham a possibilidade de serem acordados à noite para responder a um incidente.
  • O engenheiro que criou é a melhor pessoa para corrigir: a ideia central do princípio "você cria, você gerencia" é que as pessoas mais familiarizadas com o serviço (os criadores) são as mais bem equipadas para corrigir uma interrupção.
  • Crie com velocidade, mas pratique com responsabilidade: quando os engenheiros sabem que eles e os colegas de equipe estão encarregados durante as interrupções, há um incentivo adicional para garantir que você implemente código de qualidade.

Essa abordagem garante tempos de resposta e feedback mais rápidos para as equipes que precisam saber como criar um serviço confiável.

A gente descreve uma abordagem favorável a DevOps para o gerenciamento de incidentes no Manual de incidentes da Atlassian.

Ferramentas de gerenciamento de incidentes

O gerenciamento de incidentes não é feito apenas com uma ferramenta, mas com a combinação certa de ferramentas, práticas e pessoas. Veja abaixo várias das categorias de ferramentas mais comuns para o gerenciamento de incidentes efetivo:

  • Rastreamento de incidentes: cada incidente deve ser rastreado e documentado para que você possa identificar tendências e fazer comparações ao longo do tempo.
  • Sala de bate-papo: a comunicação de texto em tempo real é crucial para diagnosticar e resolver o incidente como uma equipe. E propicia um conjunto rico de dados para análise de resposta mais tarde.
  • Bate-papo por vídeo: o bate-papo por vídeo complementa o bate-papo de texto para muitos incidentes. A equipe do bate-papo por vídeo pode ajudar a discutir os resultados e mapear uma estratégia de resposta.
  • Alerting system: A tool such as Jira Service Management integrates with your monitoring system and manages on-call rotations and escalations.
  • Ferramenta de documentação: uma ferramenta como o Confluence pode capturar documentos de estado de incidentes e análises retrospectivas.
  • Statuspage: a comunicação do status com interessados internos e com os clientes por meio do Statuspage ajuda a manter todos informados.

Quer saber mais sobre o gerenciamento de incidentes no Jira Service Management?

Registre-se para ver mais artigos e tutoriais

Thank you for subscribing