Close

Gerenciamento de incidentes para equipes de alta velocidade

Como escolher ferramentas de gerenciamento de incidentes

Categorias, recursos essenciais e o que procurar

Não existe uma ferramenta única que atenda a todos os casos do gerenciamento de incidentes.

As equipes de incidentes de melhor desempenho usam uma coleção das ferramentas, práticas e pessoas certas.

Algumas ferramentas são específicas para o gerenciamento de incidentes, outras são ferramentas de propósito mais geral que a equipe também usa para outras tarefas. E algumas ferramentas podem ser uma experiência muito personalizada, construída sobre camadas de integrações e personalização.

Não importa o caso de uso, boas ferramentas de gerenciamento de incidentes têm alguns itens em comum. As melhores ferramentas de gerenciamento de incidentes são abertas, confiáveis e adaptáveis.

Aberto: em um ambiente de alta pressão, como um incidente, é essencial que as pessoas certas tenham acesso às ferramentas e informações certas de imediato. Tanto as pessoas que respondem a incidentes, quanto os interessados da empresa que precisam de visibilidade sobre os esforços de resposta seguem essa tendência.

Confiável: durante a resposta a incidentes, uma das piores situações é ver as ferramentas essenciais também pararem de funcionar. O uso de ferramentas de nuvem, como o Slack e o Opsgenie, minimiza o risco de uma interrupção na infraestrutura que derruba as ferramentas de resposta.

Adaptável: itens como integrações, fluxos de trabalho, complementos, personalização e APIs abrem as possibilidades por trás do produto. Você pode querer começar a usar uma configuração pronta para uso, mas à medida que as práticas e processos amadurecem, você vai querer que as ferramentas sejam flexíveis o suficiente para dar suporte às necessidades em constante mudança.

Ilustração do ciclo do gerenciamento de incidentes

Antes do incidente

Monitoramento

Os sistemas de monitoramento permitem que as equipes de DevOps e operações de TI coletem, agreguem e acionem alertas de dados com origem em milhares de serviços diferentes em tempo real. Os sistemas são essenciais para oferecer visibilidade total sobre a saúde dos serviços e, muitas vezes, acionar os primeiros sinais de alarme durante um incidente.

Benefícios

As ferramentas de monitoramento dão à equipe informações atualizadas sobre a integridade da infraestrutura. As ferramentas de monitoramento modernas também acionam alertas com iniciativa durante atividade inesperadas.

Recursos

 

Conjunto de recursos

Perguntas a fazer

 

Conjunto de recursos

Cobertura e análises em tempo integral

Perguntas a fazer

A ferramenta tem visibilidade em todos os servidores e infraestruturas?

A equipe pode ver análises e painéis em tempo real e estabelecer limites de alertas?

 

Conjunto de recursos

Se integra com ferramentas de alertas

Perguntas a fazer

O produto se integra com minha ferramenta de alerta e de plantão?

Service Desk

O software Service Desk oferece aos clientes e funcionários um lugar para relatar incidentes e possíveis incidentes.

Benefícios

Além dos outros casos de uso, as centrais de atendimento (solicitações de serviço, central de ajuda de TI) capacitam a equipe a aprender com rapidez sobre incidentes das pessoas que mais importam: os usuários e clientes.

Recursos

 

Conjunto de recursos

Perguntas a fazer

 

Conjunto de recursos

Permitir autoatendimento

Perguntas a fazer

Os clientes podem registrar tickets com rapidez por meio de um portal de serviço?

Os clientes podem encontrar a ajuda de que precisam com sugestões automatizadas baseadas em conhecimento?

Recomendação: Jira Service Management

Alertas e plantão

O alerta rápido e confiável é um passo essencial na resposta a incidentes. É assim que as equipes garantem que as pessoas certas tenham conhecimento de um incidente.

Benefícios

As ferramentas de alerta notificam os respondentes de plantão designados por meio de uma combinação sofisticada de agendamento, caminhos de escalonamento e notificações.

Recursos

 

Conjunto de recursos

Perguntas a fazer

 

Conjunto de recursos

Trabalha em âmbito mundial

Perguntas a fazer

É possível enviar notificações (SMS, voz, e-mail) para quase todo lugar do mundo?

 

Conjunto de recursos

Vários métodos de notificação

Perguntas a fazer

É possível enviar notificações usando vários métodos de notificação como e-mail, SMS, telefone e push em um dispositivo móvel?

Recomendação: Opsgenie

Durante o incidente

Como aproveitar um banco de dados de gerenciamento de configuração (CMDB) para ter uma resolução mais rápida

Compreender as interdependências dentro da infraestrutura é crucial para determinar o impacto total do incidente e alcançar uma resolução mais rápida.

Benefícios

Um CMDB ajuda a entender os relacionamentos e as dependências na infraestrutura de TI. Se algo parar de funcionar, este mapa vai permitir que você encontre com rapidez:

  • Causas potenciais do incidente. Por exemplo, determinando em qual host um serviço está sendo executado com o clique de um botão.
  • Efeitos de repercussão do incidente. Por exemplo, descobrindo outros serviços que estão sendo executados no mesmo host problemático.

Em outras palavras, você pode investigar e comunicar com rapidez todos os aspectos do incidente.

 

Conjunto de recursos

Perguntas a fazer

 

Conjunto de recursos

Vários canais

Perguntas a fazer

Qual é a flexibilidade do CMDB? É possível armazenar qualquer IC ou ativo?

É possível visualizar minha infraestrutura com gráficos?

 

Conjunto de recursos

Integrações

Perguntas a fazer

É possível vincular ICs/ativos aos itens da central de atendimento?

É possível vincular ICs/ativos às solicitações de mudança?

Recomendação: Insight

Logo do Insight

Responda a incidentes com mais rapidez

Mapeie a infraestrutura e as dependências como se fossem nativas no Jira. Encontre e resolva com rapidez a causa dos incidentes e aumente o tempo de atividade!

Comunicação da equipe

Uma comunicação clara e confiável é sem dúvida imprescindível durante o gerenciamento de incidentes.

Benefícios

Uma plataforma de comunicação sólida permite que a equipe se comunique, compartilhe observações, links e capturas de tela de maneira preservada, mantendo a data e hora. A plataforma reúne as informações e as pessoas certas durante um incidente e cria um registro com as informações para o aprendizado após o incidente.

Recursos

 

Conjunto de recursos

Perguntas a fazer

 

Conjunto de recursos

Vários canais

Perguntas a fazer

A equipe de resposta a incidentes pode criar um canal dedicado a um incidente com rapidez?

 

Conjunto de recursos

Integrações

Perguntas a fazer

Outras ferramentas da minha cadeia de ferramentas de incidentes podem publicar no canal de comunicação da equipe?

Recomendação: Slack (texto), Zoom (vídeo)

Comunicação com clientes

As ferramentas de comunicação do cliente ajudam a manter os clientes informados durante um incidente.

Benefícios

Não há como contornar, os incidentes são uma má experiência para os clientes. Manter os clientes informados cria confiança e acelera os esforços de resposta. A comunicação com os clientes permite que eles saibam que você está ciente do incidente e trabalhando em uma correção.

Recursos

 

Conjunto de recursos

Perguntas a fazer

 

Conjunto de recursos

Fora da minha infraestrutura

Perguntas a fazer

A ferramenta de comunicação vai ficar operacional e acessível mesmo se a infraestrutura interna estiver fora do ar?

 

Conjunto de recursos

Assinantes e notificações

Perguntas a fazer

É possível os clientes escolherem receber notificações quando houver publicação sobre um incidente?

Recomendação: Statuspage

Central de controle de incidentes

Uma central de controle de incidentes está onde quer que o registro canônico de incidentes e informações importantes estão. Pode ser uma ferramenta de incidente como o Opsgenie ou uma ferramenta de rastreamento de itens como o Jira.

Benefícios

A ferramenta da central de controle oferece um lugar para informar todos durante e após um incidente, listando informações importantes como status do incidente, alertas associados, atualizações e muito mais. Ela também propicia um registro histórico do incidente e o esforço de resposta associado.

Recursos

 

Conjunto de recursos

Perguntas a fazer

 

Conjunto de recursos

Fonte de informações

Perguntas a fazer

Os membros da equipe e interessados podem ficar por dentro do incidente com rapidez?

Os membros da equipe e interessados podem usar este registro para localizar todas as informações do incidente e atividades de resposta?

 

Conjunto de recursos

Linha do tempo

Perguntas a fazer

A ferramenta tem uma linha do tempo cronológica de eventos importantes?

Recomendação: Opsgenie

Depois do incidente

Post-mortem e análises

As análises retrospectivas são um registro por escrito do que aconteceu durante o incidente e quaisquer ações de acompanhamento tomadas para evitar que aconteça de novo.

Benefícios

Depois que um incidente é resolvido, as equipes ainda não conhecem as causas raízes e correm o risco de o mesmo incidente acontecer de novo. As análises retrospectivas ajudam a evitar essa recorrência, reunindo a equipe para fazer uma análise pós-incidente.

Recursos

 

Conjunto de recursos

Perguntas a fazer

 

Conjunto de recursos

Templates

Perguntas a fazer

A equipe pode usar templates para preencher uma análise retrospectiva?

 

Conjunto de recursos

Fazer um mapa das próximas ações

Perguntas a fazer

A equipe pode planejar as próximas ações e o trabalho de reparação durante uma análise retrospectiva?

Recomendação: Opsgenie

Rastreamento de problema

Uma ferramenta de rastreamento de itens ajuda a equipe a mapear futuros trabalhos de reparação que precisam ser feitos.

Benefícios

Em muitos casos, resolver o incidente faz o serviço funcionar de novo sem resolver a causa raiz. Em geral, há mais trabalho de engenharia que precisa ser feito para reparar as causas raízes e garantir que o incidente não se repita. Ferramentas de rastreamento de itens e trabalhos, que a equipe já utiliza para outros trabalhos de desenvolvimento, ajudam a garantir que esse trabalho seja priorizado e não passe despercebido.

Recursos

 

Conjunto de recursos

Perguntas a fazer

 

Conjunto de recursos

Pipeline de fluxo de trabalho compartilhado

Perguntas a fazer

A equipe pode planejar qualquer trabalho de reparação a incidentes em paralelo com outros trabalhos e prioridades?

 

Conjunto de recursos

Integrações

Perguntas a fazer

A equipe pode extrair dados e conteúdo de outras ferramentas de incidentes?

Recomendação: Jira Software

Up Next
KPIs