Close

Gerenciamento de incidentes para equipes de alta velocidade

Como escolher ferramentas de gerenciamento de incidentes

Categorias, recursos essenciais e o que procurar

Não existe uma ferramenta única que atenda a todos os casos do gerenciamento de incidentes.

As equipes de incidentes de melhor desempenho usam uma coleção das ferramentas, práticas e pessoas certas.

Algumas ferramentas são específicas para o gerenciamento de incidentes, outras são ferramentas de propósito mais geral que a equipe também usa para outras tarefas. E algumas ferramentas podem ser uma experiência muito personalizada, construída sobre camadas de integrações e personalização.

Não importa o caso de uso, boas ferramentas de gerenciamento de incidentes têm alguns itens em comum. As melhores ferramentas de gerenciamento de incidentes são abertas, confiáveis e adaptáveis.

Aberto: em um ambiente de alta pressão, como um incidente, é essencial que as pessoas certas tenham acesso às ferramentas e informações certas de imediato. Tanto as pessoas que respondem a incidentes, quanto os interessados da empresa que precisam de visibilidade sobre os esforços de resposta seguem essa tendência.

Confiável: durante a resposta a incidentes, uma das piores situações é ver as ferramentas essenciais também pararem de funcionar. O uso de ferramentas de nuvem, como o Slack e o Opsgenie, minimiza o risco de uma interrupção na infraestrutura que derruba as ferramentas de resposta.

Adaptável: itens como integrações, fluxos de trabalho, complementos, personalização e APIs abrem as possibilidades por trás do produto. Você pode querer começar a usar uma configuração pronta para uso, mas à medida que as práticas e processos amadurecem, você vai querer que as ferramentas sejam flexíveis o suficiente para dar suporte às necessidades em constante mudança.

Antes do incidente

Monitoramento

Os sistemas de monitoramento permitem que as equipes de DevOps e operações de TI coletem, agreguem e acionem alertas de dados com origem em milhares de serviços diferentes em tempo real. Os sistemas são essenciais para oferecer visibilidade total sobre a saúde dos serviços e, muitas vezes, acionar os primeiros sinais de alarme durante um incidente.

Benefícios

As ferramentas de monitoramento dão à equipe informações atualizadas sobre a integridade da infraestrutura. As ferramentas de monitoramento modernas também acionam alertas com iniciativa durante atividade inesperadas.

Benefícios

As ferramentas de monitoramento dão à equipe informações atualizadas sobre a integridade da infraestrutura. As ferramentas de monitoramento modernas também acionam alertas com iniciativa durante atividade inesperadas.

Recursos

Monitoring tools give your team constant insight into the health of the infrastructure. Modern monitoring tools also proactively trigger alerts during unexpected activity.

 

 

Feature Set

Questions to ask

24/7 coverage and analytics

Does the tool have visibility into all my servers and infrastructures?

Integrates with alerting tools

Can my team see real time analytics and dashboards and set alerting thresholds?

 

Does the product integrate with my alerting and on-call tool?

Service Desk

O software Service Desk oferece aos clientes e funcionários um lugar para relatar incidentes e possíveis incidentes.

Benefícios

Além dos outros casos de uso, as centrais de atendimento (solicitações de serviço, central de ajuda de TI) capacitam a equipe a aprender com rapidez sobre incidentes das pessoas que mais importam: os usuários e clientes.

Recursos

 

 

Feature set

Questions to ask

Enable self serve

Can customers quickly file tickeCan customers quickly file tickets through a self-service support portal?

 

Can customers find the help they need with automated knowledge-based suggestions?

Recomendação: Jira Service Management

Alertas e plantão

O alerta rápido e confiável é um passo essencial na resposta a incidentes. É assim que as equipes garantem que as pessoas certas tenham conhecimento de um incidente.

Benefícios

As ferramentas de alerta notificam os respondentes de plantão designados por meio de uma combinação sofisticada de agendamento, caminhos de escalonamento e notificações.

Recursos

 

 

Feature set

Questions to ask

Works globally

Can I send notifications (SMS, voice, email) to almost anywhere?

Multiple notification methods

Can I send notifications using multiple notification methods like email, SMS, phone, and mobile app push and try them multiple times?

Recomendação: Opsgenie

Durante o incidente

Como aproveitar um banco de dados de gerenciamento de configuração (CMDB) para ter uma resolução mais rápida

Compreender as interdependências dentro da infraestrutura é crucial para determinar o impacto total do incidente e alcançar uma resolução mais rápida.

Benefícios

Um CMDB ajuda a entender os relacionamentos e as dependências na infraestrutura de TI. Se algo parar de funcionar, este mapa vai permitir que você encontre com rapidez:

  • Causas potenciais do incidente. Por exemplo, determinando em qual host um serviço está sendo executado com o clique de um botão.
  • Efeitos de repercussão do incidente. Por exemplo, descobrindo outros serviços que estão sendo executados no mesmo host problemático.

Em outras palavras, você pode investigar e comunicar com rapidez todos os aspectos do incidente.

 

 

Feature set

Questions to ask

Multiple channels

How flexible is the CMDB? Can I store any CI or asset?

Integrations

Can I visualize my infrastructure graphically?

 

Can I link CIs/assets with my service desk issues?

 

Can I link CIs/assets to change requests?

Recomendação: Insight

Logo do Insight

Responda a incidentes com mais rapidez

Mapeie a infraestrutura e as dependências como se fossem nativas no Jira. Encontre e resolva com rapidez a causa dos incidentes e aumente o tempo de atividade!

Comunicação da equipe

Uma comunicação clara e confiável é sem dúvida imprescindível durante o gerenciamento de incidentes.

Benefícios

Uma plataforma de comunicação sólida permite que a equipe se comunique, compartilhe observações, links e capturas de tela de maneira preservada, mantendo a data e hora. A plataforma reúne as informações e as pessoas certas durante um incidente e cria um registro com as informações para o aprendizado após o incidente.

Recursos

 

 

Feature set

Questions to ask

Multiple channels

Can my incident response team quickly spin up a dedicated channel for an incident?

Integrations

Can other tools in my incident toolchain post into my team's communication channel?

Recomendação: Slack (texto), Zoom (vídeo)

Comunicação com clientes

As ferramentas de comunicação do cliente ajudam a manter os clientes informados durante um incidente.

Benefícios

Não há como contornar, os incidentes são uma má experiência para os clientes. Manter os clientes informados cria confiança e acelera os esforços de resposta. A comunicação com os clientes permite que eles saibam que você está ciente do incidente e trabalhando em uma correção.

Recursos

 

 

Feature set

Questions to ask

Off of my infrastructure

Will my communication tool be operational and accessible even if my internal infrastructure is down?

Subscribers and notifications

Can customers opt in to get notifications when I post about an incident?

Recomendação: Statuspage

Central de controle de incidentes

Uma central de controle de incidentes está onde quer que o registro canônico de incidentes e informações importantes estão. Pode ser uma ferramenta de incidente como o Opsgenie ou uma ferramenta de rastreamento de itens como o Jira.

Benefícios

A ferramenta da central de controle oferece um lugar para informar todos durante e após um incidente, listando informações importantes como status do incidente, alertas associados, atualizações e muito mais. Ela também propicia um registro histórico do incidente e o esforço de resposta associado.

Recursos

 

 

Feature set

Questions to ask

Source of truth

Can team members and stakeholders use this record to locate all the other details of the incident and response activities?

Timeline

Does the tool aggregate a chronological timeline of key events?

 

Can team members and stakeholders quickly get up to speed on the incident?

Recomendação: Opsgenie

Depois do incidente

Post-mortem e análises

As análises retrospectivas são um registro por escrito do que aconteceu durante o incidente e quaisquer ações de acompanhamento tomadas para evitar que aconteça de novo.

Benefícios

Depois que um incidente é resolvido, as equipes ainda não conhecem as causas raízes e correm o risco de o mesmo incidente acontecer de novo. As análises retrospectivas ajudam a evitar essa recorrência, reunindo a equipe para fazer uma análise pós-incidente.

Recursos

 

 

Feature set

Questions to ask

Templates

Can my team use a template to fill out a postmortem?

Map out next actions

Can my team plan out next actions and remediation work during a postmortem?

Recomendação: Opsgenie

Rastreamento de problema

Uma ferramenta de rastreamento de itens ajuda a equipe a mapear futuros trabalhos de reparação que precisam ser feitos.

Benefícios

Em muitos casos, resolver o incidente faz o serviço funcionar de novo sem resolver a causa raiz. Em geral, há mais trabalho de engenharia que precisa ser feito para reparar as causas raízes e garantir que o incidente não se repita. Ferramentas de rastreamento de itens e trabalhos, que a equipe já utiliza para outros trabalhos de desenvolvimento, ajudam a garantir que esse trabalho seja priorizado e não passe despercebido.

Recursos

 

 

Feature set

Questions to ask

Shared workflow pipeline

Can my team plan any incident remediation work alongside their other work and priorities?

Integrations

Can my team pull in data and content from my other incident tools?

Recomendação: Jira Software

a seguir
KPIs