Close

O caminho para um gerenciamento de incidentes melhor começa aqui

The 7 stages of effective incident response

A resposta a incidentes é o processo de uma empresa para reagir a ameaças de TI, como ataques cibernéticos, violação de segurança e tempo de inatividade do servidor.

Other IT Ops and DevOps teams may refer to the practice as major incident management or simply incident management.

As seções a seguir descrevem um processo de resposta a incidentes, o que fazer entre perceber que um serviço está inativo e fazer ele funcionar de novo, com base no material do nosso Manual de incidentes.

Neste artigo, a gente aborda as sete etapas principais da resposta a incidentes:

  1. Identificar o incidente
  2. Definir canais de comunicação da equipe
  3. Avaliar o impacto e aplicar um nível de gravidade
  4. Comunique-se com os clientes
  5. Escalonar para os respondentes certos
  6. Delegar funções de resposta a incidentes
  7. Resolver o incidente
Fluxo de trabalho de resposta a incidentes

Identificar o incidente

Em um cenário ideal, as ferramentas de monitoramento e alertas vão identificar e informar a equipe sobre um incidente antes mesmo dos clientes perceberem. Embora às vezes você vai ficar sabendo primeiro sobre um incidente pelo Twitter ou tickets do suporte ao cliente.

Não importa como o incidente seja detectado, a primeira etapa deve ser registrar se um novo incidente está aberto em uma ferramenta para rastrear incidentes. Pode ser uma ferramenta específica de operações como o Opsgenie Enterprise ou uma ferramenta de rastreamento mais completa como o Jira.

Definir canais de comunicação da equipe

Uma das primeiras ações que o gerenciador de incidentes (GI) faz quando ele se conecta é configurar os canais de comunicação da equipe de incidentes. O objetivo nesse momento é estabelecer e focar todas as comunicações da equipe de incidentes em lugares conhecidos, por exemplo:

  • Sala de bate-papo no Slack ou outro serviço de mensagens.
  • Bate-papo por vídeo em aplicativo de conferência, como o Zoom (ou se vocês estiverem no mesmo local, reúna a equipe em uma sala).

A gente prefere usar ferramentas de bate-papo por vídeo e de bate-papo de texto durante incidentes, já que ambas se destacam em situações diferentes. O bate-papo por vídeo é ótimo para criar uma imagem mental compartilhada do incidente com rapidez por meio da discussão em grupo. E o Slack ajuda a gerar um registro de data e hora do incidente com links coletados para capturas de tela, URLs e painéis.

O Slack e a maioria das outras ferramentas de bate-papo permitem que os usuários definam o assunto da sala. O gerenciador de incidentes deve usar esse campo para obter informações sobre o incidente e links úteis.

Por último, o GI define o próprio status pessoal do bate-papo para a chave de item do incidente que ele está gerenciando. Isto permite que seus colegas saibam que eles estão ocupados gerenciando um incidente.

Avaliar o impacto e aplicar um nível de gravidade

Depois que os canais de comunicação da equipe do incidente estiverem definidos, é hora de avaliar o incidente para que a equipe possa decidir o que contar às pessoas sobre ele e quem precisa corrigi-lo.

Temos o seguinte conjunto de perguntas que os IMs fazem às suas equipes:

  • Qual é o impacto para os clientes (internos e externos)?
  • O que os clientes estão vendo?
  • Quantos clientes foram afetados (alguns, todos)?
  • Quando começou?
  • Quantos casos de suporte os clientes abriram?
  • Existem outros fatores, p. ex., Twitter, segurança ou perda de dados?

A próxima etapa é atribuir um nível de gravidade.

Níveis de gravidade de resposta a incidentes

Gravidade 1
Descrição: um incidente crítico com impacto muito alto
Exemplos:

  • Um serviço voltado para o cliente está aberto a todos os usuários
  • A confidencialidade ou a privacidade foi violada
  • Perda de dados do cliente

Gravidade 2
Um incidente grave com impacto significativo
Exemplos:

  • Um serviço voltado para o cliente não está disponível para alguns clientes, mas não para todos
  • A funcionalidade principal está muito impactada.

Gravidade 3
Um incidente leve com baixo impacto
Exemplos:

  • Uma pequena inconveniência aos clientes, com uma solução alternativa disponível.
  • Degradação do desempenho de uso.

Usar um sistema de numeração para níveis de gravidade ajuda a definir e comunicar o incidente com rapidez. Tudo o que é preciso dizer é: "é possível que esteja acontecendo um grav-1" e as pessoas certas vão entender de imediato a gravidade do assunto, mesmo antes de obter mais informações.

Os níveis de gravidade também podem ajudar a criar diretrizes para as expectativas de resposta.

Em algumas empresas, por exemplo, incidentes de gravidade 3 podem ser abordados durante o horário comercial, enquanto os de gravidade 1 e 2 precisam que os membros da equipe sejam informados para fazer uma correção imediata.

As definições de gravidade de incidentes devem ser documentadas e consistentes em toda a empresa.

Comunique-se com os clientes

Uma vez que a equipe estabelece que o incidente é real, é melhor comunicar aos interessados internos e externos o mais rápido possível.

O objetivo da comunicação interna é focar a resposta a incidentes em um só lugar e reduzir a confusão.

O objetivo da comunicação externa é contar aos clientes que a equipe tem conhecimento que algo não está funcionando e que já está sendo investigado. Comunicar com rapidez e precisão ajuda a criar confiança com os clientes e o restante da empresa.

Muitas equipes usam o Statuspage para comunicar incidentes tanto dentro e fora da empresa. Veja aqui dois templates simples para atualizar uma página de status interna ou externa:

Página de status interna


A gente está investigando um incidente que está afetando , e . Mais atualizações vão ser enviadas por e-mail e pelo Statuspage em breve.

Página de status externa
Investigando itens com

A gente está investigando itens com e atualizações vão ser informadas por aqui em breve.

Escalonar para os respondentes certos

Às vezes, os respondentes iniciais são os únicos que resolvem o incidente. Na maioria das vezes, os respondentes precisam adicionar outras equipes ao incidente e para chamar essas equipes eles usam uma ferramenta de alerta como o Opsgenie.

As ferramentas de alertas permitem que as equipes definam listas de plantão para criar um revezamento de funcionários que possam ser chamados durante um incidente. Assim é melhor do que confiar em uma pessoa específica toda vez que houver um incidente. Essa mesma pessoa nem sempre vai estar disponível (pode estar de férias, mudar de emprego ou estar sobrecarregada quando for solicitada demais).

Delegar funções de resposta a incidentes

Depois que um outro respondente de incidentes for chamado e estiver on-line, o gerenciador de incidentes delega uma função a ele. É importante que ele entenda o que é exigido da função e como contribuir com a equipe de incidentes com rapidez e eficácia.

Outra vantagem de definir funções é que permite mais adaptabilidade e flexibilidade. Contanto que uma pessoa saiba como executar determinada função, ela pode assumir a função para qualquer incidente.

Três funções importantes de resposta a incidentes

Gestor de incidentes

Cada incidente é conduzido pelo gerenciador de incidentes, que tem a autoridade e responsabilidade geral pelo incidente.

O gerenciador de incidentes tem autoridade de realizar qualquer ação necessária para resolver o incidente, o que inclui convocar qualquer pessoa da empresa e manter as pessoas envolvidas em um incidente focadas na restauração do serviço, o mais rápido possível.

Líder de tecnologia

Respondente técnico sênior. O líder de tecnologia desenvolve teorias sobre o que não está funcionando e por quê, decide sobre mudanças e dirige a equipe técnica. Essa pessoa trabalha em estreita colaboração com o gerenciador de incidentes.

Gerente de comunicações

Pessoa familiarizada com as comunicações públicas, das equipes de suporte ao cliente ou relações públicas. Responsável por escrever e enviar comunicações internas e externas sobre o incidente.

Resolver o incidente

Não existe processo único que possa resolver todos os incidentes. Se existisse, era só automatizar e pronto. Em vez disso, é melhor se inspirar no método científico. Use iterações no processo a seguir para que ele possa ser adaptado com rapidez a uma variedade de cenários de resposta a incidentes:

  • Observe o que está acontecendo. Compartilhe e confirme as observações.
  • Desenvolva teorias sobre o que está acontecendo.
  • Desenvolva e execute experimentos para comprar ou refutar as teorias.
  • Repita até que o incidente seja resolvido.

Um incidente é resolvido quando o impacto atual ou iminente nos negócios estiver encerrado. Nesse momento, o processo de resposta emergencial é encerrado e a equipe muda para qualquer tarefa de limpeza e análise retrospectiva.

A gente envia comunicações finais internas e externas quando o incidente estiver resolvido. As comunicações internas têm uma recapitulação do impacto e da duração do incidente, incluindo quantos casos de suporte foram criados e outras dimensões importantes do incidente. Também dizem com clareza que o incidente foi resolvido e que não vão existir mais comunicações sobre ele. Em geral, as comunicações externas são breves, contando aos clientes que o serviço foi restaurado e que a equipe vai acompanhar com uma análise retrospectiva.

a seguir
Postmortems