Close

O caminho para um gerenciamento de incidentes melhor começa aqui

Buscar tópicos

As 7 etapas para resposta a incidentes eficaz

A resposta a incidentes é o processo de uma empresa para reagir a ameaças de TI, como ataques cibernéticos, violação de segurança e tempo de inatividade do servidor.

Outras equipes de operações de TI e DevOps podem se referir à prática como gerenciamento de incidentes graves ou gerenciamento de incidentes.

As seções a seguir descrevem um processo de resposta a incidentes, o que fazer entre perceber que um serviço está inativo e fazer ele funcionar de novo, com base no material do nosso Manual de incidentes.

Neste artigo, a gente aborda as sete etapas principais da resposta a incidentes:

  1. Identificar o incidente
  2. Definir canais de comunicação da equipe
  3. Avaliar o impacto e aplicar um nível de gravidade
  4. Comunique-se com os clientes
  5. Escalonar para os respondentes certos
  6. Delegar funções de resposta a incidentes
  7. Resolver o incidente
Fluxo de trabalho de resposta a incidentes

Identificar o incidente

Em um cenário ideal, as ferramentas de monitoramento e alertas vão identificar e informar a equipe sobre um incidente antes mesmo dos clientes perceberem. Embora às vezes você vai ficar sabendo primeiro sobre um incidente pelo Twitter ou tickets do suporte ao cliente.

No matter how the incident is detected, your first step should be to record that a new incident is open in a tool for tracking incidents. In an incident management solution such as Jira Service Management, alerting and communication is integrated with your tracking tool.

Definir canais de comunicação da equipe

One of the first things the incident manager (IM) does when they come online is set up the incident team's communication channels. The goal at this point is to establish and focus all incident team communications in well-known places, such as:

  • Sala de bate-papo no Slack ou outro serviço de mensagens.
  • Bate-papo por vídeo em aplicativo de conferência, como o Zoom (ou se vocês estiverem no mesmo local, reúna a equipe em uma sala).

A gente prefere usar ferramentas de bate-papo por vídeo e de bate-papo de texto durante incidentes, já que ambas se destacam em situações diferentes. O bate-papo por vídeo é ótimo para criar uma imagem mental compartilhada do incidente com rapidez por meio da discussão em grupo. E o Slack ajuda a gerar um registro de data e hora do incidente com links coletados para capturas de tela, URLs e painéis.

O Slack e a maioria das outras ferramentas de bate-papo permitem que os usuários definam o assunto da sala. O gerenciador de incidentes deve usar esse campo para obter informações sobre o incidente e links úteis.

Por último, o GI define o próprio status pessoal do bate-papo para a chave de item do incidente que ele está gerenciando. Isto permite que seus colegas saibam que eles estão ocupados gerenciando um incidente.

Avaliar o impacto e aplicar um nível de gravidade

Depois que os canais de comunicação da equipe do incidente estiverem definidos, é hora de avaliar o incidente para que a equipe possa decidir o que contar às pessoas sobre ele e quem precisa corrigi-lo.

Temos o seguinte conjunto de perguntas que os IMs fazem às suas equipes:

  • Qual é o impacto para os clientes (internos e externos)?
  • O que os clientes estão vendo?
  • Quantos clientes foram afetados (alguns, todos)?
  • Quando começou?
  • Quantos casos de suporte os clientes abriram?
  • Existem outros fatores, p. ex., Twitter, segurança ou perda de dados?

The next step typically is to assign a severity level.

Níveis de gravidade de resposta a incidentes

Gravidade 1
Descrição: um incidente crítico com impacto muito alto
Exemplos:

  • Um serviço voltado para o cliente está aberto a todos os usuários
  • A confidencialidade ou a privacidade foi violada
  • Perda de dados do cliente

Gravidade 2
Um incidente grave com impacto significativo
Exemplos:

  • Um serviço voltado para o cliente não está disponível para alguns clientes, mas não para todos
  • A funcionalidade principal está muito impactada.

Gravidade 3
Um incidente leve com baixo impacto
Exemplos:

  • Uma pequena inconveniência aos clientes, com uma solução alternativa disponível.
  • Degradação do desempenho de uso.

Usar um sistema de numeração para níveis de gravidade ajuda a definir e comunicar o incidente com rapidez. Tudo o que é preciso dizer é: "é possível que esteja acontecendo um grav-1" e as pessoas certas vão entender de imediato a gravidade do assunto, mesmo antes de obter mais informações.

Os níveis de gravidade também podem ajudar a criar diretrizes para as expectativas de resposta.

Em algumas empresas, por exemplo, incidentes de gravidade 3 podem ser abordados durante o horário comercial, enquanto os de gravidade 1 e 2 precisam que os membros da equipe sejam informados para fazer uma correção imediata.

As definições de gravidade de incidentes devem ser documentadas e consistentes em toda a empresa.

Comunique-se com os clientes

Uma vez que a equipe estabelece que o incidente é real, é melhor comunicar aos interessados internos e externos o mais rápido possível.

O objetivo da comunicação interna é focar a resposta a incidentes em um só lugar e reduzir a confusão.

O objetivo da comunicação externa é contar aos clientes que a equipe tem conhecimento que algo não está funcionando e que já está sendo investigado. Comunicar com rapidez e precisão ajuda a criar confiança com os clientes e o restante da empresa.

Muitas equipes usam o Statuspage para comunicar incidentes tanto dentro e fora da empresa. Veja aqui dois templates simples para atualizar uma página de status interna ou externa:

Página de status interna


A gente está investigando um incidente que está afetando , e . Mais atualizações vão ser enviadas por e-mail e pelo Statuspage em breve.

Página de status externa
Investigando itens com

A gente está investigando itens com e atualizações vão ser informadas por aqui em breve.

Escalonar para os respondentes certos

Sometimes the initial responders are the ones who resolve the incident. More often than not, those responders need to bring other teams into the incident by paging them using an alerting tool. With Jira Service Management, responders can take their pick as to what alerting method they use, or even use them all in one central location.

As ferramentas de alertas permitem que as equipes definam listas de plantão para criar um revezamento de funcionários que possam ser chamados durante um incidente. Assim é melhor do que confiar em uma pessoa específica toda vez que houver um incidente. Essa mesma pessoa nem sempre vai estar disponível (pode estar de férias, mudar de emprego ou estar sobrecarregada quando for solicitada demais).

Delegar funções de resposta a incidentes

After a new incident responder is paged and comes online, the incident manager delegates a role to them. As It’s important they understand what's required of their role, and how to contribute to the incident team quickly and effectively.

Outra vantagem de definir funções é que permite mais adaptabilidade e flexibilidade. Contanto que uma pessoa saiba como executar determinada função, ela pode assumir a função para qualquer incidente.

Três funções importantes de resposta a incidentes

Gestor de incidentes

Cada incidente é conduzido pelo gerenciador de incidentes, que tem a autoridade e responsabilidade geral pelo incidente.

O gerenciador de incidentes tem autoridade de realizar qualquer ação necessária para resolver o incidente, o que inclui convocar qualquer pessoa da empresa e manter as pessoas envolvidas em um incidente focadas na restauração do serviço, o mais rápido possível.

Líder de tecnologia

Respondente técnico sênior. O líder de tecnologia desenvolve teorias sobre o que não está funcionando e por quê, decide sobre mudanças e dirige a equipe técnica. Essa pessoa trabalha em estreita colaboração com o gerenciador de incidentes.

Gerente de comunicações

Pessoa familiarizada com as comunicações públicas, das equipes de suporte ao cliente ou relações públicas. Responsável por escrever e enviar comunicações internas e externas sobre o incidente.

Resolver o incidente

Não existe processo único que possa resolver todos os incidentes. Se existisse, era só automatizar e pronto. Em vez disso, é melhor se inspirar no método científico. Use iterações no processo a seguir para que ele possa ser adaptado com rapidez a uma variedade de cenários de resposta a incidentes:

  • Observe o que está acontecendo. Compartilhe e confirme as observações.
  • Desenvolva teorias sobre o que está acontecendo.
  • Desenvolva e execute experimentos para comprar ou refutar as teorias.
  • Repita até que o incidente seja resolvido.

Um incidente é resolvido quando o impacto atual ou iminente nos negócios estiver encerrado. Nesse momento, o processo de resposta emergencial é encerrado e a equipe muda para qualquer tarefa de limpeza e análise retrospectiva.

A gente envia comunicações finais internas e externas quando o incidente estiver resolvido. As comunicações internas têm uma recapitulação do impacto e da duração do incidente, incluindo quantos casos de suporte foram criados e outras dimensões importantes do incidente. Também dizem com clareza que o incidente foi resolvido e que não vão existir mais comunicações sobre ele. Em geral, as comunicações externas são breves, contando aos clientes que o serviço foi restaurado e que a equipe vai acompanhar com uma análise retrospectiva.

Conclusion

There are many moving parts to the incident response process. Keeping track of each step with seamless communication is easy with an incident management tool like Jira Service Management. Centralize alerts and unify teams with flexibility to resolve incidents quickly.