Close

O caminho para um gerenciamento de incidentes melhor começa aqui

Buscar tópicos

Como criar esquemas táticos de resposta a incidentes

Pegue uma página do manual.

A missão a Atlassian é revelar o potencial de cada equipe. Uma coisa que a gente sabe que grandes equipes têm em comum? Eles usam esquemas táticos para gerenciar os processos formulados para manter suas empresas funcionando sem problemas.

Este artigo aborda cinco etapas essenciais para criar um esquema tático eficaz de resposta a incidentes. A gente vai usar o Manual de gerenciamento de incidentes da Atlassian como template para desenvolver um plano de resposta a incidentes.

Por que as equipes ágeis precisam de um esquema tático de incidentes

Um esquema tático de resposta a incidentes capacita as equipes com procedimentos e etapas padrão para responder e resolver incidentes em tempo real. Os esquemas táticos também podem incluir treinamento e exercícios em tempo de paz, que vão preparar a equipe para o próximo incidente.

Na Atlassian, as equipes de incidentes estão sempre treinando, refinando, testando e aprimorando o processo de gerenciamento de incidentes. A gente desenvolveu o esquema tático de resposta a incidentes para:

  • Orientar pessoas e equipes para uma tomada de decisões autônoma nas situações de incidentes e post-mortem.
  • Construir uma cultura consistente entre as equipes em relação a como a gente identifica, gerencia e aprende com os incidentes.
  • Alinhar as equipes sobre quais atitudes elas devem ter em cada parte da identificação, resolução e reflexão do incidente.

O que é um esquema tático de resposta a incidentes?

Os esquemas táticos são um componente essencial do gerenciamento de incidentes de DevOps e operações de TI, bem como de segurança cibernética. Eles definem as políticas e práticas da empresa para responder a interrupções não planejadas, ajudam as equipes a colocar ordem no caos e garantir que todos estejam respondendo a incidentes e ameaças à segurança com consistência.

Um manual de gerenciamento de incidentes oferece à sua equipe um conjunto de processos para responder, resolver e aprender com cada incidente, seja um problema de segurança ou outra vulnerabilidade emergente. O conteúdo pode incluir tudo, desde runbooks e listas de verificação até templates, exercícios de treinamento, cenários de ataque à segurança e exercícios de simulação.

Criando um esquema tático de resposta a incidentes

Ao criar o Manual de gerenciamento de incidentes da Atlassian, a gente identificou cinco práticas recomendadas quando se trata de gerenciar um incidente. Essas etapas podem ser traduzidas em uma variedade de equipes de DevOps e de operações de TI e ajudam a orientar o processo de criação de um esquema tático eficaz de resposta a incidentes.

1. Defina incidentes para sua empresa

O que incluir: uma definição específica do que constitui um incidente

Por quê: você não pode resolver efetivamente um incidente se não souber quando ele está acontecendo. Equipes diferentes definem incidentes de maneiras diferentes. Se algo der errado, cada segundo importa, e você não precisa de colegas brigando pela semântica.

Exemplo:

A definição de um incidente conforme consta no Manual de gerenciamento de incidentes da Atlassian:

O que é um incidente?

A gente define um incidente como um evento que causa interrupção ou redução na qualidade de um serviço e que requer uma resposta emergencial. As equipes que seguem as práticas de ITIL ou ITSM podem usar o termo "incidente grave" nesses casos.

Um incidente é resolvido quando o serviço afetado volta a funcionar da maneira usual. São incluídas aqui apenas as tarefas necessárias para restaurar a funcionalidade completa, e são excluídas tarefas de acompanhamento, como identificação e mitigação da causa raiz, que fazem parte do post-mortem.

O post-mortem do incidente é realizado depois do incidente, para determinar a causa-raiz e atribuir ações a fim de garantir que ele seja abordado antes que possa causar um incidente repetido.

2. Estabeleça funções pré-designadas

O que incluir: funções e responsabilidades de incidentes

Por quê: um esquema tático de resposta a incidentes adequado designa funções e responsabilidades claras. Os indivíduos na equipe de resposta a incidentes estão familiarizados com cada função e sabem pelo que são responsáveis durante incidentes.

Exemplo:

As funções que a gente usa na Atlassian estão em vigor para garantir que todas as etapas necessárias sejam cobertas, nenhum trabalho duplicado ocorra e a comunicação seja suave e eficaz.

  • Gerenciador de incidentes, tem responsabilidade e autoridade gerais pelo incidente. Capacitado para tomar qualquer ação necessária para resolver o incidente, o que inclui entrar em contato com os respondentes adicionais na empresa e manter os envolvidos em um incidente focados na restauração do serviço o mais rápido possível.
  • Líder de tecnologia, um respondente técnico sênior. Responsável por desenvolver teorias sobre o que está com problema e por que, decidindo as alterações e liderando a equipe técnica. Trabalha em estreita colaboração com o gerenciador de incidentes.
  • Gestor de comunicações, uma pessoa familiarizada com as comunicações públicas, possivelmente da equipe de suporte ao cliente ou relações públicas. Responsável por escrever e enviar comunicações internas e externas.

3. Imponha um processo consistente

O que incluir: etapas do processo e fluxos de trabalho

Por quê: nenhum incidente é exatamente igual a outro. Mas não quer dizer que os respondentes não possam introduzir um fluxo de trabalho consistente para responder a incidentes.

Descreva as principais etapas e fases e verifique se os membros da equipe têm clareza sobre o que é esperado durante cada fase — e o que vem a seguir. Por exemplo, a Atlassian descreve o fluxo de resposta a incidentes em sete etapas por três fases para conduzir o incidente da detecção à resolução.

Exemplo:

miniatura de resposta a incidentes

As a new incident is detected, the incident manager begins initiating internal communication and response organization. Then the team can begin working on fixing the cause of the incident and reaching a resolution. Strong organization in this stage facilitates action, which is powered by frequent communication. Adhering to a consistent process leads to a faster resolution, including a postmortem exercise we will cover below.

4. Permita uma resposta rápida

O que incluir: templates e listas de verificação

Por quê: os esquemas táticos de incidentes precisam ser simples o suficiente para as equipes seguirem em momentos de estresse. A gente incluiu no processo uma grande "folha de dicas" do gerente de incidentes graves, que descreve as principais etapas, como avaliação, escalonamento e delegação em um formato de uma página.

Seguir um processo predeterminado de resposta a incidentes não significa que não haja espaço para improvisar. Você precisa ser flexível e saber quando se adaptar a uma situação em mudança. Incidentes, por definição, são cenários em que as coisas não saem conforme o planejado, mas não significa que você não possa se planejar para elas. As equipes que treinam e praticam um conjunto de táticas costumam ser as que têm sucesso.

Use isto:

Tente executar um esquema de valores de resposta a incidentes para melhorar a coesão da equipe e resolver possíveis mal-entendidos antes de um incidente. Use o recurso que a gente oferece, o Esquema Tático da Atlassian para entender melhor o processo da sua equipe e criar um esquema tático dinâmico.

5. Facilite análises post-mortem abrangentes

O que incluir: esboço dos processos post-mortem e campos de itens

Por quê: um post-mortem busca maximizar o valor de um incidente entendendo todas as causas contribuintes, documentando o incidente para referência futura e descoberta de padrões, adotando ações preventivas eficazes para reduzir a probabilidade ou o impacto da recorrência.

Se você pensar em um incidente como um investimento não programado na confiabilidade do seu sistema, o post-mortem é como maximizar o retorno desse investimento.

Tente isto:

Para que as análises post-mortem sejam eficazes, o processo precisa facilitar a identificação e a correção das causas pelas equipes. Os métodos exatos que você usa dependem da cultura da sua equipe. Na Atlassian, a gente encontrou uma combinação de métodos que funcionam para as equipes post-mortem:

  • Reuniões presenciais ajudam a orientar análises adequadas e alinhar a equipe sobre o que precisa ser corrigido.
  • Aprovações de post-mortem pelos gerentes da equipe de entrega e operações incentivam as equipes a darem um tratamento completo a elas.
  • Designe ações prioritárias com os Objetivos de Nível de Serviço (SLO) atribuídos com lembretes e relatórios para garantir que sejam concluídas.

Um resumo passo a passo do post-mortem de resposta a incidentes da Atlassian pode ser encontrado na página 46 do Manual de gerenciamento de incidentes.

Por fim, um esquema tático de resposta a incidentes deve ser usado para orientar as equipes a trabalharem juntas com eficácia para resolver incidentes o mais rápido possível. Quando ocorre um incidente, ninguém tem tempo para debater as práticas recomendadas e apontar dedos. Esquemas táticos completos e bem projetados capacitam as equipes a fazer o melhor trabalho possível. Na Atlassian, a orientação para todas essas táticas está detalhada no Manual de gerenciamento de incidentes.

a seguir
De plantão