Close

O caminho para um gerenciamento de incidentes melhor começa aqui

Práticas recomendadas da comunicação de incidentes

Os incidentes sempre foram um fato para as pessoas de TI e Operações. Hoje, as equipes de DevOps e suporte ao cliente também estão fazendo um curso intensivo de comunicação de incidentes.

A comunicação de incidentes é o processo de alertar os usuários de que algum serviço está passando por algum tipo de interrupção ou teve queda no desempenho. Ela é importante para serviços Web e de software, em que a disponibilidade em tempo integral é esperada.

A comunicação de incidentes em escala na web é mais complexa do que apenas enviar e-mail em massa. Existem públicos diferentes a serem considerados e limites diferentes para expectativas de mensagens e respostas.

Uma vez que é inevitável ter algum tempo de inatividade, é melhor planejar com antecedência e garantir que a equipe esteja pronta.

Este é o guia para as práticas recomendadas de comunicação de incidentes. Você vai ver:

  • Por que a comunicação de incidentes é importante
  • Como se preparar para a comunicação de incidentes
  • Como os profissionais de comunicação de incidentes lidam com a tarefa
  • Por que a comunicação de incidentes não termina após o incidente
Diagrama de comunicação de incidentes

Comunicação de incidentes: quem se importa?

Os clientes se preocupam. Os colegas se preocupam. Então, você deve se preocupar também. Tempo de inatividade mal resolvido pode ser uma experiência muito ruim para os clientes e as equipes, o que pode afetar os resultados. Alguns clientes podem se preocupar se você tiver muitas experiências ruins e mudar para um concorrente. Você vai perder futuros clientes devido à falta de confiança. O moral da equipe pode ser afetado e reduzir a produtividade. E diga adeus a todas aquelas recomendações boca a boca incríveis.

Por sorte, o tempo de inatividade não planejado não precisa se transformar em um pesadelo de atendimento ao cliente. Acontece que, se você apenas mantiver os clientes informados, comunicando o que está acontecendo e o que você está fazendo para corrigir o problema, eles vão entender e vão ter uma reação muito menos negativa a toda a situação.

Preparação para comunicação de incidentes

A preparação adequada evita o baixo rendimento. Se é um slogan bom o suficiente para ir à batalha, é bom o suficiente para a estratégia de comunicação de incidentes. Quando estiver no meio de um incidente, você vai agradecer por dedicar tempo à comunicação de incidentes.

Defina o que você considera incidente

Antes de comunicar incidentes, a gente precisa decidir o que constitui um incidente. Muitas empresas da web contam com um sistema padronizado de definição de gravidade de 4 níveis. Veja aqui um ótimo guia sobre as definições de gravidade do manual de incidentes.

Quaisquer que sejam os limites para a gravidade do incidente, é importante traçar uma linha clara (de preferência em torno de algum tipo de métrica mensurável). Se você designar um incidente como Grav-1, é importante para qualquer pessoa da equipe saber com exatidão o que significa.

Um sistema de gravidade também é útil para eliminar os problemas inerentes que vêm com o tempo de inatividade.

Seja qual for o sistema que você escolher, a gente recomenda um plano de comunicação de tolerância zero para quaisquer incidentes que envolvam itens de segurança ou perda de dados.

Escolha as soluções de comunicação, canais e templates de mensagens com antecedência

As equipes profissionais de suporte e os Engenheiros de Confiabilidade do Site não decidem em tempo real em quais canais se comunicar. Eles fazem um plano com antecedência.

Existem cinco canais principais de comunicação para a comunicação de incidentes:

  • Uma página de status dedicada;
  • Status integrado;
  • E-mail
  • Ferramenta de bate-papo no local de trabalho;
  • Redes sociais;
  • SMS.

Página de status dedicada

A gente recomenda que as equipes usem uma página de status dedicada como a principal solução de comunicação de incidentes. Não importa se você criar uma página própria ou usar uma solução hospedada como o Statuspage, o é importante dar aos clientes e colegas uma fonte clara de informações durante um incidente. O Statuspage também oferece aos usuários a opção de se inscrever para receber atualizações assim que forem postadas. Assim, a carga de suporte é retirada das equipes, que devem estar focadas corrigindo o problema.

Status integrado

No Statuspage, a gente facilita a incorporação de informações de status direto de qualquer site que os clientes operem. A gente sabe que a maioria dos visitantes costuma verificar a página inicial ou de suporte de um provedor antes de procurar uma página de status. O widget incorporado (veja aqui um exemplo) é um jeito fácil de informar os visitantes se um incidente estiver ocorrendo. Os visitantes também podem clicar no widget para acessar a página de status.

E-mail

Como foi mencionado, uma boa ferramenta de página de status vai dar ao público a opção de se inscrever para receber atualizações por e-mail. Mesmo se você enviar direto da ferramenta de e-mail, em vez de usar uma página de status para acionar os envios de e-mail, se trata de um bom canal para comunicação de incidentes.

Ferramentas de bate-papo

Ferramentas de bate-papo como o Slack assumiram o controle no local de trabalho nos últimos anos. Muitas equipes definem uma sala de guerra dedicada a comunicações de incidentes ou criam uma nova sala para cada incidente. Consulte as integrações com ferramentas de bate-papo aqui.

Redes sociais

Muitas equipes usam canais sociais como o Twitter como meio de comunicação durante um incidente. É bom usar como parte da estratégia, mas não conte só com este tipo de canal como o único meio de comunicação.

Nenhum desses canais é infalível para a comunicação de incidentes. Todos eles têm diferentes pontos fortes, e o verdadeiro potencial aparece quando você os coloca em camadas. Por exemplo, a gente publica incidentes em uma página de status, mas a gente também envia essas atualizações para o Twitter. Também estão integradas ao aplicativo da web. Essas mensagens direcionam o usuário de volta à página de status para obter mais informações sobre o incidente. A gente recomenda que você identifique um como o principal veículo de comunicação e direcione todo mundo para lá.

SMS

Receber um SMS, ou mensagem de texto, em geral é uma maneira mais imediata de entrar em contato com alguém e uma preferência para muitas pessoas quando se trata de alertas críticos de entrada, como um anúncio de tempo de inatividade. É também um canal em que as pessoas podem ficar cansadas de receber mensagens muito rápido e cancelar a inscrição se virem muitas mensagens que não sejam relevantes para elas.

Configure templates para comunicação de incidentes e interrupções

No calor de um incidente, a última coisa com que você quer se preocupar é como escrever um anúncio de incidente. Descrever o incidente do jeito errado é um prato cheio para gerentes não técnicos que ficam caçando motivos para criticar o processo de resposta da equipe.

Decida a linguagem com antecedência, consiga a aprovação dos gerentes e salve em um template, para facilitar a inserção de informações relevantes e disparar um incidente no mesmo dia.

Veja aqui dois dos templates de incidentes que a gente usa para nossa própria página de status:

  • O site apresenta uma carga maior do que o normal e pode fazer com que as páginas fiquem lentas ou não respondam. A gente está investigando a causa teremos uma atualização assim que possível.
  • O provedor de armazenamento de dados públicos de métricas está enfrentando problemas de infraestrutura. As atualizações vão ser disponibilizadas conforme a situação se desenrolar ou recebermos mais informações.

Consulte mais exemplos na biblioteca de templates de incidentes.

Como gerenciar comunicações como um profissional

É bem provável que o ciclo de vida de um incidente inclua vários pontos de contato. Bem executado, existe uma estrutura conhecida de três estágios para um incidente: primeiro contato, atualizações durante o incidente, resolução e análise retrospectiva.

Parte 1: Primeiro contato

A primeira atualização é a mais importante. Tudo o que você diz, como e quando define o tom de como a resposta vai ser percebida. É o momento ideal para ter um template definido com antecedência.

O objetivo deve ser reconhecer o problema com rapidez, resumir o impacto conhecido em poucas palavras, prometer mais atualizações e, se você puder, atenuar quaisquer preocupações sobre segurança ou perda de dados. É importante reconhecer que há um problema, mesmo que você ainda não saiba as informações exatas.

Parte 2: Atualizações regulares durante o incidente

A comunicação durante os incidentes é fundamental.

As equipes de SRE do Google listam o líder de comunicação como uma das principais funções que alguém deve supervisionar durante um incidente.

Do livro do Google "Engenharia de Confiabilidade do Site" sobre a função do líder de comunicação:

"Essa pessoa é a imagem pública da força-tarefa de resposta a incidentes. As atividades desses profissionais incluem a emissão de atualizações periódicas para a equipe de resposta a incidentes e interessados (em geral, por e-mail) e podem se estender a tarefas como manter o documento de incidentes preciso e atualizado."

Essa pessoa também vai ser responsável por continuar a atualizar a página de status ou postar atualizações em outros canais conforme a situação evolui. Até mesmo uma atualização como "Ainda estamos trabalhando no problema, não há novidades." é melhor do que não dizer nada e deixar o público esperando. Pessoas sem informações imaginam o pior.

Parte 3: Resolução, análise retrospectiva e próximas etapas

Em 2010, o Facebook sofreu a maior interrupção até hoje. Por cerca de 2,5 horas, a rede social ficou indisponível para milhões de usuários, que naquela época somavam meio bilhão.

O momento não poderia ter sido pior para o gigante da tecnologia em ascensão, que ainda estava no início do crescimento explosivo de usuários e ainda tinha que provar ao mundo dos negócios que o serviço valia a pena.

Quando a poeira baixou, um engenheiro do Facebook postou um resumo de 395 palavras no blog de engenharia da empresa sobre o incidente.

Do blog:

Hoje cedo, o Facebook ficou fora do ar ou inacessível para muitos de vocês por cerca de 2,5 horas. Esta é a pior interrupção em mais de quatro anos e, em primeiro lugar, a gente pede desculpas pelo ocorrido. A gente também queria dar mais informações técnicas sobre o que aconteceu e compartilhar uma grande lição aprendida.

A descrição da análise retrospectiva é simples:

  • Reconheça o problema, tenha empatia com os afetados e peça desculpas.
  • Explique o que deu errado e por quê.
  • Explique o que foi feito para corrigir o incidente e o que foi feito para evitar incidentes repetidos.
  • Reconheça, tenha empatia e peça desculpas mais uma vez.

Não há necessidade de linguagem floreada ou afirmações pomposas em uma comunicação assim. Mantenha a simplicidade e vá direto ao ponto. Por exemplo, do blog do Facebook:

A gente pede desculpas mais uma vez pela interrupção do site. Saiba que levamos o desempenho e a confiabilidade do Facebook muito a sério.

Uma linguagem assim facilita que os clientes e colegas confiem que você comanda uma equipe equilibrada e ao mesmo tempo mantém os olhos no que está acontecendo.

A realidade de executar serviços sempre disponíveis é que, às vezes, as coisas param de funcionar do nada. A comunicação eficaz durante o tempo de inatividade pode construir a confiança de colegas e clientes. Responder bem pode fazer toda a diferença. A gente também criou esta ferramenta simples para ajudar você a escrever comunicações eficazes com rapidez durante incidentes.

Produtos discutidos
Logo do Statuspage

Comunique com facilidade o status para os usuários em tempo real.