Close

Gerenciamento de incidentes para equipes de alta velocidade

Prós e contras de diferentes abordagens ao gerenciamento de plantão

O mundo depende de serviços sempre disponíveis mais do que nunca. Uma interrupção pode afetar milhões de pessoas, com impacto real: elas não conseguem pagar contas, reservar voos nem fazer videochamadas com os amigos.

E se você estiver tendo um grande bug, problemas de capacidade ou estiver completamente inativo, os clientes que dependem de seus serviços esperam uma resposta imediata. (Também vale para equipes internas.)

Os incidentes podem ter um impacto real não apenas em termos monetários — eles custam às empresas US$ 700 bilhões por ano só na América do Norte — mas também sobre a reputação de sua empresa, do seu produto e da sua equipe.

Com tanta coisa em jogo, as equipes se dedicaram a colocar as equipes de TI e de desenvolvedores de plantão para garantir que a empresa tenha as pessoas certas disponíveis para resolver um problema durante um incidente, não importa quando ele ocorra.

Um cronograma de plantão justo, combinado com um plano de compensação por plantão, pode até promover uma cultura de responsabilidade compartilhada e ajudar as equipes a aprender mais sobre o que é necessário para criar softwares e serviços resilientes, proporcionando um produto melhor e menos interrupções.

O que é plantão?

Plantão é a prática de designar pessoas específicas para estarem disponíveis em momentos específicos para responder em caso de um item de serviço urgente, embora não estejam trabalhando em termos formais.

Plantão é uma responsabilidade crítica dentro de muitas equipes de TI, desenvolvimento, suporte e operações que executam serviços em que os clientes esperam disponibilidade de 24 horas por dia, sete dias por semana. Os membros da equipe estabelecem uma escala de rotação de plantão, oferecendo cobertura em tempo integral ou apenas fora do horário comercial normal. Junto com soluções automatizadas de monitoramento e alerta, o engenheiro de plantão pode responder na hora a quaisquer interrupções na disponibilidade do serviço.

A crescente importância do plantão para equipes de TI e software

Às vezes, o trabalho de plantão tem má reputação. Alguns profissionais de TI veteranos têm histórias de terror sobre trabalhar em equipes que estavam muito reduzidas e não tiveram o suporte necessário para dar a resposta adequada aos incidentes.

Grande parte dessa ansiedade pode ser aliviada se o suporte de plantão for feito como deve ser. Com um plano de atendimento eficaz, você pode garantir que a equipe tenha escalabilidade para atender à expansão dos serviços, oferecendo cobertura consistente para funções críticas de TI e resposta a incidentes imediata.

Há outros benefícios em um bom plano de gerenciamento de plantão do que apenas vencer o tempo de inatividade. A cada falha, as equipes têm a oportunidade de aprender novas habilidades, como entender um serviço crítico um pouco melhor, ver como ele responde a falhas e saber como projetar para que haja menos falhas ou melhorar o plano de resposta a incidentes.

E ter uma boa escala de plantão baseada em uma cultura de responsabilidade compartilhada também pode levar a mais companheirismo e menos esgotamento, o que pode significar maior retenção de funcionários.

Prós e contras de estar de plantão

Nas empresas que praticam DevOps, as equipes de software estão assumindo muita responsabilidade pela confiabilidade e disponibilidade dos serviços que criam, um trabalho que costumava ser domínio exclusivo das equipes de operações. Para muitas dessas equipes, “você criou, você executa” é o novo lema. Estando mais familiarizados com o código, muitas vezes os desenvolvedores são os mais capacitados a solucionar itens no menor tempo possível.

E, por meio desse processo, os desenvolvedores criam produtos de software melhores e menos propensos a falhar. Com essa mudança de responsabilidade, eles testam o código com mais rigor, uma vez que eles podem ser a pessoa encarregada fora do horário comercial se o serviço apresentar problemas.

Essas medidas resultam em sistemas mais resilientes e, com mais pessoas disponíveis e capazes de lidar com os incidentes, em menos trabalhadores esgotados.

Sem um bom programa de plantão, as empresas não vão conseguir aproveitar todos os benefícios culturais do DevOps ou atender às demandas de uma infraestrutura com escalabilidade. Se uma equipe ficar encarregada de responder a incidentes mais do que outra, ela não vai poder executar bem o trabalho diário. Os desenvolvedores não vão conseguir implementar o feedback gerado por incidentes, e os respondentes não vão conseguir reforçar os sistemas.

Se as responsabilidades estiverem desequilibradas, as pessoas escaladas para o cronograma de plantão nunca podem se distanciar de verdade do trabalho e podem com facilidade sucumbir ao esgotamento.

Porém, um plano que leva em consideração os verdadeiros requisitos de cobertura da empresa equilibra a sobrecarga de tempo entre as equipes de desenvolvedores e operações de TI e que captura dados para melhoria contínua pode levar a benefícios globais. Ele não só leva a um melhor serviço para os clientes, como também pode ajudar os funcionários a melhorar habilidades e produtos e de fato desfrutar do horário de plantão.

Como melhorar as funções do desenvolvedor de plantão

Você nunca viu um engenheiro falar: “Mal posso esperar para passar a noite supervisionando essa implementação e respondendo a possíveis interrupções!”

Com mais desenvolvedores assumindo o papel de manter os serviços que eles mesmos criam, é importante ter certeza de que eles estão preparados para as responsabilidades de plantão e o melhor momento para fazer essa avaliação é durante o processo de contratação.

Não é segredo que há intensa competição por talentos de engenharia de alto nível. E nem todo mundo é motivado apenas por dinheiro. Então, pagar mais aos desenvolvedores para trabalho após o horário comercial pode não ser suficiente (leia mais sobre remuneração de plantão mais adiante). É natural que engenheiros de software no processo de entrevista tenham dúvidas sobre quantas vezes eles vão precisar tirar tempo da vida pessoal para estar na escala do cronograma de plantão.

Demonstrar que você tem um plano de plantão documentado que faz a distribuição justa das responsabilidades em uma equipe competente de desenvolvedores e SREs pode ajudar muito a tranquilizar novos recrutas de que a empresa tem o gerenciamento de plantão sob controle. Com um plano documentado, você pode oferecer transparência completa no processo de entrevista e garantir que os candidatos estejam prontos para o compromisso com o trabalho de plantão.

Cinco maneiras simples de tornar o horário de plantão mais agradável para o desenvolvedor

  1. Definir com clareza as responsabilidades de plantão
    As responsabilidades durante o plantão devem ser definidas com clareza. Assim, você pode evitar esgotamento, confusão e frustração. Sugerimos que você documente o processo de resposta a incidentes e as expectativas sobre o que significa estar de plantão.
  2. Verificar se os alertas estão sendo atribuídos à pessoa correta
    Garantir o funcionamento correto da ferramenta de alerta não é algo a ser ignorado. Certificar-se de ter um fluxo de alteração claro com as notificações e substituições corretas pode evitar muitas dores de cabeça.
  3. Ter primeiro respondentes e substitutos
    A vida não para só porque alguém está em chamada. Assim como uma emergência pessoal inesperada pode tirar um respondente do trabalho durante o dia, o mesmo pode ocorrer quando eles estão de plantão. Ter alguém de substituto limita o potencial dano deste tipo de interrupção.
  4. Ajustem bem os cronogramas
    As equipes não são estáticas e o cronograma de plantão também não deveria ser. A gente recomenda uma cultura de revisão, ajuste e aprimoramento das práticas de plantão.
  5. Verifique se eles têm acesso e familiaridade com todas as ferramentas de diagnóstico relevantes
    Cada equipe varia de acordo com as ferramentas que usam para rastrear a saúde operacional, o desempenho do aplicativo, a utilização de recursos, etc. Verifique se os engenheiros de plantão estão familiarizados com as ferramentas usadas e se têm acesso adequado a elas.

Como melhorar as funções de serviço e suporte de TI

Não são apenas desenvolvedores gastando mais tempo de plantão. Cada vez mais para as equipes de suporte e de serviços de TI, o suporte em tempo integral é fundamental para ajudar a empresa a funcionar.

Essas equipes enfrentam muitos dos mesmos desafios que os desenvolvedores de plantão: estresse, esgotamento, papéis e responsabilidades pouco claros, acesso a ferramentas.

As equipes de TI muitas vezes têm o estresse adicional de estar no mesmo edifício que os clientes, o que pode atrasar o processo com uma série de interrupções (e-mail, Slack, até mesmo presenciais) sobre o incidente.

Aqui estão algumas táticas para ajudar a manter os incidentes de TI controláveis:

  • Comunicação rápida e transparente: a comunicação com iniciativa de incidentes de TI mostra que você se importa e que está no controle.
  • Acompanhe o que importa: a maior parte das equipes de serviços de TI usam alguma forma de software de central de atendimento. É fundamental que você não esteja utilizando campos de entrada de dados livres para capturar as informações de cada ticket.
  • Monte um sistema de monitoramento: muitas equipes de operações de TI monitoravam em pessoa os painéis de desempenho para ficarem de olho em interrupções. Faça um favor à equipe e deixe que as ferramentas de monitoramento e alerta o façam.

Remuneração de plantão

Um bom plano de remuneração de plantão recompensa os funcionários pelo conhecimento e pelo tempo dedicado a trabalhar após o horário comercial. Se os funcionários se sentem bem cuidados, eles se preocupam com a empresa e vão contribuir para que ela seja bem-sucedida.

De acordo com a U.S. Fair Labor Standard Act (FLSA), uma lei federal que estabelece salário mínimo, horas extras e requisitos de idade mínima para empregadores e funcionários, se um empregado estiver de plantão, mas livre para fazer o que quiser com o tempo, ele é considerado como “de sobreaviso” e, portanto, não está trabalhando.

Se alguém tem pouco tempo livre e não pode fazer o que quiser nas horas de folga, de acordo com a FSLA, este tempo de plantão pode ser considerado “horas trabalhadas” e ser elegível para remuneração.

As leis locais podem variar, então não deixe de consultar um especialista. Com base nisso, busque um plano de remuneração de plantão competitivo e justo e apoie uma cultura de responsabilidade compartilhada.

Diferentes tipos de planos de remuneração de plantão

1. Plantão incentivado

Os planos de remuneração de plantão incentivado recompensam os funcionários que se oferecem para trabalhar em horários de plantão em troca de dias extras de folga, horários flexíveis, salários base mais altos ou alguma combinação destes fatores.

A vantagem dessa abordagem à remuneração de plantão é um aumento do senso de propriedade sobre os serviços, o que pode levar a sistemas mais resilientes.

E dar bastante tempo livre e oferecer um pagamento competitivo também permite que os funcionários saibam que o trabalho deles é valorizado e apreciado, evitando o esgotamento e reduzindo a rotatividade de funcionários.

2. Plantão pago por hora extra programada

Na remuneração de plantão pago, os funcionários recebem remuneração direta pelo tempo de plantão ou sobreaviso, mesmo que não surjam problemas durante o turno.

A vantagem óbvia deste modelo de remuneração de plantão é o incentivo tangível. Saber que você está sendo pago por carregar um pager (ou, o mais provável, um laptop e um celular) torna mais fácil justificar o fardo de estar de plantão e disponível, mesmo que não surjam problemas.

3. Remuneração de plantão pelo tempo gasto nos itens

Outra abordagem à remuneração de plantão é pagar os funcionários quando eles solucionam um incidente. Algumas maneiras de fazer esse cálculo são:

  • Montante total pago por trabalhar em plantão
  • Valor por hora por tempo gasto trabalhando em alertas/tickets
  • Taxa pelo número de alertas e itens trabalhados

A vantagem deste modelo é que os funcionários são pagos pelo trabalho extra exercido fora de horário comercial normal. Uma possível desvantagem é que há desincentivo financeiro pela redução de alertas e itens, o que pode comprometer a integridade geral dos sistemas.

4. Remuneração de plantão para horas extras agendadas e tempo dedicado aos itens

Esta é uma combinação dos dois modelos anteriores. Algumas empresas pagam tanto por estar na escala de plantão quanto um valor adicional por alertas recebidos e itens abordados. O lado positivo desse modelo de remuneração de plantão é que os funcionários se sentem bem compensados pelo tempo e pelo esforço extras que a empresa pede. Além disso, se alguém ficar envolvido em um item particularmente difícil que consuma tempo pessoal, essa pessoa terá compensação financeira pelo sacrifício. Mas é importante reforçar: considere se faz sentido na cultura da sua empresa criar uma recompensa indireta por ter bugs no software.

Outras questões a considerar

Estes são os modelos típicos de planos de remuneração de plantão. Algumas outras coisas a considerar, conforme apropriado, são:

  • Número de alertas recebidos dentro e fora do horário

Esse número é fundamental para determinar se você precisa de cobertura de horário de plantão após o horário comercial, ou uma equipe especial de plantão durante o horário comercial.

  • Tempo gasto trabalhando nos incidentes

A complexidade e importância dos incidentes da empresa podem variar. Um engenheiro de plantão pode passar alguns minutos em um item ou pode passar a noite inteira combatendo um incêndio em um incidente. A quantidade de tempo e esforço exercitados durante um turno típico de plantão deve ser levado em consideração. Isto deve ser mensurado para haver compensação justa.

  • Tempo médio de confirmação ou de resolução

Estabelecido pelas políticas de escalonamento, o tempo de confirmação é fundamental para uma resolução rápida. Medir o tempo médio de confirmação e o tempo médio de resolução em certo período ajuda os gerentes a decidir sobre incentivos adicionais.

Conclusão

Com as ferramentas certa, navegar pelas políticas de plantão pode ser um processo mais tranquilo. Gerenciar cronogramas de plantão, monitorar alertas e manter a satisfação e a saúde dos funcionários é possível com soluções melhores de gerenciamento de incidentes. Os recursos de alertas do Jira Service Management possibilitam que as equipes centralizem e filtrem os alertas de todas as ferramentas de monitoramento, registro e CI/CD para garantir rapidez na resposta e evitar a fadiga de alertas.