Gerenciamento de incidentes para equipes de alta velocidade
MTBF, MTTR, MTTA e MTTF
Entendendo algumas das métricas de incidente mais comuns
No mundo atual, sempre conectado, interrupções e incidentes técnicos importam mais do que nunca. Falhas e tempo de inatividade têm consequências reais: prazos não cumpridos e atrasos nos pagamentos e no projeto.
É por esse motivo que é importante que as empresas quantifiquem e monitorem métricas relacionadas ao tempo de atividade, ao tempo de inatividade e à rapidez e à eficácia com que as equipes resolvem os itens.
Algumas das métricas mais comuns monitoradas no setor são MTBF (tempo médio antes da falha), MTTR (tempo médio para recuperação, para reparos, de resposta ou para a resolução), MTTF (tempo médio sem falhas) e MTTA (tempo médio para confirmação) — uma série de métricas concebidas para ajudar as equipes de tecnologia a entender com que frequência os incidentes ocorrem e com que rapidez a equipe resolve esses incidentes.
Vários especialistas afirmam que essas métricas não são tão úteis sozinhas porque não fazem perguntas mais complicadas sobre como os incidentes são resolvidos, quais estratégias funcionam e quais não funcionam, além de como, quando e por que os itens aumentam ou diminuem.
Por outro lado, o MTTR, o MTBF e o MTTF podem ser uma boa linha de base ou referência que inicia conversas que levam a essas questões mais profundas e importantes.
Como os profissionais respondem a incidentes graves
Obtenha o manual gratuito de gerenciamento de incidentes. Conheça todas as ferramentas e técnicas que a Atlassian usa para gerenciar incidentes graves.
Isenção de responsabilidade sobre MTTR
Quando a gente fala de MTTR, é fácil supor que é uma métrica específica com um significado específico. Mas a verdade é que pode representar quatro medições diferentes. O R pode significar reparos, recuperação, resposta ou resolução e, embora as quatro métricas se sobreponham, cada uma tem seu próprio significado e particularidade.
Então, se a equipe está falando sobre o acompanhamento do MTTR, é importante esclarecer o que significa MTTR e como a equipe está fazendo essa definição. Antes de começar a acompanhar sucessos e falhas, a equipe precisa estar a par do que está sendo acompanhado e ter certeza de que todos sabem que estão falando sobre a mesma coisa.
MTBF: Tempo médio entre falhas
O que é o tempo médio entre falhas?
O MTBF (tempo médio entre falhas) é o tempo médio entre falhas reparáveis de um produto tecnológico. A métrica é usada para acompanhar a disponibilidade e a confiabilidade de um produto. Quanto maior o tempo entre falhas, mais confiável é o sistema.
O objetivo para a maioria das empresas é manter o MTBF o mais alto possível —, com uma meta de centenas de milhares de horas (ou até milhões) entre itens.
Como calcular o tempo médio entre falhas
O MTBF é calculado usando uma média aritmética, ou seja, são computados os dados do período que você quer calcular (por exemplo, seis meses, um ano, cinco anos), e o tempo operacional total desse período é dividido pelo número de falhas.
Então, suponha que seja analisado um período de 24 horas, em que houve duas horas de tempo de inatividade em dois incidentes separados. O tempo total de atividade é de 22 horas. Dividido por dois, são 11 horas. Portanto, o MTBF é de 11 horas.
Como a métrica é usada para acompanhar a confiabilidade, o MTBF não considera o tempo de inatividade esperado durante a manutenção programada. Em vez disso, ele considera as interrupções e itens inesperados.
As origens do tempo médio entre falhas
O MTBF vem da indústria da aviação, onde falhas no sistema significam consequências particularmente importantes, não só em termos de custo, mas também na vida humana. O acrônimo desde então fez o seu caminho através de uma variedade de indústrias técnicas e mecânicas e é usado com frequência particularmente na fabricação.
Como e quando usar o tempo médio entre falhas
O MTBF é útil para compradores que querem ter certeza de que estão comprando o produto mais confiável, viajando no avião mais confiável, ou escolhendo os equipamentos de fabricação mais seguros para sua fábrica.
Para equipes internas, é uma métrica que ajuda a identificar itens e acompanhar sucessos e falhas. Também pode ajudar as empresas a preparar recomendações fundamentadas sobre quando os clientes devem substituir uma peça, fazer o upgrade de um sistema ou levar um produto para a manutenção.
O MTBF é uma métrica para falhas em sistemas reparáveis. Para falhas que exigem substituição do sistema, as pessoas usam, em geral, o termo MTTF (tempo médio sem falhas).
Por exemplo, pense em um motor de carro. Ao calcular o tempo entre duas manutenções não programadas do motor, você usaria o MTBF — tempo médio entre falhas. Ao calcular o tempo entre duas substituições do motor inteiro, você usaria o MTTF (tempo médio sem falhas).
MTTR: Tempo médio para reparos
O que é o tempo médio para reparos?
O MTTR (tempo médio para reparos) é o tempo médio necessário para reparar um sistema (técnico ou mecânico, em geral). Ele inclui tanto o tempo de reparo quanto o tempo para testes. O relógio não para nesta métrica até que o sistema esteja com funcionalidade total de novo.
Como calcular o tempo médio para reparos
O MTTR pode ser calculado considerando o tempo total gasto em reparos durante um período determinado e, em seguida, dividindo esse tempo pelo número de reparos.
Então, suponha que a gente esteja analisando reparos ao longo de uma semana. Nesse período, houve 10 interrupções, e os sistemas ficaram quatro horas sendo reparados. Quatro horas são 240 minutos. 240 dividido por 10 são 24, o que significa que o tempo médio para reparos nesse caso seria de 24 minutos.
As limitações do tempo médio para reparos
O tempo médio para reparos nem sempre é a mesma coisa que a interrupção do sistema em si. Em alguns casos, os reparos começam em poucos minutos após uma falha do produto ou da interrupção do sistema. Em outros casos, há um tempo de atraso entre o item, quando ele é detectado, e quando os reparos começam.
Essa métrica tem grande utilidade no acompanhamento da rapidez com que a equipe de manutenção consegue reparar um item. Não se destina a identificar problemas com os alertas do sistema ou atrasos de pré-reparo, que também são fatores importantes na avaliação dos sucessos e falhas dos programas de gerenciamento de incidentes.
Como e quando usar o tempo médio para reparos
O MTTR é um suporte métrico e manutenção que as equipes usam para manter os reparos no caminho certo. O objetivo é obter esse número o mais baixo possível, aumentando a eficiência dos processos de reparo e das equipes.
MTTR: Tempo médio para recuperação
O que é o tempo médio para recuperação?
O MTTR (tempo médio para recuperação ou tempo médio para restauração) é o tempo médio gasto para a recuperação de uma falha de produto ou do sistema. Ele inclui o tempo total da interrupção — desde o momento em que o sistema ou produto falha até o momento em que retoma a operação em sua totalidade.
É uma métrica de DevOps essencial, que pode ser usada para medir a estabilidade de uma equipe de DevOps, conforme observado pelo DevOps Research and Assessment (DORA).
Como calcular o tempo médio para recuperação
O tempo médio de recuperação é calculado adicionando todo o tempo de inatividade em um período específico e fazendo a divisão pelo número de incidentes. Então, digamos que os sistemas ficaram inativos por 30 minutos em dois incidentes separados em um período de 24 horas. 30 dividido por dois é 15, então o MTTR é de 15 minutos.
As limitações do tempo médio para recuperação
O MTTR é uma medida da velocidade do processo de recuperação total. Ele tem a rapidez desejada? Como se compara aos dos concorrentes?
Essa é uma métrica de alto nível que ajuda a identificar a existência de um problema. No entanto, se você quiser diagnosticar onde o problema está no processo (é um item no sistema de alertas? É a demora da equipe para fazer correções ou para que alguém responda a uma solicitação de correção?), você vai precisar de mais dados. Porque há mais de uma coisa acontecendo entre a falha e a recuperação.
O problema pode ser com o seu sistema de alerta. Existe um atraso entre uma falha e um alerta? Os alertas estão demorando mais tempo do que deveriam para chegar à pessoa certa?
O problema pode ser com diagnósticos. Você consegue descobrir com rapidez qual é o problema? Existem processos que poderiam ser melhorados?
Ou o problema pode ser com reparos. Suas equipes de manutenção estão operando com máxima eficácia? Se elas estão demorando na manutenção, o que está levando a essa demora?
É necessário fazer uma análise mais profunda, além do MTTR, para responder a essas perguntas, mas o tempo médio para recuperação pode ser um ponto de partida para diagnosticar se há um problema com o processo de recuperação que exija uma análise mais detalhada.
Como e quando usar o tempo médio para recuperação
O MTTR é uma boa métrica para avaliar a velocidade do seu processo de recuperação geral.
MTTR: Tempo médio para a resolução
O que é o tempo médio para a resolução?
O MTTR (tempo médio para a resolução) é o tempo médio que leva para resolver por completo uma falha. Ele inclui não apenas o tempo gasto para detectar a falha, diagnosticar o problema e reparar o item, mas também o tempo gasto garantindo que a falha não aconteça de novo.
Essa métrica estende a responsabilidade da equipe encarregada da correção, que também fica responsável pela melhoria do desempenho no longo prazo. É a diferença entre apagar um incêndio e apagar um incêndio garantindo que a casa fique protegida contra outros incêndios.
Há uma elevada correlação entre o MTTR e a satisfação do cliente, então é importante prestar atenção nessa métrica.
Como calcular o tempo médio para a resolução
Para calcular o MTTR, pegue o tempo total para a resolução durante o período que você quer acompanhar e divida pelo número de incidentes.
Assim, se os sistemas ficaram inativos por um total de duas horas em um período de 24 horas em um único incidente, e as equipes gastaram mais duas horas fazendo correções para garantir que a interrupção do sistema não aconteça de novo, há um total de quatro horas gastas resolvendo o item. O que significa que o seu MTTR é de quatro horas.
Observação sobre o acompanhamento do tempo médio para a resolução
Tenha em mente que o MTTR é calculado com mais frequência usando o horário comercial (portanto, se você se recuperar de um item no horário de fechamento um dia e passar tempo corrigindo o item subjacente na manhã seguinte, seu MTTR não incluiria as 16 horas que você gastou longe do escritório). Se você tiver equipes em vários locais trabalhando 24 horas por dia ou se tiver funcionários de plantão trabalhando após o horário, é importante definir como você vai rastrear o tempo dessa métrica.
Como e quando usar o tempo médio para a resolução
O MTTR é normalmente usado quando se fala de incidentes não planejados, não de solicitações de serviço (que normalmente são planejadas).
MTTR: Tempo médio de resposta
O que é o tempo médio de resposta?
O MTTR (tempo médio de resposta) é o tempo médio gasto para a recuperação de uma falha de produto ou do sistema a partir do primeiro alerta para essa falha. Ele não inclui o tempo de atraso no sistema de alerta.
Como calcular o tempo médio de resposta
Para calcular o MTTR, pegue o tempo total de resposta a partir do alerta até o momento em que o produto ou serviço estiver de novo em funcionalidade total. Em seguida, divida pelo número de incidentes.
Por exemplo: se houve quatro incidentes em uma semana de trabalho de 40 horas e foi gasta uma hora neles (do alerta até a correção), o MTTR para essa semana seria de 15 minutos.
Como e quando usar o tempo médio de resposta
Este MTTR é frequentemente usado em cibersegurança ao medir o sucesso de uma equipe na neutralização de ataques ao sistema.
MTTA: Tempo médio para confirmação
O que é o tempo médio para a confirmação?
O MTTA (tempo médio para confirmação) é o tempo médio que leva a partir de quando um alerta é acionado até que o trabalho no item comece. Essa métrica é útil para acompanhar a capacidade de resposta da equipe e a eficácia do sistema de alerta.
Como calcular o tempo médio para a confirmação
Para calcular o MTTA, pegue o tempo entre o alerta e a confirmação de recebimento e divida pelo número de incidentes.
Por exemplo: se houve 10 incidentes e um total de 40 minutos entre o alerta e a confirmação de recebimento para todos os 10, é só dividir 40 por 10, obtendo uma média de quatro minutos.
Como e quando usar o tempo médio para a confirmação
O MTTA é útil no rastreamento da capacidade de resposta. Sua equipe está sofrendo de fadiga de alerta e demorando demais para responder? Essa métrica vai ajudar a sinalizar o item.
MTTF: Tempo médio sem falhas
O que é o tempo médio sem falhas?
O MTTF (tempo médio sem falhas) é o tempo médio entre falhas não reparáveis de um produto tecnológico. Por exemplo, se os motores do carro da marca X ficam, em média, 500.000 horas sem falha total (momento em que precisam ser substituídos), 500.000 seria o MTTF dos motores.
O cálculo é usado para entender qual é o tempo de duração típico de um sistema, determinar se uma nova versão de um sistema está superando a antiga e disponibilizar aos clientes informações sobre a vida útil e sobre quando programar verificações no sistema.
Como calcular o tempo médio sem falhas
O tempo médio sem falhas é uma média aritmética, ou seja, é calculada somando o tempo total de operação dos produtos avaliados e dividindo esse total pelo número de dispositivos.
Por exemplo: suponha que o MTTF de lâmpadas esteja sendo calculado. Quanto tempo as lâmpadas da marca Y duram, em média, antes de queimarem? Suponha que haja uma amostra de quatro lâmpadas para o teste (se você quiser dados com significância estatística, você vai precisar de muito mais lâmpadas, mas, para fins de simplificação matemática, a gente vai considerar um número pequeno).
A lâmpada A dura 20 horas. A lâmpada B dura 18. A lâmpada C dura 21. E a lâmpada D dura 21 horas. Temos um total de 80 horas de duração das lâmpadas. Dividido por quatro, o MTTF é de 20 horas.
O problema do tempo médio sem falhas
Com esse exemplo das lâmpadas, dá para perceber que o MTTF é uma métrica que faz muito sentido. As lâmpadas podem ser usadas até que a última queime, e essa informação pode ser usada para tirar conclusões sobre a resiliência das lâmpadas.
Mas o que acontece quando a gente faz a medição de coisas que não falham tão depressa? Coisas destinadas a durar anos. Para esses casos, embora o MTTF seja muito usado, não é a métrica ideal. Porque, em vez de usar um produto até à falha, na maioria das vezes a gente usa um produto por um período de tempo definido e observa quantas unidades falham.
Por exemplo: suponha que a gente queira obter o MTTF dos tablets da marca Z. Os tablets, assim se espera, devem durar muitos anos. Mas a marca Z talvez tenha apenas seis meses para coletar dados. Então, eles testam 100 tablets por seis meses. Suponha que um tablet falhe no período exato de seis meses.
Então, a gente multiplica o tempo total de operação (seis meses multiplicado por 100 tablets) e obtém 600 meses. Apenas um tablet falhou. Então, a gente divide por um, e o MTTR seria de 600 meses, ou 50 anos.
Será que os tablets da marca Z vão durar uma média de 50 anos cada? É bem improvável. Assim, a métrica é falha nesses casos.
Como e quando usar o tempo médio sem falhas
O MTTF funciona bem quando você está tentando avaliar a vida média de produtos e sistemas com uma vida útil curta (como lâmpadas). Também é destinado apenas a casos em que você está avaliando a falha completa do produto. Se você está calculando o tempo entre incidentes que exigem reparo, o acrônimo de escolha é MTBF (tempo médio entre falhas).
MTBF vs. MTTR vs. MTTF vs. MTTA
Então, qual medição é melhor para o acompanhamento e a melhoria do gerenciamento de incidentes?
A resposta é todas elas.
Embora às vezes sejam usadas como sinônimos, cada métrica oferece um insight diferente. Quando usadas juntas, elas podem contar uma história mais detalhada sobre o sucesso da equipe com o gerenciamento de incidentes e onde ela pode melhorar.
O tempo médio para recuperação informa a rapidez com que os sistemas voltam a funcionar.
Acrescente o tempo médio para resposta para ter uma ideia de qual parte do tempo de recuperação é atribuído à equipe e qual parte é atribuída ao sistema de alerta.
Considere também o tempo médio para reparos e você vai passar a saber o tempo que a equipe está gastando nos reparos e no diagnóstico.
Acrescente o tempo médio para a resolução e passe a compreender o escopo completo de correção e resolução de itens além do tempo de inatividade que causam.
Considere o tempo médio entre falhas, e o panorama vai ficar mais amplo ainda, mostrando o tamanho do sucesso da equipe em prevenir ou reduzir itens futuros.
Por fim, adicione o tempo médio sem falhas para compreender o ciclo de vida completo de um produto ou sistema.
O Jira Service Management oferece recursos de relatório para que a equipe possa acompanhar os KPIs, além de monitorar e otimizar a prática de gerenciamento de incidentes.
Produtos discutidos
Centralize os alertas e avise as pessoas certas na hora certa.
Aprenda a comunicação de incidentes com o Statuspage
Neste tutorial, você vai ver como usar templates de incidentes para se comunicar com eficácia durante interrupções. Adaptável a muitos tipos de interrupção de serviço.
Leia este tutorialExemplos e templates de comunicação de incidentes
Ao responder a um incidente, os templates de comunicação são inestimáveis. Veja os templates que as equipes usam e mais exemplos de incidentes comuns.
Leia este artigo