Recursos
Gerenciamento de serviços para equipes de operações de TI, desenvolvimento e negócios

Ofereça gerenciamento de serviços de alta velocidade em escala.

Obtenha grátis

Saiba mais

Como gerenciar a entrega de serviços de TI de ponta a ponta

Confira dicas para aprimorar suas práticas de gerenciamento de serviços.

Saiba mais

Tudo o que você precisa saber para configurar o JSM

Esses guias abrangem tudo, desde o básico até práticas recomendadas detalhadas.

Veja o guia

Recursos da biblioteca do Jira Service Management

Consulte artigos técnicos, estudos de caso, relatórios e muito mais para ter todas as informações de que você precisa.

Exibir biblioteca

Recursos
Gerenciamento de serviços para equipes de operações de TI, desenvolvimento e negócios

Ofereça gerenciamento de serviços de alta velocidade em escala.

Obtenha grátis

Saiba mais

Como gerenciar a entrega de serviços de TI de ponta a ponta

Confira dicas para aprimorar suas práticas de gerenciamento de serviços.

Saiba mais

Tudo o que você precisa saber para configurar o JSM

Esses guias abrangem tudo, desde o básico até práticas recomendadas detalhadas.

Veja o guia

Recursos da biblioteca do Jira Service Management

Consulte artigos técnicos, estudos de caso, relatórios e muito mais para ter todas as informações de que você precisa.

Exibir biblioteca

Gerenciamento de incidentes para equipes de alta velocidade

O que é orçamento de erros — e por que ele é importante?

Cada equipe de desenvolvimento, operações e TI sabe que, às vezes, incidentes acontecem.

Até as maiores empresas com o talento mais brilhante e uma reputação de quase 100% de tempo de atividade às vezes observam frustradas a inatividade de seus sistemas. Basta olhar para a Apple, Delta ou Facebook, que perderam dezenas de milhões de dólares para incidentes nos últimos cinco anos.

Essa realidade significa que os contratos de nível de serviço (SLAs) nunca devem prometer 100% de tempo de atividade. Porque essa é uma promessa que nenhuma empresa pode cumprir.

Também quer dizer que, se sua empresa é muito boa em evitar ou resolver incidentes, você pode sempre alcançar seus objetivos de tempo de atividade. Talvez você prometa 99% de tempo de atividade e alcance 99,5%. Talvez prometa 99,5% e alcance 99,99% em um mês típico.

Nesses casos, os especialistas do setor recomendam que, em vez de definir as expectativas do usuário como muito altas, ultrapassando constantemente suas promessas, você considere esse 0,99% extra como um orçamento de erro — tempo que sua equipe pode usar para correr riscos.

Use free itsm known errors template

O que é um orçamento de erro?

Um orçamento de erro é a quantidade máxima de tempo que um sistema técnico pode falhar sem consequências contratuais.

Por exemplo, se o seu Acordo de Nível de Serviço (SLA) especificar que os sistemas vão funcionar 99,99% do tempo antes de a empresa ter que compensar os clientes pela interrupção, o que quer dizer que seu orçamento de erro (ou o tempo em que seus sistemas podem ficar inativos sem consequências) vai ser de 52 minutos e 35 segundos por ano.

Se o seu SLA promete 99,95% de tempo de atividade, seu orçamento de erro é de quatro horas, 22 minutos e 48 segundos. E com uma promessa de SLA de 99,9% de tempo de atividade, seu orçamento de erro é de oito horas, 46 minutos e 12 segundos.

Por que as equipes de tecnologia precisam de orçamentos de erro?

À primeira vista, orçamentos de erro não parecem tão importantes. São apenas mais uma métrica que a TI e o DevOps precisam acompanhar para garantir que tudo esteja funcionando sem problemas, certo?

A resposta, felizmente, é não. Orçamentos de erro não são apenas uma maneira conveniente de cumprir promessas contratuais. Também são uma oportunidade para as equipes de desenvolvimento inovarem e correrem riscos.

Como explicamos no artigo sobre SRE,

"A equipe de desenvolvimento pode 'gastar' esse orçamento de erro da maneira que quiser. Se o produto estiver funcionando em perfeito estado, com poucos ou nenhum erro, ela pode iniciar o que quiser, quando quiser. Por outro lado, se ela cumpre ou excede o orçamento de erro e está operando no SLA definido ou abaixo dele, todos os lançamentos são congelados até que a equipe reduza o número de erros para um nível que permita que o lançamento continue."

O benefício dessa abordagem é que ela incentiva as equipes a minimizar incidentes reais e maximizar a inovação, assumindo riscos dentro de limites aceitáveis. Ela também preenche a lacuna entre equipes de desenvolvimento, cujos objetivos são inovação, agilidade e operações, que estão preocupadas com a estabilidade e a segurança. Enquanto o tempo de inatividade permanecer baixo, os desenvolvedores podem permanecer ágeis e incentivar alterações sem atrito das operações.

Como usar um orçamento de erro

Primeiro, você vai precisar consultar SLAs e SLOs. Quais objetivos você já definiu para o tempo de atividade ou solicitações bem-sucedidas do sistema? Que promessas a empresa fez aos clientes? Esses fatores vão ditar o seu orçamento de erro.

Orçamentos de erro com base no tempo de atividade

A maioria das equipes monitora o tempo de atividade por mês. Se a disponibilidade estiver acima do número prometido pelo SLA/SLO, a equipe pode lançar funções novas e assumir riscos. Se estiver abaixo do alvo, os lançamentos vão ficar parados até que os números alvo estejam de volta no caminho certo.

Para usar esse método com eficiência, você vai precisar converter seu alvo de SLO (em geral, uma porcentagem) em números reais com os quais seus desenvolvedores podem trabalhar. Quer dizer que vai ser necessário calcular a quantas horas e minutos correspondem ao seu 1% ou 0,5% ou 0,1% de tempo de inatividade permitido. Os objetivos comuns incluem:

Meta de SLA	Tempo de inatividade anual permitido	Tempo de inatividade mensal permitido
Disponibilidade de 99,99%	Tempo de inatividade anual permitido 52 minutos, 35 segundos	Tempo de inatividade mensal permitido 4 minutos, 23 segundos
Disponibilidade de 99,95%	Tempo de inatividade anual permitido 4 horas, 22 minutos, 48 segundos	Tempo de inatividade mensal permitido 21 minutos, 54 segundos
Disponibilidade de 99,9%	Tempo de inatividade anual permitido 8 horas, 45 minutos, 57 segundos	Tempo de inatividade mensal permitido 43 minutos, 50 segundos
Disponibilidade de 99,5%	Tempo de inatividade anual permitido 43 horas, 49 minutos, 45 segundos	Tempo de inatividade mensal permitido 3 horas, 39 minutos
Disponibilidade de 99%	Tempo de inatividade anual permitido 87 horas, 39 minutos	Tempo de inatividade mensal permitido 7 horas, 18 minutos

Orçamentos de erro baseados em solicitações bem-sucedidas

Os SLOs são menos odiados do que os SLAs, mas podem criar muitos problemas se forem vagos, muito complicados ou impossíveis de medir. O segredo para SLOs que não fazem com que os engenheiros queiram arrancar os cabelos é a simplicidade e a clareza. Apenas as métricas mais importantes devem se qualificar para o status de SLO. Os objetivos devem ser explicados em linguagem simples e, como acontece com os SLAs, devem sempre levar em consideração itens como atrasos por parte do cliente.

Fique por dentro dos SLAs para resolver solicitações com base em prioridades e use regras de escalonamento automatizadas para notificar os membros certos da equipe e evitar violações de SLA com o Jira Service Management.

Teste o Jira Service Management grátis

Tutorial

Aprenda a comunicação de incidentes com o Statuspage

Neste tutorial, você vai ver como usar templates de incidentes para se comunicar com eficácia durante interrupções. Adaptável a muitos tipos de interrupção de serviço.

Leia este tutorial

a seguir

A importância de um processo de análise retrospectiva de incidentes

Uma análise retrospectiva de incidente, também conhecida como revisão pós-incidente, é a melhor maneira de trabalhar o que aconteceu durante um incidente e capturar as lições aprendidas.

Leia este artigo

Destaque

Jira

Confluence

Jira Service Management

Desenvolvedores

Jira

Compass

Pipelines

Bitbucket

DX (Aquisição pendente)

Rovo Dev

Gerentes de produtos

Jira

Confluence

Jira Product Discovery NOVO

Profissionais de TI

Jira Service Management

Guard NOVO

Equipes administrativas

Jira

Confluence

Trello

Loom NOVO

Jira Service Management

Equipes de liderança

Focus NOVO

Talent NOVO

Jira Align

Soluções

Por que a Atlassian

Sistema de trabalho Novo

Integrações

Clientes

FedRAMP

Resiliência

Plataforma

Trust Center

Recursos

Suporte ao cliente

Encontre parceiros

Atlassian Ascend

Comunidade

Suporte

Recursos

Jira

Jira Service Management

Confluence

Jira Service Management

ITSM

Guia do produto

Biblioteca de recursos

Gerenciamento de serviços para equipes de operações de TI, desenvolvimento e negócios

Como gerenciar a entrega de serviços de TI de ponta a ponta

Tudo o que você precisa saber para configurar o JSM

Recursos da biblioteca do Jira Service Management

Jira Service Management

ITSM

Guia do produto

Biblioteca de recursos

Gerenciamento de serviços para equipes de operações de TI, desenvolvimento e negócios

Como gerenciar a entrega de serviços de TI de ponta a ponta

Tudo o que você precisa saber para configurar o JSM

Recursos da biblioteca do Jira Service Management

Gerenciamento de incidentes para equipes de alta velocidade

O que é orçamento de erros — e por que ele é importante?

O que é um orçamento de erro?

Por que as equipes de tecnologia precisam de orçamentos de erro?

Como usar um orçamento de erro

Orçamentos de erro com base no tempo de atividade

Meta de SLA

Tempo de inatividade anual permitido

Tempo de inatividade mensal permitido

Orçamentos de erro baseados em solicitações bem-sucedidas

Aprenda a comunicação de incidentes com o Statuspage

A importância de um processo de análise retrospectiva de incidentes

produtos

Recursos

Saiba mais