Close

Gerenciamento de incidentes para equipes de alta velocidade

O que as equipes de gerenciamento de incidentes aprendem com a aviação?

É um fato bem conhecido que voar é a maneira mais segura de viajar — e que a aviação vem melhorando significativamente seu gerenciamento de incidentes há décadas. Na verdade, em 1959, para cada milhão de voos, houve 40 acidentes fatais. Uma década depois, esse número caiu para dois. Hoje, é 0,1.

Em geral, os riscos podem ser maiores na aviação do que no software (é mais improvável morrer devido a uma interrupção no comércio eletrônico do que por uma falha no equipamento de um avião), mas a prática diária de prevenção e gerenciamento de incidentes não é tão diferente. Ambos os setores gerenciam riscos, emitem alertas e têm de combater fadiga de alerta. Ambos os setores precisam de cronogramas que atendam às necessidades urgentes em tempo integral. Ambos têm incidentes com vários níveis de gravidade. Ambos acompanham os KPIs rigorosamente. E ambos têm responsabilidades com o público e os clientes.

É por esse motivo que a tecnologia provavelmente pode aprender algo com a abordagem rigorosa da aviação para melhorar o gerenciamento e prevenção de incidentes. Aqui estão cinco práticas das principais empresas de aviação que a sua equipe pode utilizar:

Crie e lance com o gerenciamento de incidentes em mente

Tanto na aviação quanto na tecnologia, projetar com incidentes em mente pode ter um grande impacto nos custos finais desses incidentes.

Na aviação, a introdução de assentos 16G em 1988 adicionou proteção contra lesões na cabeça e no peito e a possibilidade de ficar preso em um assento devido à deformação durante um acidente. O benefício estimado desses assentos, em vidas salvas e ferimentos evitados, totalizou US$ 78,9 milhões ao longo de 25 anos. E tudo por causa do design que leva em consideração a possibilidade de incidentes.

No mundo da tecnologia, obtemos um benefício semelhante com o surgimento de "você criou, você opera" — que mescla as responsabilidades de desenvolvimento e gerenciamento de incidentes. Um dos resultados positivos dessa abordagem é que as equipes encarregadas de criar a tecnologia estão mais cientes dos riscos de incidentes e mais propensas a trabalhar para evitá-los e minimizar seu impacto.

Automatize para reduzir a possibilidade de ter erros

Erro do piloto é listado como a causa mais comum de desastres na aviação. Os incidentes de software e TI, em geral, acontecem por falha humana. A automação pode ajudar em ambos os campos e, em muitos setores, foi comprovado que ajudou na redução significativa dos erros. Então faz todo o sentido que a aviação esteja utilizando a automação cada vez mais. O piloto automático faz cerca de 90% do voo e opções com automação total estão sendo testadas.

A natureza prolífica do erro humano também é o motivo pelo qual uma das grandes perguntas que a gente faz na Atlassian nas análises retrospectivas é: existe algo que a gente possa automatizar para evitar que o erro aconteça de novo? Porque muitas vezes um item pode ser evitado com uma simples correção técnica.

Um bom exemplo disso aconteceu aqui na Atlassian há alguns anos:

"Um engenheiro cometeu um grande erro com a sintaxe de um arquivo de configuração para um equipamento crítico e derrubou toda a empresa por 45 minutos". Traduzindo em números, são centenas de milhares de dólares...pessoas cometem erros. Não há como evitar. A pergunta é: como diminuímos a ocorrência de erros humanos?

"No final, a correção simples e permanente foi colocar uma verificação automatizada do tipo 'vai começar' no arquivo de configuração antes de carregar e, com o tempo, remover toda interação humana com a configuração do sistema. O item que causou a interrupção agora é evitado por uma correção técnica rápida".

Defina prioridades com clareza e crie alertas em torno delas

Se há uma coisa em que a indústria da aviação se destaca, é em destacar as prioridades de maneira implacável. Porque a verdade é que, mesmo em uma emergência, alguns problemas são mais urgentes do que outros. E quando um avião corre o risco de queda, você quer que seu piloto saiba —muito claramente— qual emergência requer sua atenção e em que ordem.

É por esse motivo que, embora o computador esteja rastreando mais de 10.000 pontos de dados em um avião a qualquer momento, apenas 10% de todos os voos têm até um único alerta emitido pelo piloto. O piloto precisa saber sobre o degelador da janela mudando de uma configuração alta para média? Eles precisam saber que uma bomba hidráulica falhou e outra assumiu o controle, sem impacto no avião ou na trajetória do voo? As respostas, de acordo com especialistas em aviação, são não e não.

Quando forem necessários alertas — no caso de falha do motor ou problema de pressão na cabine — e aparecerem no compartimento, os níveis de prioridade são muito claros, indicados não apenas por meio de sinais visuais como texto e luzes vermelhas, mas também por sinais sonoros e físicos, como mecanismo de agitação da direção ou aviso de voz.

O nível de alerta mais alto, como esperado, tem mais sinais. Se o avião estiver prestes a entrar em queda livre, o piloto vai receber uma mensagem de texto em vermelho, luzes vermelhas, um aviso de voz e um mecanismo de agitação da direção.

O nível seguinte tem tudo listado acima, menos a vibração. O nível seguinte gera luzes e uma mensagem de texto em amarelo. E ainda o próximo nível, que não requer nenhuma ação do piloto, é uma simples mensagem de texto em amarelo na tela, uma hierarquia rigorosa que torna simples para os pilotos saberem no que devem prestar atenção.

Configure os limites de alertas como alto

Além de indicar com clareza a prioridade nos alertas, o setor da aviação é muito bom em entender o que precisa ser um alerta e o que não precisa.

O nível de prioridade máxima é reservado apenas para a pior das emergências, o tipo de emergência em que, se o piloto não tomar medidas imediatas e definitivas, o avião vai cair.

O segundo conjunto de problemas prioritários, conhecidos como avisos, também requer ação imediata do piloto, mas eles não são motivo para queda do avião naquele momento. Esse conjunto de problemas inclui perda de pressão na cabine ou um conflito de tráfego que coloque o avião em perigo de colisão.

O terceiro nível é uma cautela, que requer consciência do piloto, mas não uma reação imediata. É aí que a definição implacável de níveis da aviação se torna aparente. Porque mesmo um incêndio no motor ou uma única falha no motor pode causar uma cautela.

Essa abordagem rigorosa para priorização ajudou a aviação a combater a fadiga de alerta, além de manter os passageiros mais seguros.

Tenha esquemas táticos e listas de verificação prontos

Quando um alerta soa e o piloto descobre que a unidade de ar-condicionado parou de funcionar (o que pode levar a uma queda na pressão da cabine) ou um dos motores está em perigo, o setor da aviação não depende do treinamento do piloto para resolver o incidente.

Porque, embora o treinamento do piloto entre em jogo, é mais seguro (para não mencionar mais rápido) comunicar os próximos passos diretamente. É por esse motivo que os alertas do compartimento vêm com uma lista de verificação das próximas etapas, projetadas para combinar com o alerta específico. Embora não seja automatizada, essa abordagem tem um benefício semelhante. Em vez de depender totalmente do treinamento de alguém, o sistema entende o que é mais provável para a correção de um item.

A dedicação do campo da aviação para otimizar as práticas de GI mostram como as outras áreas, incluindo a tecnológica, podem sempre refinar suas respostas e gerenciamento de incidentes.

Saiba mais sobre como o Jira Service Management pode ajudar equipes a responder e resolver incidentes e sempre melhorar depois que eles ocorrem.