Close

Ready for ITSM at high velocity?

O que é gerenciamento de incidentes?

O Gerenciamento de incidentes é o processo de responder a um evento ou interrupção de serviço não planejada para restaurar o serviço ao estado operacional. De acordo com a ITIL (Biblioteca de infraestrutura de TI), "o processo de gerenciamento de incidentes garante que a operação de serviço normal seja restaurada o mais rápido possível e o impacto nos negócios seja minimizado".

Os incidentes são eventos de qualquer tipo que interrompem ou reduzem a qualidade do serviço (ou ameaçam ter esse efeito). Um aplicativo de negócios que deixa de funcionar é um incidente. Um servidor da web excessivamente lento também pode ser um incidente. A execução está muito lenta e afetando a produtividade. Pior ainda, ele apresenta o risco ainda maior de falha total.

Para que todos tenham a mesma base de compreensão, aqui estão algumas definições rápidas dos termos relacionados:

ITSM (Gerenciamento de serviços de TI) é uma abordagem comum para criar, dar suporte e gerenciar serviços de TI. O principal conceito do ITSM é a crença de que a TI deve ser oferecida como um serviço. E uma das principais práticas do ITSM é o gerenciamento de incidentes.

ITIL é um conjunto de práticas recomendadas para o ITSM (como um esquema tático).

Um problema é a causa-raiz ainda desconhecida por trás de um ou mais incidentes. No incidente acima, em que a rede está lenta e o aplicativo de negócios está inativo, um roteador com a configuração errada poderia ser o problema subjacente por trás deles.

A importância do gerenciamento de incidentes é uma prática de ITSM

Considerando todos os serviços de software de que as empresas dependem hoje, existem mais possíveis pontos de falha do que nunca. E, o impacto de um incidente pode ser enorme. Segundo pesquisas, os incidentes graves podem custar US$ 300.000 por cada hora de inatividade do sistema. Para alguns serviços baseados na web, o número pode ser muito maior.

Ter um processo bem definido de gerenciamento de incidentes pode ajudar a reduzir muito esses custos. Os benefícios de um processo bem definido incluem:

  • Resolução mais rápida de incidentes
  • Custos reduzidos ou perdas de receita da empresa em decorrência dos incidentes
  • Melhor comunicação — interna e externa — durante incidentes
  • Aprendizagem e melhoria contínuas

O processo de gerenciamento de incidentes

A chave para o gerenciamento de incidentes é ter um bom processo e não fugir dele. Ainda que pareça assustador, a boa notícia é que você pode aprender com as experiências de milhares de outras equipes de serviço de TI.

Um dos erros mais comuns das empresas de TI ocupadas e em crescimento é tentar reinventar a roda e criar os processos do zero. Siga as práticas recomendadas e não perca tempo criando uma ferramenta própria para lidar com os tickets.

Aqui está uma visão geral de alto nível das etapas importantes para uma prática de gerenciamento de incidentes:

Identificar e registrar um incidente

Um incidente pode vir de qualquer lugar. Um funcionário pode chamar você para fazer relato, ou o incidente pode cair do teto no seu colo, no caso de um hub de rede mal posicionado e um teto fraco. (Não que estejamos falando por experiência própria...)

Não importa a origem, as primeiras duas etapas são simples: alguém identifica um incidente e, depois, alguém o registra.

Se você receber o incidente já registrado pela central de atendimento, essas primeiras duas etapas já foram feitas. Se você receber uma ligação ou o incidente for relatado por e-mail ou mensagem ou pombo-correio, a equipe da central de atendimento é responsável por fazer o registro correto.

Esses registros de incidente (ex.: tickets) costumam incluir:

  • O nome da pessoa que relatou o incidente
  • A data e hora que o incidente foi relatado
  • Uma descrição do incidente (o que está inativo ou não funciona direito)
  • Um número de identificação exclusivo atribuído ao incidente para o rastreamento

Categorizar o incidente

Atribua uma categoria (e subcategoria, conforme a necessidade) lógica e intuitiva a cada incidente. Se você não o fizer, vai estar eliminando a possibilidade de analisar os dados mais tarde e buscar tendências e padrões, o que é uma parte essencial de um gerenciamento de problemas efetivo e da prevenção de incidentes futuros. E não se esqueça de escolher uma solução da central de atendimento do ITSM que permita que você personalize com facilidade as categorias de incidentes.

Priorizar o incidente

Cada incidente deve ser priorizado. Comece avaliando o impacto nos negócios. Considere o número de pessoas que vão ser afetadas e as possíveis implicações financeiras, de segurança e conformidade. Essa avaliação ajuda você a determinar quanto dano o incidente está causando e a urgência da empresa na resolução.

A prática recomendada aqui é definir os níveis de gravidade e prioridade antes que ocorra um incidente, facilitando aos gerenciadores de incidentes medir a prioridade com rapidez.

Quando estiver na dúvida sobre o nível de prioridade, escolha o mais alto. É melhor errar por excesso de cautela do que deixar algo grave passar despercebido.

Depois de definir essas prioridades, aborde todos os incidentes abertos em ordem de prioridade. A maioria das empresas define acordos claros de serviço para cada nível de prioridade, assim os clientes ficam sabendo com que rapidez esperar uma resposta e resolução.

Responder

Resposta a incidentes é um termo bem amplo. Então, ele foi dividido em etapas mais prováveis de você seguir depois de identificar, categorizar e priorizar um incidente.

Diagnóstico inicial

É como a triagem que um hospital realiza nos pacientes novos. O funcionário da central de atendimento está formulando uma hipótese rápida sobre o que pode estar errado, para que ele possa decidir entre corrigir ou seguir os procedimentos adequados e compilar os recursos certos para que ele seja resolvido. As bases de conhecimento e os manuais de diagnóstico são ferramentas úteis nesta etapa.

Se o primeiro agente a responder for capaz de resolver o incidente com base nos diagnósticos iniciais e no conhecimento e nas ferramentas disponíveis, o incidente está resolvido. Caso contrário, é hora de escalar.

Escalamento de incidentes

A equipe da linha de frente de suporte deve conseguir resolver grande parte dos incidentes mais frequentes sem precisar escalar. Porém, nos casos em que não conseguir, a meta é reunir e registrar as informações certas para ajudar o suporte a entender com rapidez para conseguir resolver o incidente logo.

Investigação e diagnóstico

A ITIL chama a função como uma etapa própria. Na verdade, ela acontece durante todo o ciclo de vida do incidente.

A primeira pessoa do suporte a responder já está investigando, até certo ponto, quando coleta informações e pode até diagnosticar com sucesso e resolver o incidente sem qualquer necessidade de escalar. Nesse caso, você pulou direto para as próximas etapas: resolução e recuperação e encerramento do incidente.

Caso contrário, a investigação e o diagnóstico vão acontecer a cada etapa do caminho, à medida que você escala ou traz recursos externos para consultar e ajudar com a resolução.

Resolução e recuperação

Depois de um tempo — e, em uma situação ideal, dentro dos acordos de nível de serviço estabelecidos (SLAs) — você vai chegar a um diagnóstico e vai seguir as etapas necessárias para resolver o incidente. A recuperação implica a quantia de tempo que pode levar para que as operações sejam restauradas por completo, uma vez que algumas correções (como correções de bugs, etc.) podem exigir teste e implementação mesmo após a resolução adequada ser identificada.

Encerramento do incidente

Então, o incidente é transmitido de volta à central de atendimento (se tiver sido escalado) para ser encerrado. Para manter a qualidade e garantir um processo sem problemas, apenas os funcionários da central de atendimento têm permissão para encerrar incidentes e o proprietário do incidente deve verificar com a pessoa que relatou o incidente se a resolução é satisfatória e se o incidente pode, de fato, ser encerrado.

Resumo

O processo de gerenciamento de incidentes pode parecer formal demais, em especial, se você fizer parte de uma empresa menor. Não importa a estrutura da equipe, o ciclo de vida do incidente ainda é o mesmo e os escalonamentos precisam ocorrer às vezes. Não pule as etapas!

Incidentes acontecem. Porém, um processo forte de gerenciamento de incidentes significa que você pode reduzir o impacto e restaurar os serviços com rapidez.