Close

Como o gerenciamento de incidentes funciona no Jira Service Management

Visão geral

O gerenciamento de incidentes é o processo de responder a um evento ou a uma interrupção de serviço não planejados para restaurar o estado operacional do serviço.

  • Incidente: uma interrupção não planejada de um serviço ou redução na qualidade do serviço.
  • Incidente grave: incidentes com impacto comercial significativo, que exigem uma resolução coordenada imediata.

Um problema é a causa-raiz ainda desconhecida por trás de um ou mais incidentes.

Meeples trabalhando para consertar um incidente

A plataforma Atlassian para gerenciamento de incidentes traz todo o contexto e os dados de que você precisa para resolver um incidente com rapidez e eficiência.

  • No Jira Service Management, os agentes podem gerenciar com facilidade itens e incidentes relatados pelo usuário.
  • Os agentes podem escalar com rapidez incidentes graves como alertas para a equipe de plantão. O Jira Service Management permite que as equipes de TI e DevOps permaneçam no controle durante os incidentes, centralizando alertas, notificando as pessoas certas e permitindo que elas colaborem e tomem medidas rápidas.
  • Os recursos nativos de gerenciamento de configuração e ativos do Jira Service Management (incluídos nos planos Premium e Enterprise) ajudam os agentes a entender as dependências em sua infraestrutura de TI para localizar possíveis causas do incidente.
  • Por fim, espaços de trabalho compartilhados registram práticas, processos e procedimentos de incidentes no mesmo lugar — runbooks, bases de conhecimento e PIRs.

Essa solução perfeita de gerenciamento completo de incidentes ajuda as equipes a escalar, trazer os respondentes certos, reunir e, por fim, minimizar o tempo de inatividade.

O processo de gerenciamento de incidentes

Diagrama de resposta a incidentes da Atlassian

A chave para o gerenciamento de incidentes é ter um bom processo e não fugir dele. Resposta a incidentes é um termo bem amplo. Então, ele foi dividido em etapas mais prováveis de você seguir depois de identificar, categorizar e priorizar um incidente:

  1. Diagnóstico inicial: as equipes no estilo DevOps costumam tratar dos incidentes desde o diagnóstico até a resolução, enquanto as centrais de atendimento de vários níveis têm equipes de linha de frente que tentam fazer o mesmo, mas podem encaminhar para equipes de suporte de segundo ou terceiro nível se necessário.
  2. Escalonar: a equipe seguinte assume os dados registrados e continua com o processo de diagnóstico. Se essa equipe não conseguir diagnosticar o incidente, ela vai escalonar para a próxima.
  3. Comunicar: a equipe compartilha com frequência atualizações com interessados afetados, tanto internos quanto externos.
  4. Investigação e diagnóstico: continua até que a natureza do incidente seja identificada. Às vezes, as equipes utilizam recursos externos ou outros membros do departamento para consultar e ajudar com a resolução.
  5. Resolução e recuperação: nessa etapa, a equipe chega a um diagnóstico e faz as etapas necessárias para resolver o incidente. A recuperação simplesmente indica o esforço que pode ser necessário para que o serviço seja todo restaurado, uma vez que algumas correções (como correções de bugs) podem exigir testes e implementação mesmo após a resolução adequada ter sido identificada.
  6. Encerramento: se o incidente tiver sido escalonado, ele retorna à central de atendimento para ser encerrado. Para manter a qualidade e garantir um processo sem problemas, apenas os funcionários da central de atendimento têm permissão para encerrar incidentes, e o proprietário do incidente deve verificar com quem fez o relato se a resolução é satisfatória e o incidente pode, de fato, ser encerrado.
Livro aberto com lâmpada

Para ver mais informações, confira a página de Gerenciamento de incidentes.


Como começar a usar o gerenciamento de incidentes no Jira Service Management

Como começar a usar o gerenciamento de incidentes

O Jira Service Management oferece um fluxo de trabalho de gerenciamento de incidentes compatível com a Infraestrutura de tecnologia da informação (ITIL) chamada: fluxo de trabalho de gerenciamento de incidentes para o Jira Service Management. A gente recomenda que você comece com esse fluxo de trabalho e o adapte às necessidades comerciais específicas da empresa ao longo do tempo. Saiba mais sobre fluxos de trabalho.

Por padrão, os campos a seguir estão na visão do agente de um incidente. Se você precisar de campos adicionais, também vai ser possível adicionar campos personalizados.

Como criar contratos de nível de serviço (SLAs) para registros de incidentes

O Jira Service Management oferece SLAs integrados eficientes, para que as equipes possam acompanhar o nível de serviço esperado pelos clientes. Os administradores do projeto podem criar metas de SLA que especificam os tipos de solicitações que você quer acompanhar e o tempo necessário para resolvê-las. A partir daí, é possível definir as condições e os calendários que afetam quando as medições de SLA começam, pausam ou param.

Para criar um novo SLA:

  1. No projeto de central de atendimento, vá para Configurações do projeto >SLAs. Todos os SLAs existentes são exibidos aqui.
  2. Selecione Adicionar SLA.
  3. No campo ao lado do ícone do relógio, insira um novo nome para o SLA ou escolha um nome existente.
    1. (Você não vai poder alterar o nome do SLA depois que ele for criado, então escolha um que explique com clareza o que ele mede.)
  4. Estabeleça metas e condições para o SLA. Saiba mais sobre como configurar metas de SLA e configurar métricas de tempo de SLA.
  5. Selecione Salvar.

Como marcar incidentes como graves no Jira Service Management

Quando serviços essenciais passam por interrupção, o Jira Service Management Cloud oferece as ferramentas necessárias para ajudar os agentes a resolver incidentes com rapidez. Marcar um incidente como grave vai fazer com que se destaque em relação a outros incidentes. Além disso, esses incidentes são agrupados em uma fila própria de “Incidente grave” com tecnologia JQL.

Para marcar um incidente como grave:

  1. Navegue até o incidente que você quer marcar como grave.
  2. Ative o botão de alternância de incidentes graves na seção de informações do item.
Marcar um incidente grave no Jira Service Management

Observação: se o campo Incidente grave não aparecer nos incidentes, verifique se você adicionou o campo na visualização do item. Você precisa ser administrador do Jira para adicionar campos a um tipo de item.

Como criar e enviar atualizações para um canal do Slack direto de um incidente

O Jira Service Management permite que você conecte o espaço de trabalho e crie um canal dedicado no Slack para cada incidente. Ao conectar os espaços de trabalho do Slack ao projeto de serviço, você pode criar canais do Slack para os incidentes, adicionar respondentes de incidentes aos canais do Slack, atualizar as prioridades dos incidentes, tomar medidas em relação a eles e ajudar a equipe a agir com mais rapidez durante os incidentes.

Para criar um canal do Slack para incidentes:

  1. Navegue até o incidente para o qual você quer criar um canal do Slack.
  2. Selecione Criar canal na seção de informações do item.
Criar um canal no Slack para incidentes no Jira Service Management

Como enviar atualizações de incidentes para as partes interessadas internas

Partes interessadas internas são quem não é respondente, mas precisa ficar atualizado sobre o progresso do incidente para tomar precauções e medidas. O Jira Service Management permite adicionar pessoas como partes interessadas e enviar atualizações a elas por mensagens de e-mail.

Para adicionar/remover partes interessadas internas:

  1. Navegue até o incidente ao qual você quer adicionar partes interessadas internas.
  2. Selecione Gerenciar ao lado do campo das partes interessadas nas informações.
  3. Pesquise pessoas que você quer adicionar como partes interessadas.

Para enviar uma atualização para as partes interessadas internas:

  1. Na seção Atividade da visualização do item, selecione Atualizar partes interessadas.
  2. Insira um resumo e uma mensagem.
  3. Selecione Enviar.
Enviar atualizações de incidentes para as partes interessadas internas no Jira Service Management

Como abordar incidentes com a equipe por meio de teleconferências

O Jira Service Management oferece salas de conferência de vídeo/voz para coordenar e gerenciar incidentes em um local central.

Para iniciar uma teleconferência:

  1. Navegue até o incidente em que você quer iniciar uma teleconferência.
  2. Selecione Iniciar chamada (ou Participar de uma chamada existente) ao lado do campo Teleconferência nas informações.
Iniciar ou participar de uma teleconferência no Jira Service Management

Saiba como acessar e criar análises pós-incidente (PIRs)

Análises pós-incidentes dão a oportunidade de descobrir vulnerabilidades no sistema, interromper incidentes repetidos e diminuir o tempo de resolução de incidentes no futuro, além de serem uma etapa importante no ciclo de vida de um serviço sempre ativo. As descobertas da análise devem ser aplicadas ao processo de planejamento para garantir que as correções essenciais encontrem um lugar nos próximos trabalhos. Documentar o incidente e como a equipe o resolveu pode informar como futuros incidentes vão ser tratados. As equipes podem criar soluções de longo prazo para os problemas que levam a incidentes e vincular a análise ao incidente no Jira Service Management.

Para ativar o recurso de análise pós-incidente:

  1. Navegue até Configurações do projeto> Recursos.
  2. Ative Análises pós-incidente nas categorias de ITSM.

Habilitar essa categoria permite que você acesse novos recursos para as solicitações. Você vai precisar criar novos tipos de solicitação ou atribuir os tipos de solicitações existentes à categoria de análises pós-incidente para começar.

Para acessar as análises pós-incidente:

  1. Selecione Análise pós-incidente no menu da barra lateral do projeto.
  2. Selecione a fila adequada para análises pós-incidente.
Acessar análises pós-incidente no Jira Service Management

Para criar uma nova análise pós-incidente:

  1. Selecione Criar na barra de menu superior.
  2. Selecione o tipo de solicitação de análise pós-incidente que você estabeleceu no menu suspenso.
  3. Preencha as informações necessárias e vincule o incidente apropriado ao PIR no campo de itens vinculados.
  4. Selecione Criar quando terminar.

Fica a dica: análises pós-incidentes também podem ser criadas usando o mecanismo de automação nativo do Jira Service Management. Por exemplo, você pode definir uma regra de automação para criar uma análise pós-incidente sempre que um incidente de prioridade grave ou crítica for resolvido pela equipe.

Criar uma análise pós-incidente no Jira Service Management

Como vincular vários incidentes a um relatório de problemas

O Jira Service Management permite que você vincule vários itens. Por exemplo, é possível vincular vários registros de incidentes a um relatório de problemas maior.

Para vincular vários incidentes a um relatório de problemas:

  1. Veja o registro do incidente.
  2. Selecione Item de link.
  3. No campo de itens vinculados, selecione é causado por.
  4. Insira o item (ou selecione no menu suspenso) do item ao qual você quer vincular no campo Problema.
  5. Selecione Vincular.

Dicas e práticas recomendadas de gerenciamento de incidentes

Facilite a captura de incidentes relatados pelo usuário e pelo sistema

O Jira Service Management é a fonte de informações para incidentes leves e graves. O portal do cliente captura incidentes relatados pelo usuário de maneira completa e consistente, com todas as informações necessárias de que a equipe de suporte precisa para avaliar o incidente. Quando funcionários ou clientes veem um incidente, eles podem fazer o relatório dele no Jira Service Management. A partir daí, os incidentes são encaminhados para as filas de agentes corretas.

Quando se trata de detectar incidentes e interrupções com antecipação, o monitoramento eficaz é o olhar e os ouvidos das operações de TI. Para incidentes detectados pelo sistema, o Jira Service Management se integra com facilidade a mais de 200 aplicativos e serviços da Web, como Slack, Datadog, Sumo Logic e Nagios, para sincronizar dados de alerta e otimizar o fluxo de trabalho de incidentes.

Portal do cliente do Jira Service Management

Reduza a fadiga de alertas com on-call schedule inteligente

Quando a equipe de plantão é inundada com alertas irrelevantes, eles começam a receber fadiga de alerta e perdem notificações importantes. Os recursos integrados de gerenciamento de incidentes do Jira Service Management garantem que a equipe nunca perca um alerta crítico.

Agendamento de plantão no Jira Service Management

Ao criar cronogramas e definir regras de escalonamento em uma interface, a equipe sempre sabe quem está de plantão e responsável durante os incidentes. A solução agrupa alertas, filtra o ruído e notifica os membros da equipe usando vários canais, como texto, chamada telefônica, push móvel ou e-mail, junto com o contexto relevante necessário para iniciar no ato a resolução.

Use ChatOps e runbooks para melhorar a coordenação da equipe

Com o Jira Service Management, as equipes têm um local centralizado para colaborar, compartilhar informações em tempo real e acelerar a resolução com o centro de comando de incidentes. Em vez de navegar por atualizações fragmentadas de bate-papo individual ou percorrer longos históricos de conversas, defina uma sala de videoconferência para que as equipes conversem com dinamismo, atribuam funções e até tomem ações decisivas na própria interface. Ao anexar runbooks a alertas, as equipes podem iniciar com rapidez tarefas de remediação padrão, sejam automáticas ou sob demanda.

Coordenação de equipes no Jira Service Management

Os Runbooks também são ótimos para documentar métodos comuns de solução de problemas para solucionar alertas e resolver interrupções. Com runbooks, a equipe tem todas as informações necessárias para fazer a triagem rápida de um incidente na ponta dos dedos. Em muitos casos, as equipes podem reduzir os tempos de resolução de incidentes em 40%.

Utilizando o Confluence para documentar runbooks

Estabeleça esquemas táticos proativos de gerenciamento de incidentes

Planeje sua estratégia de resposta a incidentes com antecedência. Assim, você alivia o estresse, mantém a equipe focada durante o incidente e reduz o tempo de resolução. Não se esqueça de incluir práticas de colaboração operacionais e baseadas em equipe:

  • Observe o que a equipe mais valoriza durante a resposta a incidentes e crie um plano para sempre respeitar esses valores. Por exemplo, os valores podem ser colaboração, comunicação e análises pós-incidente sem apontar culpados.
  • Defina com clareza o que se qualifica como um incidente grave.
  • Documente suas práticas de incidentes graves.
  • Estabeleça suas Comunicações de Resposta a Incidentes, como modelos de resposta e comunicações para as partes interessadas (externas e internas).
  • Determine os principais membros da equipe de resposta a incidentes.
  • Estabeleça suas práticas de PIR.
  • Conduza PIRs para todos os incidentes graves sem apontar culpados.
  • Publique e compartilhe aprendizados do PIR.
  • Conduza exercícios de simulação de incidentes graves.

Mantenha o foco em melhorar o tempo médio de recuperação (MTTR)

Estabelecer um forte processo de gerenciamento de incidentes é crucial para reduzir o impacto do incidente e restaurar os serviços com rapidez. A chave para melhorar a resposta é reduzir o tempo médio para recuperação (MTTR) e simplificar a análise da causa raiz para evitar interrupções futuras. Na verdade, a Forrester descobriu que 70% do tempo de resposta a incidentes é gasto na fase de Investigação e Diagnóstico.

Diagrama de tempo médio para recuperação e melhoria contínua

Crie confiança com comunicações externas centralizadas

Muitas equipes usam um painel centralizado, como o Statuspage, para relatar o status dos serviços críticos. O Statuspage funciona como um canal único para comunicação em massa clara e proativa para usuários internos e externos, junto com notificações e atualizações automatizadas.

O Statuspage mantém as equipes internas informadas sobre o tempo de inatividade programado e não planejado também. Clientes e funcionários podem assinar atualizações, o que promove uma comunicação consistente e reduz as atualizações manuais.

Captura de tela demonstrando o Statuspage usado como um painel centralizado

Introdução

Gerenciamento de solicitações de serviço

Introdução

Gerenciamento de problemas