As funções de alerta e de plantão do Opsgenie agora estão disponíveis no Jira Service Management e no Compass. Migre dados e configurações existentes do Opsgenie antes de 5 de abril de 2027 usando nossa ferramenta de migração automatizada.Saiba mais

A linguagem do gerenciamento de incidentes

Glossário para equipes de gerenciamento de incidentes

A linguagem usada em todo o ecossistema de tecnologia é dinâmica, para dizer o mínimo. Em nenhum outro lugar você pode encontrar uma mistura de jargão técnico mesclado com referências de ficção científica, mitologia, cultura pop, história e literatura. Embora as conversas ganhem vida e se tornem envolventes, elas também se tornam muitas vezes difíceis de entender.

Quando nada urgente acontece, funciona. Mas quando os incidentes acontecem e os níveis de gravidade disparam ladeira acima, é necessário que a linguagem seja técnica, precisa e útil e não deixe espaço para interpretações erradas.

Em outras palavras, quando se trata de gerenciamento de incidentes, é necessário um conjunto claro de definições para manter as pessoas na mesma sintonia.

Use um template grátis de relatório de incidentes

Reconhecimento de incidentes

Depois que um alerta de incidente é gerado, um usuário pode reconhecer um alerta na maioria das ferramentas de alerta de plantão. Ou seja, o usuário assume a responsabilidade pelo item e está trabalhando para achar uma resolução.

Alerta prático

Alerta útil é um alerta que descreve um problema e seu impacto com clareza e é encaminhado para as pessoas certas no momento certo para que a equipe possa agir de imediato.

Monitoramento ativo

Os sistemas com monitoramento ativo são verificados com frequência ou monitorados por meio automático com software para qualquer alteração de desempenho que possa levar a incidentes.

Análise pós-ação (AAR)

Uma análise pós-ação é um processo de revisão estruturado que ocorre após um evento. Em geral, o processo descreve o que aconteceu em detalhes, tenta identificar por que aconteceu e aponta áreas para melhorias a fim de evitar eventos iguais ou semelhantes no futuro. As análises pós-ação também são conhecidas como análises retrospectivas ou análises pós-incidentes.

Tempo de serviço acordado (AST)

O tempo de serviço acordado é a quantidade de tempo, em geral medida em horas por ano, que se espera que um serviço esteja disponível. Em geral, esse acordo é descrito em um SLA (Acordo de Nível de Serviço) entre o fornecedor e o cliente. Os serviços de alta disponibilidade prometem 99,99% de disponibilidade, o que permite menos de uma hora de tempo de inatividade por ano.

Alertar

Alarme ou aviso gerado quando as ferramentas de monitoramento identificam mudanças, ações de alto risco ou falhas no ambiente de TI.

Alerta de ruído

O ruído dos alertas ocorre quando um número grande de alertas é criado em um curto espaço de tempo, tornando difícil para os respondentes identificar com precisão quais serviços estão afetados e como priorizar o trabalho. O ruído dos alertas pode ser um fator que contribui para a fadiga de alerta.

Fadiga de alerta

A fadiga de alerta ocorre quando os respondentes de incidentes ficam sobrecarregados com o volume ou a frequência dos alertas. Muitas vezes, a fadiga de alerta leva a respostas lentas, ou nenhuma resposta, já que os respondentes tendem a normalizar os alertas constantes.

Serviços sempre disponíveis

Serviço que se espera funcionar com continuidade.

Ativos/Gerenciamento de ativos

Componentes de qualquer sistema ou rede que tenha valor comercial. A gestão de recursos ocorre quando um funcionário ou equipe faz um inventário desses componentes para entender o impacto de uma atualização ou remoção de um sistema.

Auditoria

Inspeção formal da disponibilidade e do uso de um sistema ou processo. A auditoria também verifica se as políticas, as diretrizes e as práticas recomendadas estão sendo seguidas.

Disponibilidade

Quando um produto ou sistema está disponível e funcionando conforme o esperado. Também conhecido como disponibilidade do sistema.

Retorno

Prática de restaurar um serviço a um parâmetro ou estado anterior confiável. Em geral, se trata de uma correção rápida aplicada quando uma atualização ou versão causa uma falha em algo essencial em um sistema.

Backup

Cópia armazenada de dados ou um sistema redundante disponível para uso caso o original seja comprometido ou perdido.

Parâmetro

Ponto de referência para o comportamento esperado. Os parâmetros ajudam as equipes a medir mudanças e melhorias.

Referencial

Ponto de referência que funciona como um parâmetro para medir o progresso ou comparar resultados. Por exemplo, se o padrão do setor é 99,99% de disponibilidade, essa marca pode ser uma referência para nos avaliar em relação à concorrência e às expectativas do cliente.

Bug

Um problema não intencional no software, código, programas etc. que pode causar comportamento anormal ou falha.

Análise de impacto dos negócios (BIA)

Análise de impacto dos negócios é a avaliação sistemática do impacto potencial de interrupções e tempo de inatividade do serviço devido a um incidente grave. O objetivo do BIA é entender o efeito que cada serviço tem nos negócios e definir os requisitos para recuperação em caso de incidente.

Capacidade

Quantidade máxima de informações que podem ser transferidas entre redes ou entregues por meio de um serviço. Exceder a capacidade é um indicador comum de incidentes.

Alteração

Qualquer alteração feita em um serviço, configuração, rede ou processo de TI. Quase sempre monitorada em uma prática conhecida como gestão de mudanças.

Histórico de alterações

Registro abrangente das mudanças feitas em um serviço, configuração, rede ou processo de TI, do início do ciclo de vida ao estado atual.

Gerenciamento de alterações

Prática de TI focada em minimizar interrupções durante mudanças/atualizações em sistemas e serviços essenciais. Para algumas equipes, essa prática abrange todos os aspectos da mudança — do técnico às pessoas e ao processo. Para outras equipes, com base nas diretrizes ITIL 4, a gestão de mudanças se concentra no gerenciamento dos aspectos humanos ou culturais da mudança, enquanto outra prática chamada controle de mudanças se concentra na avaliação de riscos, cronogramas e autorização de mudanças.

ChatOps

Prática de usar ferramentas de bate-papo e colaboração para gerenciamento de incidentes. Como Sean Regan da Atlassian explica:

"ChatOps é um modelo de colaboração que conecta pessoas, ferramentas, processos e automação em um fluxo de trabalho transparente. Esse fluxo conecta o trabalho necessário, o trabalho que está acontecendo e o trabalho realizado em um local persistente composto por pessoas, bots e ferramentas relacionadas."

Estado encerrado

Um incidente está em um estado encerrado quando todas as ações necessárias foram tomadas e o item é encerrado.

Espera fria (recuperação gradual)

Uma espera fria é usada quando um sistema atua como backup para outro sistema. Se o sistema primário falhar, a espera fria substitui o sistema primário enquanto ele está sendo corrigido. Essa é uma estratégia bem útil se a falha do sistema primário exigir uma recuperação gradual (uma recuperação que pode levar semanas) no caso de o hardware precisar ser substituído e configurado.

Inicialização a frio

Uma inicialização a frio ocorre quando um aplicativo que não está em execução leva mais tempo para iniciar do que um aplicativo que está "aquecido" ou já em execução.

Líder de comunicação

Membro da equipe responsável pela comunicação durante um incidente.

Conformidade

Alinhamento com os regulamentos. Com frequência, os sistemas de monitoramento vão ser programados para monitorar itens de conformidade e acionar alertas se um sistema não estiver em conformidade.

Análise de impacto de falha de componentes (CFIA)

O processo de determinar o impacto em um serviço se um componente ou configuração parar de funcionar conforme o esperado.

Simultaneidade

A medida de quantas das mesmas ações estão acontecendo ao mesmo tempo dentro de um sistema. Por exemplo, quantos usuários estão acessando a mesma operação ou realizando a mesma transação?

Controle

Procedimentos e políticas que gerenciam riscos, garantem que um produto ou serviço opere conforme o esperado e protegem a conformidade.

Serviço central

Serviço que serve uma função central para usuários/clientes.

Contramedida

Ação reativa e específica tomada para proteger um sistema ou restaurar operações.

Serviço voltado para o cliente

Serviços que os clientes usam e com os quais interagem.

Estrutura Cynefin

Conceito de tomada de decisão que foi adaptado aos processos de gerenciamento de incidentes para ajudar os gerentes a organizar a resposta mais eficaz. A estrutura divide as situações em cinco categorias com base na complexidade do incidente, e cada categoria tem o próprio conjunto (diferente) de próximas etapas.

Painel

Visualização em uma única tela de sistemas, alertas e incidentes criada para organizar a apresentação de informações de uma variedade de ferramentas com informações contextuais exibidas em um formato limpo e preciso.

Dependência

Relacionamento entre dois serviços, processos ou configurações que dependem um do outro para funcionar.

Depreciação

Quando uma função ou ferramenta é retirada de serviço, não está mais em uso ou não é mais atualizada.

Diagnóstico

O processo e o resultado da compreensão de um incidente e a causa raiz.

Diagnóstico

Os sintomas ou sinais que levam ao diagnóstico do incidente.

Tempo de inatividade/interrupção

Tempo em que um serviço não está funcionando ou não está disponível conforme o esperado.

Alteração emergencial

Atualização ou correção implementada com rapidez, em geral como parte da resolução de incidentes. As alterações emergenciais muitas vezes ignoram os processos de aprovação de mudança porque o risco de esperar por aprovações é maior do que o risco de implementar a mudança.

Serviço de ativação

Serviço necessário para que um serviço central funcione, mas que não é oferecido aos clientes em si.

Ambiente de teste*

Infraestrutura em que um serviço, função, processo, item de configuração etc. é testado quanto à funcionalidade esperada. Esse ambiente é controlado de perto para espelhar a produção.

Ambiente de produção

Infraestrutura onde um serviço é entregue a um cliente. Os resultados neste ambiente são em tempo real e às vezes também são conhecidos como ambiente ativo.

Erro

Erro que causa a falha de um item de configuração ou serviço. Pode ser um erro de design, processamento ou erro humano.

Escalonamento

Processo de mover uma atribuição de gerenciamento de incidentes para uma equipe ou indivíduo com habilidades ou experiência mais relevantes. O escalonamento funcional ocorre quando um alerta ou incidente é transferido para um indivíduo ou equipe com mais experiência. O escalonamento hierárquico ocorre quando o referido alerta ou incidente é transferido de um funcionário júnior para um sênior.

Evento

Sistema ou situação de serviço notável. Em geral, os eventos são causados por ação do usuário ou incidente.

Relatório de exceção

Relatório gerado quando os indicadores-chave de desempenho (KPIs) excedem os limites ou não atendem às expectativas.

Tolerância a falhas

A tolerância a falhas descreve a capacidade de um serviço de continuar operando mesmo se um item de configuração ou peça individual falhar.

Análise de árvore de falhas

Técnica usada para determinar os eventos que levaram a um incidente e prever quais eventos podem levar a incidentes no futuro. Muitas vezes, é usada para encontrar a causa raiz de um incidente grave.

Suporte de primeira linha

Respondente que deve reagir primeiro a um incidente. É a pessoa de plantão.

Consertar

Ação ou método de reparo.

Ativo fixo

Um ativo fixo é um item físico, de valor e de longo prazo da empresa, por exemplo: escritório, computador ou licença.

Cronograma de sol a sol

Método de suporte ao cliente ou gerenciamento de incidentes que reveza as responsabilidades de plantão entre fusos horários para entregar cobertura em tempo integral, sem exigir que as equipes estejam de plantão no meio da noite.

Investigação forense

Investigação científica baseada em evidências em um sistema de computador com o objetivo de identificar a causa de um incidente.

Funcional

Um serviço é descrito como funcional quando é capaz de funcionar conforme o esperado.

Recuperação gradual

Recuperação gradual é um processo de recuperação que leva mais tempo do que o normal (semanas, não horas). Quando acontece, é comum usar uma espera fria (sistema de backup) para substituir o sistema afetado.

Espera ativa

Espera ativa é uma opção de recuperação em que ativos redundantes são executados ao mesmo tempo para oferecer suporte a um serviço de TI em caso de falha. Se o sistema ativo falhar, a espera ativa já está em execução e pronta para assumir o lugar sem nenhuma ação exigida pela equipe e sem tempo de inatividade. Também conhecida como recuperação imediata.

Hotfix

Uma atualização aplicada ao software para resolver um problema ou corrigir um bug. Em geral, é usado para corrigir um problema relatado pelo cliente.

Impacto

A medição do custo — de dinheiro, tempo, reputação — que uma interrupção de serviço, incidente ou alteração causa. Também conhecida como custo do tempo de inatividade.

Alerta inativo

Alerta que não capacita um respondente a agir. Em geral, significa que o alerta não tem informações contextuais, foi encaminhado para a pessoa errada ou tem um escopo pouco claro. Alertas não práticos podem contribuir para fatiga de alerta.

Incidente

Evento que causa interrupção ou redução na qualidade de um serviço que requer uma resposta emergencial. As equipes que seguem as práticas de ITIL ou ITSM podem usar o termo incidente grave.

Resposta a incidentes

Como as equipes reagem a um incidente. Muitas vezes, a resposta a incidentes é um processo predefinido com regras, funções e práticas recomendadas definidas antes do incidente surgir.

Gerenciamento de incidente

Processo usado pelas equipes de DevOps e operações de TI para responder a um evento ou interrupção de serviço não planejada e restaurar o serviço ao estado operacional.

Responsável pela gestão de incidentes

O responsável pela gestão de incidentes é um membro das equipes de TI ou DevOps encarregado de gerenciar respostas a incidentes. É o chefe da equipe de gerenciamento de incidentes e tem o controle e a palavra final sobre todas as decisões de incidentes. Essa função também é chamada de gerenciador de incidentes.

Ciclo de vida de incidentes

A vida de um incidente, da criação e detecção à resolução.

Métricas de E/S

Coleção de métricas que medem a entrada e a saída. As métricas comuns nessa categoria incluem Espera de E/S (o tempo que uma CPU aguarda uma solicitação de E/S) e IOPS (o número de solicitações de E/S por segundo).

Orquestração de resposta a incidentes

Função do Opsgenie que permite às equipes identificar problemas com rapidez e eficácia, notificar as pessoas certas, facilitar a comunicação entre as unidades de negócios e colaborar entre as equipes para o gerenciamento de incidentes.

Registro de incidentes

Registro de informações e processos usados durante um incidente específico.

Respondente de incidentes

Indivíduos e/ou equipes responsáveis pela investigação e resolução de um incidente.

Interessados/observadores de incidentes

Indivíduos que precisam ser mantidos informados sobre um incidente porque afeta o trabalho/capacidade de realizar o trabalho deles. Os indivíduos podem ou não influenciar a resolução de incidentes, mas não são respondentes ativos.

Recuperação intermediária

Também conhecida como espera passiva, esse tipo de recuperação leva de 24 a 72 horas. A restauração de dados e/ou configuração de hardware e software são, em geral, a razão para o tempo de recuperação longo.

Infraestrutura de tecnologia da informação (ITIL)

Conjunto documentado de práticas recomendadas aceitas para serviços de TI.

Gerenciamento de serviços de tecnologia da informação (ITSM)

Todos os aspectos dos processos e procedimentos necessários para proporcionar serviço de TI aos clientes. Inclui todos os aspectos do ciclo de vida do serviço — do design à entrega e ao gerenciamento de incidentes.

Método Kepner-Tregoe (método KT)

Análise de causa raiz e método de tomada de decisão em que os problemas são avaliados separados da decisão final sobre um item.

Indicadores-chave de desempenho (KPIs)

Medições de sucesso para sistemas ou produtos. Os KPIs são decididos com antecedência, rastreados com frequência e em geral geram alertas se desviarem dos limites esperados. Por exemplo, se o tempo médio entre as falhas (MTBF) começar a ficar cada vez mais curto, um alerta pode ser gerado para que a equipe possa identificar e examinar o problema.

Erro conhecido

Item preexistente que já tem uma solução alternativa.

Latência

Atraso sentido durante a transferência de dados.

Logs

Registros de todos os eventos relacionados a um serviço ou aplicativo. Inclui dados transferidos, horas e datas, incidentes, mudanças, erros etc.

Capacidade de manutenção

Medida da facilidade em que as mudanças podem ser aplicadas com sucesso a um serviço ou função.

Solução alternativa manual

Solução implementada por método manual (em vez de automático).

Tempo médio entre as falhas (MTBF)

Tempo médio entre as falhas reparáveis de um produto de tecnologia. Também é conhecido como tempo médio entre incidentes de serviço (MTBSI).

Tempo médio para confirmação (MTTA)

Tempo médio que leva do momento em que um alerta é acionado até o início do trabalho no item.

Tempo médio sem falhas (MTTF)

Tempo médio entre as falhas não reparáveis de um produto de tecnologia.

Tempo médio para reparos (MTTR)

Tempo médio que leva para reparar um sistema (em geral técnico ou mecânico). Inclui o tempo de reparo e qualquer tempo de teste.

Tempo médio para recuperação (MTTR)

Tempo médio gasto para a recuperação de uma falha de produto ou do sistema. Ele inclui o tempo total da interrupção — do momento em que o sistema ou o produto falha ao momento em que retoma a operação por completo.

Tempo médio para a resolução (MTTR)

Tempo médio necessário para resolver por completo uma falha, incluindo o tempo gasto para garantir que a falha não aconteça de novo.

Tempo médio de resposta (MTTR)

Tempo médio gasto para a recuperação de uma falha de produto ou do sistema a partir do primeiro alerta para essa falha. Ele não inclui o tempo de atraso no sistema de alerta.

Modelo/modelagem

Representação de um sistema, serviço, aplicativo real etc.

Monitoramento

Processo repetido de verificação de um serviço ou processo para garantir que ele esteja funcionando conforme o esperado.

Alteração normal

Alteração não emergencial que não tem um processo definido e pré-aprovado.

Cronograma de plantão

Cronograma que garante que a pessoa certa esteja sempre disponível, dia ou noite, para responder a incidentes e interrupções com rapidez. Os cronogramas de plantão são comuns nos setores de medicina e de tecnologia.

Ponte de operações

Local físico onde ocorre o monitoramento dos serviços de TI.

Líder de operações

Pessoa responsável por supervisionar as operações diárias. Em alguns casos, essa pessoa também pode ser o gerenciador de incidentes (ou responsável pela gestão de incidentes), encarregado de liderar a resolução de incidentes.

Resultado

Resultado de um evento, processo ou mudança relacionado à TI. As equipes costumam falar sobre os resultados previstos e os reais.

Análise do valor do dano

Análise usada para identificar o impacto de um incidente nos negócios. É levado em consideração o custo do tempo de inatividade, a duração de um incidente, o impacto sobre os usuários e o número de usuários afetados.

Monitoramento passivo

Quando a funcionalidade do serviço é monitorada por método automático (em vez de ser monitorada por método ativo ou manual).

Tempo de paz

Quando os serviços e as operações estão funcionando conforme o esperado, sem qualquer interrupção.

Degradação do desempenho

Medida que mostra quanto o desempenho de um sistema diminuiu devido a um evento ou incidente.

Tempo de inatividade planejado

Período em que um serviço de TI fica indisponível de propósito para fins de manutenção ou atualizações.

Esquemas táticos

Coleção de "táticas" ou ações específicas que a equipe pode realizar para resolver um problema, incidente ou meta específica.

Análise retrospectiva/análise pós-incidente/revisão pós-incidente

Processo de compreensão de um incidente depois que ele é resolvido. O objetivo de uma análise retrospectiva é melhorar os processos de resposta, prevenir incidentes futuros e compreender a causa do incidente mais recente.

Prioridade

Ordem em que os incidentes devem ser resolvidos. Os itens de alta prioridade exigem mais urgência do que os itens de baixa prioridade. A prioridade é determinada pela urgência, gravidade e impacto potencial nos negócios.

Registro de problema

Registro de problema é um documento que abrange todos os aspectos de um item, da detecção à resolução.

Interrupção projetada de serviço

Documento que descreve como a manutenção ou teste futuro vai afetar os níveis normais de serviço.

Garantia de qualidade

Processo de testes para garantir que os padrões sejam atendidos para qualquer item relacionado à TI, de funções novas a guias de procedimentos.

Sistema de gestão da qualidade

Estrutura ou sistemas implementados para oferecer garantia da qualidade.

Monitoramento reativo

Monitoramento feito em reação a um evento ou incidente.

Recuperação

Processo de retornar um serviço à funcionalidade e integridade dos parâmetros.

Objetivo do ponto de recuperação

Perda máxima de dados permitida durante a recuperação.

Objetivo do tempo de recuperação

Tempo máximo tolerado para uma interrupção do serviço.

Lance

Alteração implementada para os usuários.

Gerenciamento de versão

Planejamento, projeto, teste, agendamento, solução de problemas e implementação de alterações.

Resiliência

Capacidade de um sistema resistir a falhas e recuperar-se com rapidez no caso de um incidente.

Tempo de resposta

Quantidade de tempo que leva do momento em que um alerta é gerado até quando uma ação inicial é executada pela equipe.

Avaliação de risco

Processo de identificação do risco de um ativo avaliando o valor, as ameaças potenciais e o impacto potencial dessas ameaças.

Gestão de riscos

Processo de lidar com ameaças, com identificação e controle.

Causa-raiz

Em geral, a causa raiz é considerada o único motivo da falha de um serviço ou aplicativo. No entanto, muitas vezes existem muitos fatores interligados que contribuem para as falhas. Assim, as equipes estão começando a debater se esse termo é útil no gerenciamento de incidentes, e muitos mudaram para a forma plural: causas raízes.

Runbooks

Os runbooks oferecem procedimentos detalhados para o gerenciamento de incidentes. Eles são mantidos pelos administradores do sistema ou pela equipe do Network Operations Control (NOC). Os runbooks podem ser digitais ou impressos.

Escopo

Extensão de um problema, solução, projeto, capacidade etc.

Suporte de segunda linha

Pessoas com capacidades adicionais — tempo, experiência, conhecimento, recursos — para resolver itens que podem estar além da capacidade dos primeiros respondentes.

Alteração de serviço

Atualizações, correções, depreciação ou outras mudanças feitas em um serviço.

Central de atendimento

Equipe que atende às solicitações de suporte ao cliente e atua como ponto de contato entre os clientes e a TI.

Análise de falhas de serviço

A análise de falha de serviço é o processo de inspecionar uma interrupção de serviço para identificar a causa.

Acordo de Nível de Serviço (SLA)

Acordo entre o provedor e o cliente sobre métricas mensuráveis, como disponibilidade, capacidade de resposta e responsabilidades.

Gráfico de monitoramento do Acordo de Nível de Serviço (SLAM)

Documento que registra o progresso e os dados sobre as metas de nível de serviço.

Objetivos de Nível de Serviço (SLOs)

Acordo dentro de um SLA sobre uma métrica específica, como disponibilidade.

Níveis de gravidade (GRAV)

Grau em que um serviço é afetado por um incidente. Em geral, as equipes usam uma estrutura de nível de gravidade que vai de 3 a 5, com 1 sendo a gravidade mais alta e 3 a 5 indicando itens de gravidade mais baixa que não exigem tanta urgência.

Ponto único de falha

Variável da qual um sistema depende para funcionar. Por exemplo: um item de configuração essencial.

Especificação

Registro formal de requisitos para uma configuração relacionada à TI.

Engenheiro de Confiabilidade do Site (SRE)

Engenheiro de software encarregado de operações. Os SREs são responsáveis por automatizar tarefas manuais, gerenciar SLOs e gerenciar incidentes.

Alterações padrão

Alterações pré-aprovadas de baixo risco e repetidas, como adição de memória ou armazenamento.

Espera

Recursos inativos e disponíveis para dar suporte ao gerenciamento de incidentes.

Status

Condição atual de um serviço.

Página de status

Página inicial dedicada para comunicar a condição atual de um serviço, com atualizações regulares do status dos incidentes.

Especialista (SME)

Indivíduo com conhecimento específico sobre um determinado item, serviço etc.

Pilha de tecnologia

Linguagens de programação, software e componentes que constituem um aplicativo. Existem dois lados nos recursos tecnológicos: front-end (voltado para o cliente) e back-end (voltado para o desenvolvedor).

Métricas de tensão

Dados que, quando um conjunto ou ponto é alterado, têm impacto negativo em outros pontos de dados.

Limite

Nível ou número predefinido que, quando excedido, gera um alerta. Por exemplo, o limite para a página de login carregar pode ser de três segundos. Se a página começar a demorar mais tempo para carregar, um alerta vai ser gerado.

Cronograma

Lista abrangente de eventos, alterações, correções, resultados e quando cada um aconteceu durante um incidente.

Análise de tendência

Investigação sobre os padrões relacionados ao tempo. A análise de tendências pressupõe que os padrões passados podem prever padrões futuros nos dados. Assim, a análise de tendências se torna uma prática valiosa para a prevenção de incidentes.

Solução alternativa

Método bem-sucedido de implementar uma correção rápida que faz com que a funcionalidade do sistema volte a funcionar, mesmo se o incidente subjacente ainda não for resolvido.

Carga de trabalho

Os recursos, humanos e máquinas, necessários para entregar um serviço de TI.

Aplicativos apresentados

Jira

Confluence

Jira Service Management

Por caso de uso

Por equipe

Por tamanho

Por setor

Jira

Confluence

Jira Service Management

Por caso de uso

Por equipe

Por tamanho

Por setor

A linguagem do gerenciamento de incidentes

Glossário para equipes de gerenciamento de incidentes

Reconhecimento de incidentes

Alerta prático

Monitoramento ativo

Análise pós-ação (AAR)

Tempo de serviço acordado (AST)

Alerta de ruído

Serviços sempre disponíveis

Auditoria

Disponibilidade

Retorno

Backup

Parâmetro

Referencial

Bug

Análise de impacto dos negócios (BIA)

Capacidade

Alteração

Histórico de alterações

ChatOps

Estado encerrado

Espera fria (recuperação gradual)

Inicialização a frio

Líder de comunicação

Conformidade

Análise de impacto de falha de componentes (CFIA)

Simultaneidade

Controle

Serviço central

Contramedida

Serviço voltado para o cliente

Estrutura Cynefin

Painel

Dependência

Depreciação

Diagnóstico

Diagnóstico

Tempo de inatividade/interrupção

Alteração emergencial

Serviço de ativação

Ambiente de teste*

Ambiente de produção

Erro

Escalonamento

Evento

Relatório de exceção

Tolerância a falhas

Análise de árvore de falhas

Suporte de primeira linha

Consertar

Ativo fixo

Investigação forense

Funcional

Recuperação gradual

Espera ativa

Hotfix

Impacto

Alerta inativo

Incidente

Gerenciamento de incidente

Responsável pela gestão de incidentes

Ciclo de vida de incidentes

Métricas de E/S

Orquestração de resposta a incidentes