Close

ITSM para equipes de alta velocidade

O que é o gerenciamento de continuidade de serviços de TI?

O gerenciamento de continuidade de serviços de TI (ITSCM) é um componente essencial da prestação de serviços da ITIL. Ele foca no planejamento da prevenção de incidentes, previsão e gerenciamento, com o objetivo de manter a disponibilidade e o desempenho do serviço nos mais altos níveis antes, durante e depois de um incidente em nível de desastre.

O objetivo do ITSCM é reduzir o tempo de inatividade, os custos e o impacto dos incidentes nos negócios usando processos efetivos e padronizados para quando os incidentes inevitavelmente ocorrerem.

Porque sem um plano, existem muitos fatores que podem retardar — ou parar — a recuperação de incidentes. Afinal, o especialista de plantão pode responder com olhos cansados às 3h da madrugada. Ele pode não estar mais tão familiarizado com o código depois de trabalhar em outra coisa por semanas ou meses. Ele pode entrar em pânico com a escala do incidente em nível de desastre. Ou pode ser o membro mais novo da equipe de recuperação de desastres, sem tanta experiência na resolução de problemas.

Ter um plano claro e bem documentado para o gerenciamento de continuidade de serviços vai ajudar a minimizar qualquer atraso causando por curvas de aprendizado, tempo longe do código, pânico em relação a desastres ou alertas da meia-noite.

ITSCM e ITIL 4

Na ITIL 4, o gerenciamento de continuidade de serviços é um processo destinado a dar suporte ao gerenciamento de continuidade de negócios (BCM). O objetivo do processo é garantir que os serviços voltem a funcionar dentro dos prazos de negócios acordados após interrupções graves de serviço.

ITSCM vs. gerenciamento de incidentes

A ITIL 4 faz distinção entre o gerenciamento de incidentes— que resolve incidentes com níveis variáveis de impacto — e o ITSCM, que se trata do planejamento para desastres em larga escala.

Então, o que constitui um desastre? A resposta pode ser diferente para cada empresa, mas o Business Continuity Institute o define como "Um evento repentino não planejado que causa danos ou perdas graves à empresa. Ele faz com que a empresa não consiga oferecer funções críticas de negócios durante algum período de tempo mínimo predeterminado".

A escala do que a gente chama de desastre, o tempo mínimo predeterminado e a definição de funções críticas da empresa são três coisas que cada empresa vai precisar definir e documentar por si só.

ITSCM e gerenciamento de continuidade dos negócios (BCM)

O gerenciamento de continuidade de negócios é um processo gerenciado fora da TI que identifica riscos aos negócios e trabalha para os mitigar. Alguns riscos podem estar relacionados à TI, incluindo incidentes em nível de desastre, e outros podem estar fora do controle da TI, como desastres naturais ou incêndio nas instalações.

Como o BCM incorpora o ITSCM além de outros processos de mitigação de riscos, faz sentido as equipes de TI trabalharem junto com a equipe de BCM para criar:

  • Um plano de continuidade de negócios (BCP) que inclui planos para prevenção e recuperação de incidentes de TI em nível de desastre
  • Análises de impacto nos negócios (BIA) que identificam o possível impacto nos negócios no caso de um desastre de TI

Objetivos de ITSCM

Do ponto de vista dos negócios, o objetivo do ITSCM é reduzir o tempo de inatividade, os custos e o impacto corporativo dos incidentes em nível de desastre. Em um nível mais tático, os objetivos incluem:

  • Trabalhar junto com o BCM para proteger a continuidade geral dos negócios
  • Criar e gerenciar planos para a continuidade e recuperação dos serviços de TI em caso de desastre
  • Trabalhar com fornecedores para minimizar o impacto comercial de qualquer tempo de inatividade nos produtos e serviços
  • Analisar o risco e o impacto, além de fazer a revisar adequada dos planos ao longo do tempo

O processo de ITSCM

Aqui na Atlassian, o plano de continuidade é baseado na suposição de que o processo planejamento de desastres é contínuo, orientado para liderança e testado por completo. A gente está determinado a não prejudicar os clientes. O processo inclui planejamento, comunicação, responsabilidades definidas, teste e melhoria contínua.

Planejamento

O processo de planejamento começa com perguntas de alto nível e depois passa para a criação de um plano baseado nas respostas. As perguntas iniciais devem incluir:

  • Qual é nossa resposta a incidentes?
  • Quais são os valores que seguimos?
  • Precisamos nos planejar para quais tipos de desastre? Quais são os riscos e ameaças inerentes aos nossos negócios?
  • Para quais sistemas precisamos dar suporte? Quais são essenciais?
  • Como respondemos a cada desastre?
  • Onde estão as informações de que vamos precisar para dar suporte e restaurar os sistemas essenciais?
  • Como podemos centralizar essas informações e simplificar os processos de restauração?
  • As informações e documentações de processos são colaborativas e podem ser revisadas pelas equipes que as estão gerenciando?

Depois de obter as respostas dessas perguntas, a próxima etapa é usar elas para definir:

  • Políticas para a recuperação de desastres
  • Escopo das responsabilidades da TI
  • Escopo do impacto de cada risco aos negócios
  • Planos e processos para cada cenário de risco
  • Requisitos de documentação e pessoal

O segredo para uma fase de planejamento de ITSCM bem-sucedida é documentar e criar modelos do plano resultante para que fique claro e repetível. Ter ativos como um esquema tático de resposta a incidentes ou outros runbooks pode ser uma fonte de informações e organização para os respondentes durante um cenário de alto risco.

No espírito do ITSCM, uma solução com acesso a uma base de conhecimento integrada – como o Jira Service Management com tecnologia do Confluence – possibilita a documentação contínua, permitindo a revisão, otimização e colaboração. Dessa forma, os respondentes têm acesso à documentação de resolução anterior e recursos atualizados.

Responsabilidades definidas

Quem é responsável em caso de desastre? Quem é responsável por manter e atualizar os planos, processos e documentações? O ITSCM sempre deve ter uma noção clara das funções e responsabilidades, não apenas para os desastres, mas para o monitoramento e melhoria contínuos. Usando o Jira Service Management, os respondentes podem marcar a equipe ou a pessoa apropriada nos itens para garantir que as responsabilidades sejam delegadas de um jeito adequado e para facilitar a colaboração interdisciplinar.

Na Atlassian, parte da abordagem é ter reuniões regulares de recuperação de desastres com os engenheiros de Confiabilidade do Site e a equipe de riscos e conformidade. Eles discutem falhas da recuperação de desastres e identificam onde precisam ser feitos planos, melhorias, avaliações ou alterações adicionais.

Comunicação

A abertura é um valor principal da Atlassian e a gente acredita que quanto mais informada for a empresa sobre os planos de ITSCM, mais efetivos vão ser esses planos.

Oferecer canais de comunicação flexíveis em todo o processo de resposta a incidentes permite que as equipes mantenham contato pelo método preferido. O Jira Service Management integra vários canais de comunicação para minimizar o tempo de inatividade, como widget de status integrado, página de status dedicada, e-mail, ferramentas de bate-papo, redes sociais e SMS.

A comunicação não apenas mantém os interessados informados e ajuda a diretoria a evitar o pânico durante um incidente em nível de desastre, mas também permite que a equipe peça ajuda de outras equipes, se necessário, e mitigue o risco de atrito causado pela confusão organizacional.

Testes

Como você sabe se os planos funcionam sem testar eles? Esta é uma pergunta fundamental para o ITSCM e o motivo é que os exercícios de teste e gerenciamento de incidentes são vitais para o sucesso da prática.

O teste pode ajudar você a identificar pontos fracos do processo, problemas imprevistos e onde as equipes precisam de treinamento novo ou documentação melhorada.

Avaliar e melhorar

O ITSCM não é um processo de uma etapa só. Ele exige um planejamento cuidadoso e antecipado, além de treinamento, avaliação e melhoria contínuos. É por isso que a gente tem reuniões regulares de recuperação de desastres e que a gente testa os backups do sistema e executa testes do que acontece no caso de interrupção do data center ou falha na região do AWS. E é por esse motivo que qualquer plano bom de ITSCM tem monitoramento contínuo e está sempre em mudança.

A maioria das empresas representa os processos de ITSCM como uma série de etapas, mas a gente acha que ele é mais como um círculo. O planejamento deve levar a funções e responsabilidades definidas. A partir daí, a equipe deve se comunicar com toda a empresa, testar e testar de novo, avaliar, monitorar e melhorar e, nessas melhorias, continuar atualizando o plano, definindo melhor as funções e continuar se comunicando.

Mais uma vez, é aqui que uma base de conhecimento colaborativa e integrada entra em ação. Os artigos da base de conhecimento são um recurso valioso quando se trata de avaliação e documentação. Os relatórios post-mortem de incidentes são essenciais para revisão e reparo após um incidente, mas também podem atuar como um recurso duradouro para possíveis problemas no futuro. O Jira Service Management, com tecnologia do Confluence, proporciona uma poderosa plataforma colaborativa para executar soluções de avaliação e melhoria.

Funções e responsabilidades de ITSCM

Para poder planejar e implementar com eficiência as práticas de ITSCM em toda a empresa, muitas empresas nomeiam um Gerente de continuidade de serviços e uma Equipe de recuperação de continuidade de serviços.

Gerenciador de continuidade de serviço (SCM)

Como o próprio nome sugere, um Gerente de continuidade de serviços é responsável por supervisionar a continuidade do serviço. Essa pessoa costuma conhecer os processos de A a Z, liderando o desenvolvimento de planos, gerenciando o monitoramento contínuo e as atividades de avaliação e supervisionando os planos em ação no caso de desastres.

Essa pessoa costuma ter experiência, ser profissional de suporte técnico de nível sênior, mas pode estar em uma função de gerência e não ter envolvimento direto com a tecnologia no dia a dia.

Equipe de recuperação de continuidade de serviço

Liderada pelo SCM, esta equipe é responsável por executar testes e exercícios de incidentes e pela melhoria contínua do ITSCM. A equipe costuma incluir a equipe técnica, os profissionais de controle de qualidade ou usuários de teste e representantes dos departamentos de toda a empresa que são responsáveis por manter linhas de comunicação abertas entre o ITSCM e suas equipes.

Por que o ITSCM é importante?

As empresas com planos definidos de recuperação de desastres vão ter uma recuperação mais rápida e completa em caso de desastres.

O ITSCM não se trata de planejar para as interrupções do dia a dia. Trata-se de abordar os cenários de pior caso possível e garantir que, caso eles ocorram, causem o mínimo de interrupção na vida dos clientes e funcionários.

Aqui estão três benefícios bem definidos de uma boa prática de ITSCM:

  • Se ocorrer um desastre, um bom plano de ITSCM significa que os serviços essenciais vão voltar a funcionar logo.
  • A empresa sempre está preparada para um desastre grave e pode ter uma reação rápida e adequada.
  • Todos na empresa entendem o que vai acontecer em caso de desastre e por quanto tempo eles esperam que os sistemas fiquem inativos.

Saiba como o ITSCM melhora a qualidade do atendimento ao cliente e minimiza o tempo de inatividade organizacional com o Jira Service Management.