Close

Gerenciamento de incidentes para equipes de alta velocidade

Planos de recuperação de desastres para operações de TI e profissionais de DevOps

À medida que os serviços de TI passam de um centro de custo de reserva para gerar valor fundamental para os negócios, práticas eficazes de recuperação de desastres de TI são mais importantes do que nunca.

Quer se trate de tempo de inatividade de aplicativos, perda de dados ou até mesmo um incêndio no local, quase nunca é simples responder a esses eventos durante o desastre.

Para as pequenas empresas, a recuperação pode ser devastadora. Cerca de 40-60 por cento das pequenas empresas nunca reabrem suas portas após um desastre, de acordo com a FEMA.

O que é um plano de recuperação de desastres?

Um plano de recuperação de desastres é um conjunto documentado de práticas e procedimentos criados para proteger uma empresa e seus ativos de TI em caso de desastre. Na maioria das vezes, esse plano engloba cenários, runbooks, backups e instruções para colocar os serviços de negócios e de TI em funcionamento. É ainda mais relevante em eventos como falha do sistema, tempo de inatividade, violação de segurança ou perda de dados.

De acordo com a IBM:

"Antes da década de 1970, a maioria das empresas só tinha que se preocupar em fazer cópias de seus registros baseados em papel. O planejamento de recuperação de desastres ganhou destaque durante a década de 1970, à medida que as empresas começaram a confiar mais fortemente em operações baseadas em computador. Naquela época, a maioria dos sistemas era mainframes orientados a lotes. Outro mainframe externo pode ser carregado a partir de fitas de backup, pendente de recuperação do site primário."

Planejamento de recuperação de desastres versus planejamento de continuidade de negócios

O planejamento de recuperação de desastres é um subconjunto do planejamento de continuidade de negócios. Quando o planejamento de recuperação de desastres se concentra em fazer com que os serviços afetados sejam executados novamente o mais rápido possível, o planejamento da continuidade do negócio se concentra em garantir que a empresa possa operar ininterruptamente em caso de desastre.

A TI desempenha um papel central em ambas as práticas, quer se trate de recuperação de desastres ou continuidade de negócios.

É fácil confundir a recuperação de desastres e a continuidade dos negócios ou considerar que sejam intercambiáveis. O planejamento de recuperação de desastres busca restaurar o serviço após um incidente. A recuperação de desastres é uma parte menor do plano geral de continuidade de negócios. Um plano de continuidade de negócios foi projetado para manter a empresa funcionando antes, durante e depois de um incidente. Se a recuperação de desastres for "como terminamos com esse incidente", a continuidade dos negócios vai ser "como continuamos operando como empresa, mesmo durante um incidente".

Planejamento de recuperação de desastres vs. Gerenciamento de incidentes

Para equipes de DevOps e operações de TI, o gerenciamento de incidentes é o processo usado para responder a um evento não planejado ou a uma interrupção de serviço e restaurar o serviço ao estado operacional.

O gerenciamento de incidentes e a recuperação de desastres são frequentemente usados como sinônimos, dependendo da equipe e da empresa. O gerenciamento de incidentes também está focado em abordar incidentes em tempo real e colocar os serviços em funcionamento novamente durante o incidente.

Na Atlassian, um incidente é um evento que causa interrupção ou redução na qualidade de um serviço que requer uma resposta de emergência.

Ou, de acordo com o livro do Google sobre Engenharia de Confiabilidade do Site:

"O gerenciamento eficaz de incidentes é fundamental para limitar a interrupção causada por um incidente e restaurar as operações comerciais normais o mais rápido possível. Se você não tiver removido sua resposta a possíveis incidentes com antecedência, o gerenciamento de incidentes com princípios poderá ser perdido em situações da vida real."

O Google também recomenda incluir o gerenciamento de incidentes como parte do processo de teste de recuperação de desastres de uma empresa. Por meio do processo de resposta a incidentes, o ideal é que as ações e comunicações dos respondentes sejam registradas para criar uma linha do tempo do incidente completa que possa servir como recurso para interrupções ou incidentes relacionados futuros. Esse processo é útil para empresas que executam testes de recuperação de desastres, pois as equipes podem ter o contexto completo das operações.

Qual é o objetivo do tempo de recuperação?

O objetivo do tempo de recuperação é o período de tempo de recuperação aceitável para que uma função de negócios retome o serviço normal após uma interrupção. É bastante próximo do tempo médio para recuperação discutido na página sobre Métricas de DevOps.

Planejamento de recuperação de desastres em um mundo DevOps

Como os planos de recuperação de desastres continuam relevantes em um mundo de entrega contínua, testes automatizados e multiplicação de implantações por dia?

Em outras palavras, qual é o papel dos planos de recuperação de desastres nas empresas que praticam DevOps?

Felizmente, as duas práticas podem viver juntas e se beneficiar umas das outras. As mesmas ferramentas e processos que você usa para enviar código, desde o desenvolvimento, o teste e a produção, também podem desempenhar um papel na recuperação de desastres. Por exemplo, backups de ambientes de produção usados para testar implantações também podem ser usados para executar simulações de desastres. E os commits de códigos rastreados do pipeline de integração contínua/implementação contínua podem ser uma ferramenta útil para enfrentar mudanças recentes em um cenário de recuperação de desastres.

Não é segredo que o DevOps está cada vez mais definindo o ritmo para todas as decisões de TI na empresa. Mas essa situação não precisa implicar que o trabalho árduo colocado no plano de recuperação e recursos seja desperdiçado, ou que seu plano de recuperação de desastres vai ficar na prateleira empoeirando.

Saiba mais sobre a solução de gerenciamento de incidentes da Atlassian, o Jira Service Management, e descubra como essa solução permite que as equipes de desenvolvimento e operações possam ter flexibilidade para trabalharem juntas — seja resolvendo incidentes ou no modo de recuperação de desastres.