Close

Como manter os serviços contínuos sempre disponíveis

Como as organizações podem criar uma cultura de DevOps que ofereça suporte aos serviços contínuos

Foto de Krishna Sai
Krishna Sai

Chefe de Engenharia, Soluções de TI


A natureza dos serviços contínuos exige respostas constantes das equipes ágeis e de DevOps. Essas equipes precisam pensar além da reação a um único incidente e alinhar a estrutura, os valores e as ferramentas da equipe para garantir que a excelência operacional se torne uma competência central.

Desafios dos serviços contínuos


Desde que foi discutida pela primeira vez há 14 anos, a YBIYRI ainda desafia as equipes modernas de desenvolvimento a cumprir a promessa de acelerar o tempo de resolução e escalar as práticas operacionais recomendadas. A realidade é que muitas equipes ainda estruturam suas habilidades, cronogramas e processos no formato de reação a incidentes, em vez de criar uma base para o sucesso em longo prazo.

As equipes muitas vezes mudam para uma cultura YBIYRI sem a preparação adequada. Como resultado, o primeiro incidente grave muitas vezes acaba sendo um alerta. No entanto, a reação muitas vezes é desencadeada pelo sentimento: “a gente não pode deixar que incidentes aconteçam de novo”. Nessa tentativa, portas de segurança, pontos de verificação e outras despesas gerais processuais são implementados. Além disso, os quadros de revisão de alterações e as avaliações de lançamentos semanais fazem parte dos rituais da equipe. Cada alteração é analisada com cuidado na tentativa de evitar interrupções de serviço. Embora essas práticas diminuam os incidentes, elas podem reduzir a velocidade de desenvolvimento e o andamento do produto. Essa redução pode se tornar uma desvantagem competitiva, pois concorrentes mais ágeis podem avançar com muito mais rapidez.

Práticas recomendadas para equipes de serviços contínuos


logotipo da organização
Material relacionado

Comece gratuitamente

Ícone de troféu
ver solução

Simplifique o gerenciamento e a resposta a incidentes

Prontidão operacional

Uma das mudanças essenciais para as equipes da YBIYRI é incluir a prontidão operacional como parte dos ciclos de planejamento e execução de sprints. A prontidão operacional pode incluir:

  • Durante o desenvolvimento, a criação de alertas adequados e de alta qualidade no código que diminuam o tempo médio de detecção (MTTD) e o tempo médio de isolamento (MTTI)
  • A criação de monitores — incluindo monitores sintéticos, quando apropriado — para garantir que os serviços dependentes funcionem conforme o esperado
  • Disposição de tempo para a criação dos painéis necessários e o treinamento de todos os membros da equipe sobre o seu uso
  • A garantia de que os membros da equipe de plantão não tenham outros compromissos de desenvolvimento durante um sprint
  • Planejamento de “simulações” do serviço para garantir que os rollbacks funcionem conforme o esperado
  • Planejamento da largura de banda em sprints para finalizar ações de investigações de incidentes anteriores
  • Resolução de questões de segurança (upgrades/patches/credenciais contínuas) e operacionais como parte dos ciclos de sprint

Todas essas etapas exigem que os proprietários dos produtos entendam os objetivos de nível de serviço (SLO) e os priorizem de maneira adequada, junto com os compromissos empresariais relacionados ao desenvolvimento e à funcionalidade de recursos.

Aproveite os valores relacionados a incidentes

O aproveitamento dos valores relacionados a incidentes no nível da equipe pode criar uma base sólida para a jornada de YBIYRI. Eles orientam a equipe na resposta a incidentes. Esses valores garantem que haja uma base sólida para uma cultura sustentável em torno da criação e operação de um serviço contínuo. Os valores relacionados a incidentes são projetados para:

  • Orientar a tomada autônoma de decisões por pessoas e equipes durante incidentes e análises retrospectivas
  • Criar uma cultura de equipe consistente que inclua como identificar, gerenciar e aprender com os incidentes
  • Alinhar as equipes sobre quais atitudes devem ser tomadas em cada parte da identificação, resolução e repercussão do incidente

Um esquema tático dos Valores de Incidentes oferece um excelente guia para ajudar a identificar os valores da equipe durante a resposta a incidentes e criar um plano para aproveitar esses valores com regularidade. Ele pode ser útil se sua equipe tiver dificuldades em relação ao foco no cliente, coesão da equipe, compreensão compartilhada, níveis de serviço ou determinações de serviço no Monitor de Saúde.

Na Atlassian, adotamos os seguintes valores de incidentes no nível da equipe:

Valor da Atlassian

Estágio e valores relacionados a incidentes

Justificativa

Gráfico de uma balança equilibrando corações

Construir com o coração e equilíbrio

Identificar
A Atlassian sabe o que está acontecendo antes que os clientes saibam

Um serviço equilibrado inclui o monitoramento e alerta adequados para identificar os incidentes antes dos clientes. O melhor monitoramento informa a gente sobre os problemas antes que eles se tornem incidentes.

Gráfico da Atlassian Jersey

Jogar como uma equipe

Responder
Escalonar, escalonar, escalonar

A gente não se incomoda em acordar para resolver incidentes, mesmo que não seja necessário. Mas a gente se importa de não receber o aviso quando deveria. É possível que nem sempre as respostas estejam com a gente, então “não hesite em escalar”.

Gráfico de valor da Atlassian

Não ferre a vida do cliente

Recuperar
Problemas acontecem, resolva-os com rapidez

Os clientes não se importam com o motivo pelo qual o serviço não está funcionando, somente com a sua resolução rápida. Nunca hesite em solucionar incidentes com rapidez para que a gente minimize o impacto para os clientes.

Logotipo do touro

Empresa aberta, sem papo-furado

Aprender
Sempre sem apontar culpados

Incidentes fazem parte da execução de serviços contínuos. A gente melhora os serviços com a atribuição de responsabilidade às equipes, sem apontar culpados.

Gráfico sinalizando melhoria

Seja a mudança que você quer

Melhorar
Não deixe que o incidente se repita

Identifique a causa raiz para que a gente evite a recorrência do incidente. Realize mudanças específicas até datas específicas.

Ferramentas para uma empresa sempre ativa


Além de práticas e cultura sólidas, as empresas que executam serviços contínuos precisam das ferramentas certas. Equipes com práticas maduras de DevOps usam ferramentas para facilitar o planejamento ágil de projetos e sprints, integração contínua/implementação contínua (IC/CD), automação e recursos avançados de monitoramento e alertas.

Uma ferramenta moderna de gerenciamento de incidentes como o Opsgenie garante que você receba alertas importantes direto em canais de notificação preferidos com as menores latências. Ele também inclui o recurso de agrupamento de alertas para filtrar vários deles, em especial quando diversos alertas são gerados a partir de um único erro ou falha. Uma ferramenta de gerenciamento de alertas deve se integrar com perfeição às ferramentas da equipe (por exemplo, gerenciamento de registros, relatórios de falhas) para que ela se encaixe com naturalidade no ritmo operacional e de desenvolvimento da equipe.

Cada equipe é diferente em termos de fluxos de trabalho, políticas e partes interessadas. A ferramenta de gerenciamento de alertas deve ser capaz de personalizar cronogramas de plantão e regras de encaminhamento para lidar com alertas com base em sua origem e carga útil. Muitas vezes, os alertas podem justificar o encaminhamento para um incidente. A ferramenta deve gerenciar um incidente sem distrações, criando de maneira automática um gerenciador de incidentes. Dessa forma, é possível gerenciar o incidente de maneira detalhada, com todas as informações ao seu dispor, integrações com as ferramentas de comunicação e colaboração. Por fim, a ferramenta deve disponibilizar relatórios e análises avançadas para se obter insights sobre as áreas que estão indo bem e identificar oportunidades de melhoria. Ela deve revelar a origem dos alertas, o desempenho de respostas da equipe e como as cargas de trabalho de plantão são distribuídas.

Conclusão...


O desejo do consumidor moderno por serviços contínuos está deixando de ser um desejo e sendo cada vez mais uma necessidade. Muitas empresas adotam uma cultura de YBIYRI para desenvolver a agilidade necessária para atender a essas demandas. O desafio é que muitas empresas não estão equipadas com as ferramentas adequadas e as estruturas/práticas de equipe necessárias para acompanhar essa velocidade.

Se você está planejando mudar para uma cultura YBIYRI de DevOps para sua equipe, aqui estão algumas etapas a serem seguidas:

  • Prepare sua equipe para assumir todas as fases de desenvolvimento e operação do aplicativo ou serviço
  • Garanta o alinhamento com os proprietários do produto para que os SLOs sejam priorizados no planejamento de sprint
  • Adote um conjunto de valores de incidentes que orientam o comportamento de sua equipe na resposta a um incidente
  • Capacite sua equipe com uma ferramenta moderna de gerenciamento de alertas e incidentes, como o Opsgenie, que é confiável, rápida e flexível

Baixe o manual gratuito de gerenciamento de incidentes e comece a usar o Opsgenie grátis.

Krishna Sai
Krishna Sai

Krishna Sai é chefe de engenharia e soluções de TI da Atlassian. Ele tem mais de duas décadas de liderança em engenharia/tecnologia em várias startups e empresas, incluindo Atlassian, Groupon e Polycom. Mora em Bengaluru, na Índia e é apaixonado pelo desenvolvimento de produtos que impactam a maneira como as equipes colaboram.


Compartilhe este artigo
Próximo tópico

Leitura recomendada

Marque esses recursos para aprender sobre os tipos de equipes de DevOps ou para obter atualizações contínuas sobre DevOps na Atlassian.

Ilustração DevOps

Comunidade do DevOps

Ilustração DevOps

Workshop de simulação

Ilustração do mapa

Comece gratuitamente

Inscreva-se para receber a newsletter de DevOps

Thank you for signing up