Como o YBIYRI permite serviços sempre ativos

Como as organizações podem criar uma cultura de DevOps que ofereça suporte aos serviços contínuos

Teste o Compass grátis

Aprimore a experiência de desenvolvedor, catalogue todos os serviços e melhore a integridade do software.

A natureza dos serviços contínuos exige respostas constantes das equipes ágeis e de DevOps. Essas equipes precisam pensar além da reação a um único incidente e alinhar a estrutura, os valores e as ferramentas da equipe para garantir que a excelência operacional se torne uma competência central.

Desafios dos serviços contínuos

Desde que foi discutida pela primeira vez há 14 anos, a YBIYRI ainda desafia as equipes modernas de desenvolvimento a cumprir a promessa de acelerar o tempo de resolução e escalar as práticas operacionais recomendadas. A realidade é que muitas equipes ainda estruturam suas habilidades, cronogramas e processos no formato de reação a incidentes, em vez de criar uma base para o sucesso em longo prazo.

As equipes muitas vezes mudam para uma cultura YBIYRI sem a preparação adequada. Como resultado, o primeiro incidente grave muitas vezes acaba sendo um alerta. No entanto, a reação muitas vezes é desencadeada pelo sentimento: “a gente não pode deixar que incidentes aconteçam de novo”. Nessa tentativa, portas de segurança, pontos de verificação e outras despesas gerais processuais são implementados. Além disso, os quadros de revisão de alterações e as avaliações de lançamentos semanais fazem parte dos rituais da equipe. Cada alteração é analisada com cuidado na tentativa de evitar interrupções de serviço. Embora essas práticas diminuam os incidentes, elas podem reduzir a velocidade de desenvolvimento e o andamento do produto. Essa redução pode se tornar uma desvantagem competitiva, pois concorrentes mais ágeis podem avançar com muito mais rapidez.

Práticas recomendadas para equipes de serviços contínuos

Prontidão operacional

Uma das mudanças essenciais para as equipes da YBIYRI é incluir a prontidão operacional como parte dos ciclos de planejamento e execução de sprints. A prontidão operacional pode incluir:

Durante o desenvolvimento, a criação de alertas adequados e de alta qualidade no código que diminuam o tempo médio de detecção (MTTD) e o tempo médio de isolamento (MTTI)
A criação de monitores — incluindo monitores sintéticos, quando apropriado — para garantir que os serviços dependentes funcionem conforme o esperado
Disposição de tempo para a criação dos painéis necessários e o treinamento de todos os membros da equipe sobre o seu uso
A garantia de que os membros da equipe de plantão não tenham outros compromissos de desenvolvimento durante um sprint
Planejamento de “simulações” do serviço para garantir que os rollbacks funcionem conforme o esperado
Planejamento da largura de banda em sprints para finalizar ações de investigações de incidentes anteriores
Resolução de questões de segurança (upgrades/patches/credenciais contínuas) e operacionais como parte dos ciclos de sprint

Todas essas etapas exigem que os proprietários dos produtos entendam os objetivos de nível de serviço (SLO) e os priorizem de maneira adequada, junto com os compromissos empresariais relacionados ao desenvolvimento e à funcionalidade de funções.

Aproveite os valores relacionados a incidentes

O aproveitamento dos valores relacionados a incidentes no nível da equipe pode criar uma base sólida para a jornada de YBIYRI. Eles orientam a equipe na resposta a incidentes. Esses valores garantem que haja uma base sólida para uma cultura sustentável em torno da criação e operação de um serviço contínuo. Os valores relacionados a incidentes são projetados para:

Orientar a tomada autônoma de decisões por pessoas e equipes durante incidentes e análises retrospectivas
Criar uma cultura de equipe consistente que inclua como identificar, gerenciar e aprender com os incidentes
Alinhar as equipes sobre quais atitudes devem ser tomadas em cada parte da identificação, resolução e repercussão do incidente

Um esquema tático dos Valores de Incidentes oferece um excelente guia para ajudar a identificar os valores da equipe durante a resposta a incidentes e criar um plano para aproveitar esses valores com regularidade. Ele pode ser útil se sua equipe tiver dificuldades em relação ao foco no cliente, coesão da equipe, compreensão compartilhada, níveis de serviço ou determinações de serviço no Monitor de Saúde.

Na Atlassian, adotamos os seguintes valores de incidentes no nível da equipe:

Valor da Atlassian	Estágio e valores relacionados a incidentes	Justificativa
Construir com o coração e equilíbrio	Detecção A Atlassian sabe antes que os nossos clientes saibam	Um serviço equilibrado inclui o monitoramento e alerta adequados para identificar os incidentes antes dos clientes. O melhor monitoramento informa a gente sobre os problemas antes que eles se tornem incidentes.
Jogar como uma equipe	Responder Escalonar, escalonar, escalonar	A gente não se incomoda em acordar para resolver incidentes, mesmo que não seja necessário. Mas a gente se importa de não receber o aviso quando deveria. É possível que nem sempre as respostas estejam com a gente, então “não hesite em escalar”.
Não ferre a vida do cliente	Recuperação As coisas dão errado, conserte na hora	Os clientes não se importam com o motivo pelo qual o serviço não está funcionando, somente com a sua resolução rápida. Nunca hesite em solucionar incidentes com rapidez para que a gente minimize o impacto para os clientes.
Empresa aberta, sem papo-furado	Saiba mais Sempre sem culpa	Incidentes fazem parte da execução de serviços contínuos. A gente melhora os serviços com a atribuição de responsabilidade às equipes, sem apontar culpados.
Seja a mudança que você quer	Aprimore Não deixe que o incidente se repita	Identifique a causa raiz para que a gente evite a recorrência do incidente. Realize mudanças específicas até datas específicas.

Ferramentas para uma empresa sempre ativa

Além de práticas e cultura sólidas, as empresas que executam serviços contínuos precisam das ferramentas certas. Equipes com práticas maduras de DevOps usam ferramentas para facilitar o planejamento ágil de projetos e sprints, integração contínua/implementação contínua (IC/CD), automação e recursos avançados de monitoramento e alertas.

Uma ferramenta moderna de gerenciamento de incidentes como o Opsgenie garante que você receba alertas importantes direto em canais de notificação preferidos com as menores latências. Ele também inclui o recurso de agrupamento de alertas para filtrar vários deles, em especial quando diversos alertas são gerados a partir de um único erro ou falha. Uma ferramenta de gerenciamento de alertas deve se integrar com perfeição às ferramentas da equipe (por exemplo, gerenciamento de registros, relatórios de falhas) para que ela se encaixe com naturalidade no ritmo operacional e de desenvolvimento da equipe.

Cada equipe é diferente em termos de fluxos de trabalho, políticas e partes interessadas. A ferramenta de gerenciamento de alertas deve ser capaz de personalizar cronogramas de plantão e regras de encaminhamento para lidar com alertas com base em sua origem e carga útil. Muitas vezes, os alertas podem justificar o encaminhamento para um incidente. A ferramenta deve gerenciar um incidente sem distrações, criando de maneira automática um gerenciador de incidentes. Dessa forma, é possível gerenciar o incidente de maneira detalhada, com todas as informações ao seu dispor, integrações com as ferramentas de comunicação e colaboração. Por fim, a ferramenta deve disponibilizar relatórios e análises avançadas para se obter insights sobre as áreas que estão indo bem e identificar oportunidades de melhoria. Ela deve revelar a origem dos alertas, o desempenho de respostas da equipe e como as cargas de trabalho de plantão são distribuídas.

Conclusão...

O desejo do consumidor moderno por serviços contínuos está deixando de ser um desejo e sendo cada vez mais uma necessidade. Muitas empresas adotam uma cultura de YBIYRI para desenvolver a agilidade necessária para atender a essas demandas. O desafio é que muitas empresas não estão equipadas com as ferramentas adequadas e as estruturas/práticas de equipe necessárias para acompanhar essa velocidade.

Se você está planejando mudar para uma cultura YBIYRI de DevOps para sua equipe, aqui estão algumas etapas a serem seguidas:

Prepare sua equipe para assumir todas as fases de desenvolvimento e operação do aplicativo ou serviço
Garanta o alinhamento com os proprietários do produto para que os SLOs sejam priorizados no planejamento de sprint
Adote um conjunto de valores de incidentes que orientam o comportamento de sua equipe na resposta a um incidente
Capacite sua equipe com uma ferramenta moderna de gerenciamento de alertas e incidentes, como o Opsgenie, que é confiável, rápida e flexível

Baixe o manual gratuito de gerenciamento de incidentes e comece a usar o Opsgenie grátis.

Aplicativos apresentados

Collections da Atlassian

Por caso de uso

Por equipe

Por tamanho

Por setor

Suporte

Recursos

Jira

Confluence

Jira Service Management

Por caso de uso

Por equipe

Por tamanho

Por setor

Jira

Confluence

Jira Service Management

Por caso de uso

Por equipe

Por tamanho

Por setor

Como o YBIYRI permite serviços sempre ativos

Desafios dos serviços contínuos

Práticas recomendadas para equipes de serviços contínuos

Prontidão operacional

Aproveite os valores relacionados a incidentes

Ferramentas para uma empresa sempre ativa

Conclusão...

Recomendado para você

Comunidade de DevOps

Caminho de aprendizagem de DevOps

Comece de graça