Close

Garantire il corretto funzionamento dei servizi sempre attivi

Come le organizzazioni possono creare una cultura DevOps in grado di supportare i servizi sempre attivi

Headshot of Krishna Sai
Krishna Sai

Head of Engineering, IT Solutions


La natura dei servizi sempre attivi richiede una risposta continua da parte dei team Agile e DevOps. Questi team devono superare la reazione ai singoli imprevisti e allineare la loro struttura e i loro valori e strumenti per garantire che l'eccellenza operativa diventi una competenza fondamentale.

Le sfide dei servizi sempre attivi


Da quando è stata illustrata per la prima volta 14 anni fa, la pratica YBIYRI mette ancora a dura prova i moderni team di sviluppo che si impegnano per mantenere la promessa di accelerazione dei tempi di risoluzione e di ridimensionamento delle best practice operative. Sfortunatamente, molti team continuano a strutturare le proprie competenze e i propri programmi e processi come una reazione agli imprevisti invece che come base per il successo a lungo termine.

I team spesso passano alla cultura YBIYRI senza un'adeguata preparazione e il primo imprevisto importante spesso finisce per essere un campanello d'allarme. Tuttavia, la reazione è spesso innescata dall'impulso di non dover lasciare che gli imprevisti si ripetano in futuro. Nel tentativo di raggiungere questo scopo, vengono introdotti controlli di sicurezza, punti di controllo e altri sovraccarichi procedurali. Inoltre, entrano a far parte dei rituali del team anche le board di revisione delle modifiche e le revisioni settimanali dei rilasci. Ogni modifica viene esaminata attentamente nel tentativo di prevenire interruzioni. Sebbene si traduca spesso in una riduzione degli imprevisti, ciò potrebbe anche rallentare la velocity di sviluppo e lo slancio del prodotto e trasformarsi quindi in un punto debole in termini di competitività sul mercato, poiché i concorrenti più agili saranno in grado di muoversi molto più velocemente.

Team best practices for always-on services


logo dell'organizzazione
materiale correlato

Inizia gratis

Icona di trofeo
scopri la soluzione

Semplifica la risposta e la gestione degli imprevisti

Prontezza operativa

Uno dei cambiamenti critici per i team YBIYRI è quello di includere la prontezza operativa come parte della pianificazione dello sprint e dei cicli di esecuzione. La prontezza operativa può comprendere gli aspetti seguenti:

  • Creare, in fase di sviluppo, avvisi appropriati e di alta qualità nel codice che riducono al minimo il tempo medio di rilevamento (MTTD) e il tempo medio di isolamento (MTTI)
  • Creare monitor, compresi quelli sintetici se necessario, per garantire che i servizi dipendenti funzionino come previsto
  • Allocare tempo alla creazione delle dashboard necessarie e alla formazione di tutti i membri del team sul loro utilizzo
  • Assicurarsi che i membri del team reperibili su chiamata non abbiano altri impegni di sviluppo durante uno sprint
  • Pianificare strategie di azione per il servizio per garantire il corretto funzionamento dei rollback
  • Pianificare le risorse negli sprint per portare a termine le azioni emerse dalle precedenti revisioni degli imprevisti
  • Gestire i ticket di sicurezza (upgrade/patch/rotazione delle credenziali) e operativi nell'ambito dei cicli degli sprint

Tutto ciò presuppone la conoscenza degli obiettivi di livello di servizio (SLO) da parte degli owner di prodotto, che devono inoltre assegnarvi le giuste priorità mantenendo al contempo gli impegni aziendali di sviluppo delle funzioni e delle funzionalità.

Adottare i valori dell'imprevisto

L'adozione dei valori dell'imprevisto a livello di team può creare una solida base per il percorso YBIYRI del team. I valori dell'imprevisto guidano il team nel processo di risposta agli imprevisti e assicurano che vi siano solide basi per una cultura sostenibile relativa alla creazione e alla gestione dei servizi sempre attivi. I valori dell'imprevisto sono progettati per:

  • Guidare il processo decisionale autonomo di singoli e team in caso di imprevisti e analisi retrospettive
  • Creare una cultura del team coerente che includa procedure per identificare, gestire e imparare dagli imprevisti
  • Allineare i team sulla mentalità di cui devono dare prova in ogni fase dell'identificazione e della risoluzione degli imprevisti e della successiva riflessione critica

Il playbook Valori dell'imprevisto guida in modo eccellente i team all'identificazione dei propri valori durante la risposta agli imprevisti e alla creazione di un piano per metterli in pratica in modo coerente. Può essere utile se il team riscontra difficoltà con i concetti di centralità del cliente e di coesione tra i membri del team oppure con le conoscenze condivise, i livelli di servizio o i mandati di servizio su Controllo salute.

In Atlassian, adottiamo i seguenti valori dell'imprevisto a livello di team:

Valore Atlassian

Fase e Valori dell'imprevisto

Motivazione

Immagine di cuori in equilibrio su una bilancia

Crea con passione ed equilibrio

Rilevare
Atlassian è a conoscenza degli imprevisti prima dei clienti

Un servizio bilanciato include strumenti di monitoraggio e notifica sufficienti a rilevare gli imprevisti prima che lo facciano i nostri clienti. Lo strumento di monitoraggio migliore ci avvisa dei problemi prima ancora che diventino imprevisti.

Immagine della casacca Atlassian

Fai il gioco di squadra

Rispondere
Esegui l'escalation, l'escalation, l'escalation

Non importa se veniamo svegliati per un imprevisto, anche se poi risulta che il nostro intervento non è necessario. Ma di sicuro ci importa se non veniamo svegliati quando sarebbe invece stato necessario. Potremmo non avere sempre tutte le risposte, quindi "non esitare a eseguire l'escalation".

Immagine del valore Atlassian

Non #@!% il cliente

Ripristinare
I guai capitano, l'importante è fare presto a rimediare

Ai nostri clienti non interessa sapere perché il loro servizio non funziona, ma solo che lo ripristiniamo il più velocemente possibile. Non esitare mai a risolvere rapidamente un imprevisto in modo da ridurre al minimo l'impatto sui nostri clienti.

Logo di toro sbarrato

Promuovi un'azienda aperta, non solo a parole

Imparare
Non si accusa mai nessuno

Gli imprevisti fanno parte della normale gestione dei servizi sempre attivi. Noi miglioriamo i nostri servizi responsabilizzando i team, non addossando colpe.

Immagine di segnale per il miglioramento

Avvia il cambiamento, iniziando da te

Migliorare
Mai incorrere due volte nello stesso imprevisto

Identifica la causa principale in modo da evitare che l'imprevisto si ripeta. Impegnati a implementare modifiche specifiche entro precise scadenze.

Tools for an always-on enterprise


In addition to strong practices and culture, companies running always-on services need the right tools. Teams with mature DevOps practices use tools to facilitate agile project planning and sprintsCI/CDautomation, and advanced monitoring and alerting capabilities. 

A modern incident management tool like Opsgenie ensures you receive important alerts delivered to your preferred notification channel(s) with the lowest latencies. It also includes the ability to group alerts to filter numerous alerts, especially when several alerts are generated from a single error or failure. An alert management tool must seamlessly integrate with your team’s tools (e.g., log management, crash reporting) so that it naturally fits into your team’s development and operational rhythm.

Each team is different in terms of workflows, policies, and stakeholders. The alert management tool must be able to customize on-call schedules and routing rules to handle alerts based on their source and payload. Often the alerts may warrant an escalation to an incident. The tool should manage an incident without distractions by automatically creating an incident manager. This allows you to manage the incident like a war room with all the information handy, with integrations to communication and collaboration tools. Finally, the tool must provide advanced reporting and analytics to gain insight into areas of success and identify opportunities for improvement. It should reveal the sources of alerts, the team’s performance in responding, and how on-call workloads are distributed.

In conclusion...


The modern consumer's desire for always-on services has become less of a want and more of a need. Many companies adopt a YBIYRI culture to develop the agility required to satisfy these demands. The challenge is that many companies aren’t equipped with the appropriate tools and necessary team structures/practices to sustain this velocity.

If you are planning to shift to a YBIYRI DevOps culture for your team, here are some steps to take: 

  • Prepare your team to own all phases of development and operation of the application or service
  • Ensure alignment with product owners so that SLOs are prioritized in sprint planning
  • Embrace a set of incident values that guide the behavior of your team in response to an incident
  • Empower your team with a modern alert and incident management tool like Opsgenie, which is reliable, fast, and flexible

Download our free incident management handbook and get started with Opsgenie for free

Krishna Sai
Krishna Sai

Krishna Sai è Head of Engineering, IT Solutions presso Atlassian. Ha oltre 20 anni di esperienza di leadership nella progettazione/tecnologia in diverse startup e aziende, tra cui Atlassian, Groupon e Polycom. Risiede a Bangalore, in India, e lo appassiona sviluppare prodotti che migliorano il modo di collaborare dei team.


Condividi l'articolo
Argomento successivo

Letture consigliate

Aggiungi ai preferiti queste risorse per ricevere informazioni sui tipi di team DevOps e aggiornamenti continui su DevOps in Atlassian.

Illustrazione su Devops

Community DevOps

Illustrazione su Devops

Workshop di simulazione

Illustrazione di una mappa

Inizia gratis

Iscriviti alla nostra newsletter DevOps

Thank you for signing up