Le funzionalitร  di avviso e di chiamata di Opsgenie sono ora disponibili in Jira Service Management e Compass. Esegui la migrazione dei dati e delle configurazioni di Opsgenie esistenti prima del 5 aprile 2027 utilizzando il nostro strumento di migrazione automatica.Scopri di piรน

Processo di analisi retrospettiva degli imprevisti: monitora, documenta e migliora

PUNTI CHIAVE

  • Le analisi retrospettive degli imprevisti aiutano i team a capire cosa รจ successo, perchรฉ รจ successo e cosa deve cambiare per evitare che i problemi si ripetano.

  • Utilizzando Jira Service Management, Confluence e Jira insieme si crea un flusso di lavoro connesso per risposta, documentazione e follow-up.

  • Un modello di analisi retrospettiva coerente rende piรน facile documentare e confrontare l'analisi degli imprevisti e usarle come punto di partenza per apprendere nel tempo.

  • Trasformare le azioni correttive in ticket Jira con responsabili e scadenze aiuta i team a partire dalle lezioni apprese e farle diventare miglioramenti reali.ย 

Quando qualcosa non va per il verso giusto durante la fase di produzione, la correzione รจ solo l'inizio. รˆ altrettanto importante capire perchรฉ รจ successo e assicurarsi che non succeda di nuovo allo stesso modo.ย 

Un'analisi retrospettiva degli imprevisti รจ un esame strutturato dell'imprevisto dall'inizio alla fine, che include cosa non ha funzionato, come ha reagito il team e cosa occorre cambiare andando avanti.

Con un modello di piano di risposta agli imprevisti che guida il processo, il tuo team puรฒ documentare ogni imprevisto in modo coerente, cosรฌ che nulla di importante vada perso e che ogni analisi porti a miglioramenti reali.

Come funziona: gestione degli imprevisti e acquisizione delle analisi retrospettive

Una buona gestione degli imprevisti non significa solo intervenire per risolvere i problemi. Significa realizzare un sistema in cui ogni imprevisto contribuisca a migliorare i processi, gli strumenti e la preparazione per la volta successiva. Utilizzando Jira Service Management, Confluence e Jira insieme, il tuo team ottiene un flusso di lavoro connesso che copre l'intero ciclo di vita della risposta agli imprevisti, dal momento in cui viene attivato un avviso fino all'analisi retrospettiva e al lavoro di follow-up.ย 

Questo approccio mantiene una documentazione coerente tra gli imprevisti e stabilisce una chiara catena di responsabilitร . I dettagli degli imprevisti non sono piรน sparsi nei messaggi Slack, nelle e-mail o nella memoria di qualcuno, ma si trovano in un unico ecosistema connesso dove possono essere esaminati, consultati e usati per agire. Questa coerenza significa anche che il modello del piano di risposta agli imprevisti rimane centrale nel processo anzichรฉ essere qualcosa che il team compila quando ne ha il tempo.ย 

Ecco come si articola ogni fase del processo:

Gestisci l'imprevisto in Jira Service Management

Jira Service Management รจ il punto di partenza della risposta agli imprevisti. Non appena arriva un ticket, registralo nel log di JSM, definisci il livello di gravitร  e assegna le persone che devono rispondere.ย 

Durante l'imprevisto, i team possono usare JSM per:

  • Monitorare le azioni, le decisioni e le escalation in tempo reale.

  • Mantenere un registro chiaro di chi รจ stato coinvolto e cosa รจ cambiato.

  • Acquisire i dettagli che successivamente supporteranno l'analisi retrospettiva.

  • Tenere informata la dirigenza senza interrompere chi risponde.

Poichรฉ JSM si integra con Confluence e Jira, i dati raccolti durante l'imprevisto possono confluire direttamente nella documentazione dell'analisi retrospettiva e nel lavoro di follow-up. Per i team che utilizzano JSM come parte di una configurazione di software ITSM piรน ampia, i dati degli imprevisti contribuiscono anche al quadro piรน ampio della gestione dei servizi.

JSM supporta anche una solida comunicazione degli imprevisti durante l'intero processo di risposta aiutando i team a:

  • Tenere aggiornati i clienti, i team di assistenza e gli stakeholder.

  • Ridurre la confusione quando ci sono imprevisti attivi.

  • Fornire visibilitร  su stato e impatto.

  • Comunicare in modo piรน chiaro durante gli eventi dalla gravitร  elevata o gli scenari di gestione delle crisi.

Quando l'imprevisto sarร  stato risolto, il team avrร  giร  una documentazione dettagliata di come si รจ svolto, il che rende l'analisi retrospettiva piรน facile da documentare e piรน utile per miglioramenti futuri.

Acquisisci l'analisi retrospettiva in Confluence

Dopo la risoluzione, documenta l'imprevisto mentre i dettagli sono ancora freschi. L'ideale sarebbe entro 24-48 ore. Piรน aspetti, piรน il contesto si perde e meno utile diventa l'analisi retrospettiva.ย 

Crea una pagina Confluence dedicata utilizzando un modello dell'analisi retrospettiva degli imprevisti e lavora su ogni sezione: timeline, analisi della causa principale, valutazione dell'impatto e lezioni apprese. Il modello di risposta agli imprevisti incluso in questa pagina fornisce un framework completo che il tuo team puรฒ copiare e compilare per ogni nuovo imprevisto, cosรฌ non dovrai capire cosa documentare ogni volta da zero.

La conservazione dell'analisi retrospettiva in Confluence offre diversi vantaggi pratici:

  • Visibilitร  a livello di team: chiunque, dal team di progettazione alla dirigenza, puรฒ esaminare ciรฒ che รจ successo senza bisogno di rintracciare la persona reperibile per avere un riassunto verbale.

  • Identificazione dei pattern: quando ogni imprevisto viene documentato nello stesso formato, diventa molto piรน facile individuare i problemi ricorrenti e i punti deboli a livello di sistema nei vari trimestri.

  • Documentazione senza colpe: un modello strutturato di risposta agli imprevisti mantiene il fulcro della conversazione sui sistemi e sui processi, senza puntare il dito su qualcuno, il che produce report piรน onesti e utili.

  • Inserimento piรน rapido per i neoassunti: i nuovi membri del team possono esaminare le analisi retrospettive passate per capire come si comportano i sistemi quando sono sotto pressione e cosa ha giร  imparato il team dagli imprevisti precedenti.

Per una guida piรน approfondita su come condurre analisi retrospettive produttive, consulta il nostro manuale per le analisi retrospettive degli imprevisti.

Monitora i follow-up come ticket Jira

Un'analisi retrospettiva รจ utile solo quanto l'azione che genera. Ogni azione correttiva e problema ricorrente che si identifica durante l'analisi dovrebbe essere convertito in un ticket Jira con un responsabile chiaro e una scadenza.ย 

Questo รจ il passaggio che distingue i team che migliorano davvero da quelli che continuano a imbattersi negli stessi problemi. Quando le azioni correttive sono gestite come ticket tracciabili in Jira, i manager possono monitorare i progressi e i team possono ritenersi reciprocamente responsabili del completamento dei miglioramenti concordati. Questo passaggio, inoltre, aiuta nella definizione delle prioritร . Quando il lavoro basato sugli imprevisti va di pari passo con il resto del backlog, รจ piรน facile valutarlo rispetto ad altre prioritร  piuttosto che lasciarlo finire silenziosamente in fondo all'elenco.

I giusti strumenti di gestione degli imprevisti collegano l'intero flusso di lavoro dall'inizio alla fine. Quando i sistemi di risposta, documentazione e follow-up sono integrati, il divario tra rilevare un problema ed evitare che si ripeta si riduce notevolmente.

Modello di risposta agli imprevisti

Di seguito รจ riportato un modello di piano di risposta agli imprevisti che il tuo team puรฒ copiare e adattare per ogni nuovo imprevisto. Illustra ogni fase di un'analisi retrospettiva, dal riepilogo iniziale e dalla timeline fino all'analisi della causa principale, alle lezioni apprese e alle azioni correttive. L'utilizzo di una struttura coerente per ogni imprevisto garantisce che nulla venga trascurato e che le analisi retrospettive siano facili da confrontare nel tempo.

Gli esempi nel modello sono un punto di partenza, non uno script da seguire alla lettera. Adatta il linguaggio e il livello di dettaglio per rispecchiare il modo in cui opera la tua organizzazione. L'obiettivo รจ documentare un contesto sufficiente perchรฉ chiunque legga l'analisi retrospettiva nei mesi successivi possa capire esattamente cosa รจ accaduto e cosa ha fatto il team al riguardo.

Riepilogo dell'imprevisto

Scrivi un riepilogo dell'imprevisto in poche frasi. Includi ciรฒ che รจ successo, il perchรฉ, il livello di gravitร  dell'imprevisto e la durata dell'impatto.

ESEMPIO:

Nella fascia oraria {time range of incident, e.g. 15:45 and 16:35}ย del giorno {DATE}, {NUMBER}ย gli utenti hanno riscontrato {EVENT SYMPTOMS}.ย 

L'evento รจ stato attivato da {CHANGE}ย alle ore {TIME OF CHANGE THAT CAUSED THE EVENT}.ย 

{CHANGE}ย conteneva {DESCRIPTION OF OR REASON FOR THE CHANGE, such as a change in code to update a system}.ย 

Un bug in questo codice ha causato {DESCRIPTION OF THE PROBLEM}.ย 

L'evento รจ stato rilevato da {MONITORING SYSTEM}. Il team ha iniziato a lavorare sull'evento intervenendo in questo modo: {RESOLUTION ACTIONS TAKEN}.

Questo imprevisto {SEVERITY LEVEL}ย ha interessato il {X%}ย degli utenti.

Si รจ avuto un ulteriore impatto, come notato dalle segnalazioni di {e.g. NUMBER OF SUPPORT TICKETS SUBMITTED, SOCIAL MEDIA MENTIONS, CALLS TO ACCOUNT MANAGERS}ย in relazione a questo imprevisto.ย 

Avvisaglie

Descrivi la successione di eventi che hanno portato all'imprevisto, ad esempio le modifiche precedenti che hanno introdotto bug non ancora rilevati.

ESEMPIO:

Alle ore {16:00}ย del giorno {MM/DD/YY}, ({AMOUNT OF TIME BEFORE CUSTOMER IMPACT, e.g. 10 days before the incident in question}), รจ stata introdotta una modifica a {PRODUCT OR SERVICE}ย  al fine di {THE CHANGES THAT LED TO THE INCIDENT}.ย 

Questa modifica ha prodottoย  {DESCRIPTION OF THE IMPACT OF THE CHANGE}.

Guasto

Descrivi in che modo la modifica implementata non ha avuto i risultati previsti. Se possibile, allega screenshot delle visualizzazioni dei dati pertinenti in cui รจ illustrato l'errore.

ESEMPIO:

{NUMBER}ย risposte sono state inviate per errore al {XX%}ย delle richieste. Questo รจ andato avanti per {TIME PERIOD}.

Impatto

Descrivi l'impatto che l'imprevisto ha avuto sugli utenti interni ed esterni. Includi quanti casi di assistenza sono stati aperti.

ESEMPIO:

Per {XXhrs XX minutes}ย nell'intervallo di tempo {XX:XX UTC and XX:XX UTC}ย del giorno {MM/DD/YY}, {SUMMARY OF INCIDENT}ย i nostri utenti hanno subito questo imprevisto.

Questo imprevisto ha interessato {XX}ย clienti (X% DI UTENTI DIย {SYSTEM OR SERVICE}), che hanno riscontrato {DESCRIPTION OF SYMPTOMS}.

Sono stati inviatiย {XX NUMBER OF SUPPORT TICKETS AND XX NUMBER OF SOCIAL MEDIA POSTS}.

Rilevamento

Quando il team ha rilevato l'imprevisto? Come se n'รจ accorto? In che modo รจ possibile migliorare il tempo di rilevamento? Rifletti: come avremmo potuto dimezzare questo tempo?

ESEMPIO:

L'imprevisto รจ stato rilevato quando {ALERT TYPE}ย รจ stato attivato e sono stati chiamatiย {TEAM/PERSON}.ย 

In seguito, รจ stato contattato {SECONDARY PERSON}ย perchรฉ {FIRST PERSON}ย non era responsabile del servizio di scrittura su disco e questo ha ritardato la risposta di {XX MINUTES/HOURS}.

{DESCRIBE THE IMPROVEMENT}ย verrร  impostato da {TEAM OWNER OF THE IMPROVEMENT}ย in modo che {EXPECTED IMPROVEMENT}.

Risposta

Chi ha risposto all'imprevisto? Quando ha risposto e cosa ha fatto? Annota eventuali ostacoli o ritardi della risposta.

ESEMPIO:

Dopo essere stato contattato alle ore {XX:XX UTC}, {ON-CALL ENGINEER}ย si รจ collegato alle ore {XX:XX UTC}ย in {SYSTEM WHERE INCIDENT INFO IS CAPTURED}.ย 

Il tecnico non aveva conoscenze pregresse su {AFFECTED SYSTEM},ย quindi รจ stato inviato un secondo avviso alle ore {XX:XX UTC}ย a {ESCALATIONS ON-CALL ENGINEER},ย che รจ arrivato alle ore {XX:XX UTC}.

Ripristino

Descrivi in che modo รจ stato ripristinato il servizio ed รจ stato ritenuto concluso l'imprevisto. Esponi nei dettagli come hai ripristinato il corretto funzionamento del sistema e come sapevi quali passaggi seguire per farlo.ย 

A seconda dello scenario, considera queste domande: In che modo รจ possibile migliorare il tempo di mitigazione? e Come avremmo potuto dimezzare questo tempo?

ESEMPIO:

Abbiamo utilizzato un triplice approccio al ripristino del sistema:ย 

{DESCRIBE THE ACTION THAT MITIGATED THE ISSUE, WHY IT WAS TAKEN, AND THE OUTCOME}ย 

Esempio: incrementando la capacitร  di BuildEng EC3 ASG per aumentare il numero di nodi disponibili a supportare il carico di lavoro e ridurre le probabilitร  di pianificazione dei processi su nodi sovraccarichi

  • Disattivazione del servizio automatico di scalabilitร  Escalator per impedire che il cluster si ridimensioni eccessivamente

  • Ripristino del programma di pianificazione Build Engineering alla versione precedente.

Timeline

Descrivi nei dettagli la timeline dell'imprevisto. Consigliamo di utilizzare il fuso orario UTC come standard.

Includi eventuali eventi importanti precedenti all'evento, gli avvii delle attivitร , il primo impatto noto e le escalation. Annota le decisioni prese o le modifiche apportate e l'ora di fine dell'imprevisto, oltre agli eventuali eventi successivi all'impatto degni di nota.ย 

ESEMPIO:

Tutti gli orari sono UTC.

11:48 - Upgrade a K8S 1.9 del piano di controllo terminatoย 

12:46 - Upgrade alla V1.9 completato, incluse le istanze del servizio automatico di scalabilitร  cluster e del servizio di programmazione BuildEngย 

14:20 - L'ingegnere della build segnala un problema a KITT Disturbed

14:27 - KITT Disturbed inizia a indagare sui guasti di una specifica istanza EC2 (ip-203-153-8-204)ย 

14:42 - KITT Disturbed isola il nodoย 

14:49 - BuildEng segnala che il problema interessa piรน di un solo nodo. 86 istanze del problema mostrano che gli errori sono piรน sistemiciย 

15:00 - KITT Disturbed suggerisce di passare allo scheduler standardย 

15:34 - BuildEng segnala che 200 pod hanno avuto esito negativoย 

16:00 - BuildEng blocca tutte le build non riuscite con report OutOfCPUย 

16:13 - BuildEng segnala che gli errori sono costantemente ricorrenti con le nuove build e non sono stati solo transitori.ย 

16:30 - KITT riconosce gli errori come imprevisto e li gestisce di conseguenza.ย 

16:36 - KITT disattiva il servizio automatico di scalabilitร  Escalator per evitare che esso rimuova risorse di elaborazione per limitare il problema.

16:40 - KITT conferma che ASG รจ stabile, il carico del cluster รจ normale e l'impatto sui clienti รจ risolto.

MODELLO:

XX:XX UTC - ATTIVITร€ RELATIVA ALL'IMPREVISTO; AZIONI INTRAPRESE

XX:XX UTC - ATTIVITร€ RELATIVA ALL'IMPREVISTO; AZIONI INTRAPRESE

XX:XX UTC - ATTIVITร€ RELATIVA ALL'IMPREVISTO; AZIONI INTRAPRESE

Identificazione della causa primaria: I cinque perchรฉ

I 5 perchรฉ sono una tecnica di identificazione della causa primaria. Ecco come puoi usarla:

  • Inizia con una descrizione dell'impatto e chiediti perchรฉ si รจ verificato.ย 

  • Prendi nota dell'impatto.ย ย 

  • Chiediti perchรฉ รจ successo e perchรฉ ha avuto l'impatto che ne รจ derivato.ย 

  • Continua a chiederti perchรฉ fino ad arrivare alla causa primaria.

Elenca i "perchรฉ" nella documentazione dell'analisi retrospettiva.

ESEMPIO:

  1. L'applicazione ha avuto un'interruzione perchรฉ il database era bloccato

  2. Il database รจ bloccato perchรฉ c'erano troppe scritture al suo interno

  3. Perchรฉ abbiamo introdotto una modifica al servizio e non ci aspettavamo scritture elevate

  4. Perchรฉ non abbiamo un processo di sviluppo stabilito per le modifiche ai test di carico

  5. Perchรฉ non abbiamo mai ritenuto necessario eseguire il test di carico fino a quando non abbiamo raggiunto questo livello di scala.

Causa radice

Annota la causa primaria definitiva dell'imprevisto, ovvero ciรฒ che deve cambiare per impedire che questa categoria di imprevisto si ripresenti.

ESEMPIO:

Un bug in

Controllo del backlog

Rivedi il backlog di progettazione per verificare se c'era del lavoro non pianificato che avrebbe potuto impedire questo imprevisto o almeno ridurne l'impatto.ย 

Una valutazione onesta del backlog aiuta a chiarire le passate decisioni in merito a prioritร  e rischi.

ESEMPIO:

Nessun elemento specifico nel backlog che avrebbe potuto migliorare questo servizio. C'รจ una nota sui miglioramenti della tipizzazione del flusso e questi erano task noti in via di sviluppo con propri flussi di lavoro.ย ย 

Sono stati inviati dei ticket relativi al miglioramento dei test di integrazione che finora non hanno avuto successo.

Ricorrenza

Ora che conosci la causa primaria, puoi esaminare gli imprevisti passati e verificare se hanno la stessa causa primaria? Se la risposta รจ sรฌ, annota la mitigazione tentata per questi imprevisti e chiedi perchรฉ l'imprevisto si รจ verificato di nuovo.

ESEMPIO:

Questa stessa causa primaria ha causato gli imprevisti HOT-13432, HOT-14932 e HOT-19452.

Lezioni apprese

Discuti di cosa รจ andato bene nel processo di risposta agli imprevisti, di cosa poteva essere migliorato e delle opportunitร  di miglioramento.

ESEMPIO:

  • Occorre un test unitario per verificare che il limitatore di velocitร  del lavoro sia stato sottoposto a corretta manutenzione

  • I carichi di lavoro delle operazioni di massa atipiche rispetto al normale funzionamento dovrebbero essere rivisti

  • Le operazioni di massa devono iniziare progressivamente ed essere monitorate, aumentandole quando le metriche del servizio sembrano mantenersi su valori nominali

Azioni correttive

Descrivi l'azione correttiva stabilita per impedire che questa categoria di imprevisti si verifichi in futuro. Annota chi รจ il responsabile, quando deve completare il lavoro e dove tale lavoro viene monitorato.

ESEMPIO:

  1. Posto temporaneamente in atto un limite di velocitร  del servizio automatico di scalabilitร  per limitare gli errori

  2. Test unitario e reintroduzione della limitazione di velocitร  del lavoro

  3. Introduzione di un meccanismo secondario per raccogliere le informazioni di velocitร  distribuite sul cluster per guidare gli effetti di scalabilitร 

Consigliata per te

Tutorial

Scopri di piรน sulla comunicazione degli imprevisti con Statuspage

In questo tutorial, ti mostreremo come utilizzare i modelli di imprevisti per comunicare in modo efficace durante le interruzioni. Puoi adattarlo a molti tipi di interruzione del servizio.

Scopri di piรน sulla gestione degli imprevisti

Trova altre guide e risorse per la gestione degli imprevisti in questo hub.

L'importanza del processo di analisi retrospettiva degli imprevisti

L'analisi retrospettiva degli imprevisti, nota anche come revisione post-imprevisto, รจ il modo migliore per esaminare ciรฒ che รจ avvenuto durante un imprevisto e fissare le lezioni apprese.