Close

Gestione degli imprevisti per i team high velocity

MTBF, MTTR, MTTA e MTTF

Capire alcune delle metriche più comuni sugli imprevisti

Nel mondo sempre attivo di oggi, le interruzioni e gli imprevisti tecnici sono più importanti che mai. I problemi e il tempo di inattività hanno conseguenze reali: scadenze non rispettate, pagamenti tardivi, ritardi del progetto.

Ecco perché è importante che le aziende quantifichino e monitorino le metriche relative a tempo di attività, tempo di inattività e velocità ed efficacia con cui i team risolvono i problemi.

Alcune delle metriche più comunemente monitorate nel settore sono MTBF (tempo medio tra guasti), MTTR (tempo medio di ripristino, riparazione, risposta o risoluzione), MTTF (tempo medio al verificarsi di un guasto) e MTTA (tempo medio di riconoscimento); si tratta di una serie di metriche progettate per aiutare i team tecnici a capire con quale frequenza si verificano gli imprevisti e con quale rapidità il team effettua il ripristino da tali imprevisti.

Molti esperti sostengono che queste metriche non siano poi così utili da sole perché non consentono di porre domande più complesse su come vengono risolti gli imprevisti, su cosa funziona e cosa no e in che modo, quando e perché la gravità dei ticket aumenta o si riduce.

D'altra parte, MTTR, MTBF e MTTF possono rappresentare buona baseline o un punto di riferimento efficace per avviare conversazioni che conducono a domande più approfondite e importanti.

Manuale sulla gestione degli imprevisti

Come reagiscono i professionisti agli imprevisti gravi

Scarica il nostro manuale gratuito sulla gestione degli imprevisti. Scopri tutti gli strumenti e le tecniche che Atlassian utilizza per gestire gli imprevisti gravi.

Una precisazione sull'MTTR

Riguardo all'MTTR, è facile presumere che si tratti di una singola metrica con un unico significato. Tuttavia, la verità è che rappresenta potenzialmente quattro diverse misurazioni. La R può essere sinonimo di risoluzione, risposta, riparazione o ripristino e, sebbene le quattro metriche si sovrappongano, ciascuna assume una sfumatura di significato propria.

Quindi, se il tuo team sta parlando del monitoraggio dell'MTTR, è utile chiarire a quale MTTR sta facendo riferimento e in che modo lo sta definendo. Prima di iniziare a monitorare i successi e gli insuccessi, il tuo team deve essere informato esattamente su ciò che stai monitorando e assicurarsi che tutti sappiano che stanno parlando della stessa cosa.

MTBF: tempo medio tra guasti

Che cos'è il tempo medio tra guasti?

MTBF (tempo medio tra guasti) è il tempo medio tra i guasti riparabili di un prodotto tecnologico. La metrica è utilizzata per monitorare sia la disponibilità che l'affidabilità di un prodotto. Quanto maggiore è il tempo che intercorre tra i guasti, tanto più affidabile è il sistema.

L'obiettivo per la maggior parte delle aziende è mantenere il MTBF il più alto possibile, in modo che intercorrano centinaia di migliaia, o addirittura milioni, di ore tra un problema e quello successivo.

Come calcolare il tempo medio tra guasti

L'MTBF è calcolato utilizzando una media aritmetica. Fondamentalmente, vengono considerati i dati del periodo che si desidera calcolare (potrebbe essere di sei mesi, un anno, cinque anni) e dividere il tempo operativo totale di quel periodo per il numero di guasti.

Quindi, supponiamo di esaminare un periodo di 24 ore e che ci siano state due ore di tempo di inattività in due imprevisti diversi. Il nostro tempo di attività totale è di 22 ore. Diviso per due, il risultato è di 11 ore. Pertanto, il nostro MTBF è di 11 ore.

Poiché la metrica è utilizzata per monitorare l'affidabilità, l'MTBF non tiene conto del tempo di inattività previsto durante la manutenzione programmata, ma si focalizza, invece, su interruzioni e problemi imprevisti.

Le origini del tempo medio tra guasti

Il tempo medio tra guasti (MTBF) è mutuato dal settore dell'aviazione, dove i guasti dei sistemi comportano conseguenze particolarmente gravi non solo in termini di costi, ma anche di vite umane. Da allora l'inizialismo si è fatto strada in una varietà di settori tecnici e meccanici, ed è usato particolarmente spesso soprattutto nella produzione.

Come e quando utilizzare il tempo medio tra guasti

L'MTBF è utile per coloro che vogliono assicurarsi di acquistare il prodotto in assoluto migliore, pilotare l'aereo in assoluto più affidabile oppure scegliere l'attrezzatura di produzione più sicura per il proprio impianto.

Per i team interni, è una metrica che aiuta a identificare i problemi e a monitorare successi e insuccessi. Può anche aiutare le aziende a sviluppare consigli informati su quando sostituire un componente, effettuare l'upgrade di un sistema o sottoporre un prodotto a manutenzione.

L'MTBF è una metrica per i guasti nei sistemi riparabili. Per i guasti che richiedono la sostituzione del sistema, in genere le persone usano il termine MTTF (tempo medio al verificarsi di un guasto).

Un esempio è quello del motore di un'auto. Per calcolare il tempo che intercorre tra un intervento di manutenzione non programmata del motore e quello successivo, si utilizza l'MTBF, ovvero il tempo medio tra guasti. Per il calcolo del tempo che intercorre fino alla sostituzione del motore completo, bisogna utilizzare l'MTTF (tempo medio al verificarsi di un guasto).

Esempio visivo di utilizzo dell'MTBF (tempo medio tra guasti) per il calcolo del tempo tra ogni controllo o riparazione.

MTTR: tempo medio di riparazione

Che cos'è il tempo medio di riparazione?

L'MTTR (tempo medio di riparazione) è il tempo medio necessario per riparare un sistema (solitamente tecnico o meccanico). Include sia il tempo di riparazione che l'eventuale tempo dei test. L'orologio di questa metrica non si ferma finché il sistema non sarà di nuovo completamente funzionante.

Come calcolare il tempo medio di riparazione

Puoi calcolare l'MTTR sommando il tempo totale impiegato per le riparazioni in un determinato periodo e poi dividendo quel tempo per il numero di riparazioni.

Quindi, supponiamo di esaminare le riparazioni effettuate nel corso di una settimana. In quel periodo, ci sono state 10 interruzioni e i sistemi sono stati riparati attivamente per quattro ore. Quattro ore equivalgono a 240 minuti che, diviso per 10, fa 24. Ciò che significa che il tempo medio di riparazione in questo caso sarebbe di 24 minuti.

Le limitazioni del tempo medio di riparazione

Il tempo medio di riparazione non sempre equivale al tempo di interruzione del sistema stesso. In alcuni casi, le riparazioni iniziano entro pochi minuti dal verificarsi di un guasto del prodotto o di interruzione del sistema. In altri casi, è presente un intervallo di tempo tra il problema, il momento in cui viene rilevato e l'inizio delle riparazioni.

Questa metrica è molto utile per monitorare la velocità con cui il personale di manutenzione è in grado di risolvere un problema. Non ha lo scopo di identificare problemi relativi agli avvisi di sistema o i ritardi prima della riparazione, che sono entrambi fattori importanti per valutare i successi e gli insuccessi dei tuoi programmi di gestione degli imprevisti.

Come e quando utilizzare il tempo medio di riparazione

Il tempo medio di ripristino (MTTR) è una metrica utilizzata dai team di assistenza e manutenzione per monitorare le riparazioni. L'obiettivo è ridurre il più possibile questo numero aumentando l'efficienza dei processi e dei team addetti alla riparazione.

MTTR: tempo medio di ripristino

Che cos'è il tempo medio di ripristino?

L'MTTR (tempo medio di ripristino) è il tempo medio necessario per il ripristino a seguito di un guasto del prodotto o del sistema. Include tutto il tempo dell'interruzione, dal momento in cui si verifica il guasto nel sistema o nel prodotto fino al momento in cui viene ripristinata l'operatività completa di tale sistema o prodotto.

È una metrica DevOps chiave che può essere utilizzata per misurare la stabilità di un team DevOps, come osservato da DevOps Research and Assessment (DORA).

Come calcolare il tempo medio di ripristino

Il tempo medio di ripristino viene calcolato sommando tutto il tempo di inattività in un periodo specifico e dividendolo per il numero di imprevisti. Supponiamo, ad esempio, che i sistemi siano rimasti inattivi per 30 minuti per due imprevisti separati in un periodo di 24 ore. 30 diviso due fa 15, quindi il tempo medio di ripristino è di 15 minuti.

I limiti del tempo medio di ripristino

L'MTTR è una misura della velocità del processo completo di ripristino. La velocità è in linea con le tue aspettative? Come esce dal confronto con quella dei tuoi concorrenti?

Si tratta di una metrica generale che ti aiuta a capire se è presente un problema. Tuttavia, se vuoi effettuare una diagnosi della posizione in cui risiede il problema all'interno del tuo processo (si tratta di un problema relativo al sistema di avvisi? Il team impiega troppo tempo a effettuare le correzioni? Ci sono persone che impiegano troppo tempo a rispondere a una richiesta di correzione?), avrai bisogno di più dati, perché tra il guasto e il ripristino succedono tante cose.

Il problema potrebbe riguardare il tuo sistema di avvisi. È presente un ritardo tra un guasto e un avviso? Gli avvisi impiegano più tempo del dovuto per arrivare alla persona giusta?

Il problema potrebbe riguardare la diagnostica. Sei in grado di capire rapidamente qual è il problema? Ci sono processi che potrebbero essere migliorati?

Il problema potrebbe anche riguardare le riparazioni. L'efficacia dei team di manutenzione è ottimizzata? Se i team impiegano la maggior parte del proprio tempo nelle riparazioni, dov'è che sbagliano?

Per rispondere a queste domande dovrai esaminare più a fondo l'MTTR, ma il tempo medio di ripristino può fornire un punto di partenza per diagnosticare gli eventuali problemi nel processo di ripristino che richiedono un approfondimento.

Come e quando utilizzare il tempo medio di ripristino

Il tempo medio di ripristino (MTTR) è una metrica efficace per valutare la velocità del processo di ripristino complessivo.

MTTR: tempo medio di risoluzione

Che cos'è il tempo medio di risoluzione?

L'MTTR (tempo medio di risoluzione) è il tempo medio necessario per risolvere completamente un guasto. Include non solo il tempo impiegato per rilevare il guasto, diagnosticare il problema e risolverlo, ma anche il tempo impiegato per garantire che il guasto o non si ripeta.

Questa metrica estende la responsabilità del team che gestisce la correzione, impegnandolo a migliorare le prestazioni a lungo termine. È la differenza tra spegnere un incendio e spegnere un incendio e poi mettere a fuoco la tua casa.

Tra questo MTTR e la soddisfazione del cliente è presente una forte correlazione, pertanto è una metrica a cui prestare molta attenzione.

Come calcolare il tempo medio di risoluzione

Per calcolare questo MTTR, bisogna sommare il tempo di risoluzione completo per il periodo che desideri monitorare e dividerlo per il numero di imprevisti.

Quindi, se i tuoi sistemi sono rimasti inattivi per un totale di due ore in un periodo di 24 ore in un singolo imprevisto e i team hanno impiegato altre due ore ad applicare le correzioni per garantire che l'interruzione del sistema non si ripeta, le ore impiegate nella risoluzione del problema sono quattro in totale. Questo significa che l'MTTR è di quattro ore.

Una nota sul monitoraggio del tempo medio di risoluzione

Tieni presente che viene calcolato più frequentemente utilizzando l'orario lavorativo (quindi, se un giorno effettui il ripristino da un problema all'ora di chiusura e dedichi la mattina dopo alla risoluzione del problema sottostante, il tempo medio di ripristino non includerebbe le 16 ore trascorse lontano dall'ufficio). Se hai team dislocati in più sedi che lavorano 24 ore su 24 o se hai dipendenti su chiamata che lavorano oltre l'orario di ufficio, è importante stabilire come monitorare il tempo per questa metrica.

Come e quando utilizzare il tempo medio di risoluzione

L'MTTR viene in genere utilizzato per gli imprevisti non pianificati, non per le richieste di assistenza (che in genere sono pianificate).

MTTR: tempo medio di risposta

Che cos'è il tempo medio di risposta?

L'MTTR (tempo medio di risposta) è tempo medio necessario per il ripristino da un guasto di un prodotto o di un sistema dal momento in cui si riceve il primo avviso riguardante tale guasto. Non include l'eventuale ritardo del sistema di avviso utilizzato.

Come calcolare il tempo medio di risposta

Per calcolare questo MTTR è necessario sommare il tempo di risposta completo da quando si attiva l'avviso a quando il prodotto o il servizio sarà di nuovo completamente funzionante e dividere il risultato per il numero di imprevisti.

Ad esempio, se in una settimana lavorativa di 40 ore si sono verificati quattro imprevisti che hanno richiesto un'ora in totale (dall'avviso alla correzione), il tuo MTTR per quella settimana sarebbe di 15 minuti.

Come e quando utilizzare il tempo medio di risposta

Questo MTTR viene spesso utilizzato nella sicurezza informatica per misurare il successo di un team nella neutralizzazione degli attacchi al sistema.

MTTA: tempo medio di riconoscimento

Che cos'è il tempo medio di riconoscimento?

L'MTTA (tempo medio di riconoscimento) è il tempo medio impiegato dal momento in cui si attiva un avviso a quando si inizia a lavorare sul problema. Questa metrica è utile per monitorare la reattività del team e l'efficacia del sistema di avvisi.

Come calcolare il tempo medio di riconoscimento

Per calcolare l'MTTA, bisogna sommare il tempo tra l'avviso e il riconoscimento, per poi dividere il risultato per il numero di imprevisti.

Ad esempio, se si sono verificati 10 imprevisti e il tempo totale intercorso tra l'avviso e il riconoscimento è di 40 minuti per tutti e 10 gli eventi, dividi 40 per 10 e ottieni una media di quattro minuti.

Come e quando utilizzare il tempo medio di riconoscimento

Il tempo medio di riconoscimento (MTTA) è utile per monitorare la reattività. Il tuo team ha un problema di stress da avvisi e impiega troppo tempo per rispondere? Questa metrica ti aiuterà a segnalare il problema.

MTBF: tempo medio al verificarsi di un guasto

Che cos'è il tempo medio al verificarsi di un guasto?

L'MTTF (tempo medio al verificarsi di un guasto) è il tempo medio che intercorre tra i guasti non riparabili di un prodotto tecnologico. Ad esempio, se i motori delle auto di Marca X hanno una media di 500.000 ore prima che si guastino completamente e debbano essere sostituiti, l'MTTF dei motori sarebbe 500.000.

Il calcolo viene utilizzato per capire quanto tempo durerà in genere un sistema, determinare se una nuova versione di un sistema sta superando quella vecchia in termini di prestazioni e fornire ai clienti informazioni sulla durata prevista e su quando programmare i controlli sul proprio sistema.

Come calcolare il tempo medio al verificarsi di un guasto

Il tempo medio al verificarsi di un guasto è una media aritmetica che si calcola sommando il tempo operativo di tutti i prodotti presi in esame e dividendo il totale per il numero di dispositivi.

Supponiamo, ad esempio, che tu stia cercando di capire l'MTTF delle lampadine. Quanto durano in media le lampadine di Marca Y prima che si esauriscano? Supponiamo, inoltre, che tu abbia un campione di quattro lampadine da testare (per ottenere dati statisticamente significativi, sarebbe necessario un numero molto più alto, ma per finalità di calcolo anche un numero piccolo va bene).

La lampadina A dura 20 ore. La lampadina B dura 18 anni. La lampadina C dura 21. E la lampadina D dura 21 ore. Il totale è di 80 ore di funzionamento. Diviso per quattro, l'MTTF è di 20 ore.

Esempio visivo di calcolo dell'MTTF delle lampadine. L'MTTF (tempo medio al verificarsi di un guasto) è pari alle ore totali di servizio delle lampadine diviso per il numero di lampadine.

Il problema del tempo medio al verificarsi di un guasto

Con un esempio come quello delle lampadine, l'MTTF è una metrica molto utile. Possiamo far funzionare le lampadine fino a quando l'ultima non si guasta e usare queste informazioni ottenute per trarre conclusioni sulla loro resilienza.

Ma cosa succede quando misuriamo oggetti che non subiscono guasti altrettanto velocemente? Oggetti destinati a durare negli anni? In questi casi, l'MTTF, sebbene sia utilizzata spesso, non è una metrica altrettanto valida, perché invece di far funzionare un prodotto finché non si guasta, la maggior parte delle volte lo facciamo funzionare per un periodo di tempo definito e misuriamo il numero di prodotti che si guastano.

Ad esempio, supponiamo di voler ottenere statistiche MTTF sui tablet di Marca Z. I tablet dovrebbero durare molti anni, ma la Marca Z potrebbe avere a disposizione solo sei mesi per raccogliere dati e pertanto testa 100 tablet per sei mesi. Supponiamo che un tablet si guasti esattamente dopo sei mesi.

Moltiplichiamo il tempo di operatività totale (sei mesi moltiplicato per 100 tablet) e otteniamo 600 mesi. Solo un tablet non funziona, divideremmo questo valore per uno e l'MTTR sarebbe di 600 mesi, cioè di 50 anni.

I tablet Brand Z durano in media 50 anni ciascuno? È piuttosto improbabile. Quindi, in casi come questi, la metrica non fornisce dati indicativi.

Come e quando utilizzare il tempo medio al verificarsi di un guasto

L'MTTF è efficace per valutare la durata media di prodotti e sistemi con un ciclo di vita breve (ad esempio le lampadine). Inoltre, è pensato solo per i casi in cui stai valutando un guasto completo del prodotto. Se stai calcolando il tempo tra gli imprevisti che richiedono una riparazione, l'inizialismo preferito è MTBF (tempo medio tra guasti).

MTBF, MTTR, MTTF e MTTA a confronto

Qual è la misurazione migliore per il monitoraggio e il miglioramento della gestione degli imprevisti?

La risposta è: tutte.

Sebbene a volte siano utilizzate in modo intercambiabile, ogni metrica fornisce informazioni diverse. Utilizzate insieme, possono fornire un quadro più completo dei risultati ottenuti dal tuo team nella gestione degli imprevisti e delle aree di miglioramento.

Illustrazione che mostra come l'uso combinato di MTBF, MTTR, MTTA e MTTF può migliorare la gestione degli imprevisti

Il tempo medio di ripristino indica la velocità alla quale puoi rimettere in funzione i tuoi sistemi.

Aggiungi il livello del tempo medio di risposta e avrai un'idea di quanto tempo di ripristino è di pertinenza del team e di quanto, invece, è di pertinenza del tuo sistema di avvisi.

Aggiungi l'ulteriore livello del tempo medio di riparazione e inizi a vedere quanto tempo il team dedica alle riparazioni rispetto alla diagnostica.

Aggiungi all'insieme il tempo medio di risoluzione e inizierai a comprendere l'intero ambito della correzione e della risoluzione dei problemi oltre al tempo di inattività effettivamente causato.

Con il tempo medio tra guasti il quadro diventa ancora più ampio, poiché illustra in che misura il tuo team è efficace nel prevenire o ridurre i problemi futuri.

Infine, aggiungi il tempo medio al verificarsi di un guasto per comprendere l'intero ciclo di vita di un prodotto o sistema.

Jira Service Management offre funzioni di reporting che consentono al tuo team di tenere traccia dei KPI e di monitorare e ottimizzare la tua pratica di gestione degli imprevisti.

Prodotti trattati
Logo di Jira Service Management

Centralizza gli avvisi e invia notifiche alle persone giuste al momento giusto.

Prossimo contenuto
Severity levels