Close

Gestione degli imprevisti per i team high velocity

Cos'è il sistema di avviso di imprevisti IT?

Gli avvisi relativi agli imprevisti si verificano quando gli strumenti di monitoraggio generano avvisi per segnalare al tuo team variazioni, azioni ad alto rischio o guasti nell'ambiente IT.

Ad esempio, un sistema creato per consentire ai medici di prescrivere farmaci può generare un avviso se la dose richiesta dal medico è insolitamente elevata, non corrisponde al peso corporeo indicato nella cartella del paziente o presenta un rischio di interazione farmacologica con altri farmaci comuni.

Allo stesso modo, un sistema creato per monitorare un prodotto tecnologico può generare un avviso se un sistema va offline, le richieste web impiegano più tempo del solito per l'elaborazione o la latenza del database rallenta oltre una soglia prestabilita.

L'obiettivo degli avvisi IT è identificare e risolvere rapidamente i problemi che influiscono sui tempi di attività, sulla velocità e sulla funzionalità del prodotto, 24 ore su 24 e senza monitoraggio manuale.

Perché il sistema di avviso IT è importante?

Man mano che diventa sempre più importante avere sistemi sempre attivi, aumenta anche il costo dei tempi di inattività, con gli esperti che stimano un costo medio compreso tra 5.600 e 9.000 dollari al minuto. Visto che ogni minuto di errore del sistema è così costoso, identificare i problemi prima che sfuggano di mano ha un grande impatto sui profitti aziendali (per non parlare degli orari e dei livelli di stress dei team IT).

Gli avvisi IT sono la prima linea di difesa contro le interruzioni del sistema o le modifiche che possono trasformarsi in imprevisti gravi. Monitorando automaticamente i sistemi e generando avvisi in caso di interruzioni e modifiche rischiose, i team IT possono ridurre al minimo i tempi di inattività e i costi elevati che ne derivano.

Procedure consigliate per il sistema di avviso

Gli avvisi IT sono innegabilmente una parte importante della gestione degli imprevisti, ma la verità è che non sono solo una soluzione semplice che puoi impostare e poi dimenticare. L'impostazione di soglie di avviso troppo basse può portare all'intasamento delle caselle di posta traboccanti, all'insoddisfazione dei team su chiamata e allo stress da avvisi. Impostare soglie troppo alte, al contrario, può portare a trascurare problemi critici che costano milioni all'azienda.

Ecco perché i sistemi di avviso IT più efficaci sono configurati tenendo conto di queste migliori pratiche.

Automatizza il sistema di monitoraggio

Per identificare i problemi in modo rapido ed efficace è indispensabile automatizzare il monitoraggio.

Un database risponde più lentamente del solito? Gli utenti riscontrano tempi di caricamento più lenti della media sulla tua app? Un sistema strategico è inattivo? Uno dei tuoi tecnici ha fatto una richiesta che sembra un avviso? Il tuo sistema dovrebbe prestare automaticamente attenzione a problemi come questi e segnalarti quando si presentano.

Imposta soglie di avviso intelligenti

Ogni avviso richiede attenzione immediata? Per la maggior parte delle aziende, la risposta è no, motivo per cui è necessario impostare soglie di allarme ragionevoli.

Sapere se vale la pena svegliare uno sviluppatore nel cuore della notte, o se il problema può aspettare fino al mattino, può fare la differenza tra sviluppatori soddisfatti con tempi di risposta rapidi e team affaticati che trascorrono i fine settimana alla ricerca di un nuovo impiego.

Deduplica i tuoi avvisi

Uno studio sullo stress da avvisi ha rilevato che, per i medici in ambito ospedaliero, l'attenzione diminuiva del 30% ogni volta che arrivava un avviso duplicato. Ed è probabile che i risultati dello studio siano gli stessi per gli sviluppatori. Più vediamo lo stesso avviso, meno prestiamo attenzione ad esso. Ecco perché la migliore pratica qui è deduplicare gli avvisi e ridurre al minimo i promemoria.

Stabilisci i livelli di priorità e gravità

Ovviamente, alcuni avvisi sono più importanti di altri. Un'interruzione del sito web avrà probabilmente la precedenza rispetto a un breve rallentamento di una funzionalità utilizzata di rado. L'hacking doloso ha probabilmente una priorità più alta rispetto a un'immagine che non viene visualizzata correttamente nella tua app.

Non solo il tuo sistema dovrebbe riconoscere la priorità e la gravità degli avvisi, ma dovrebbe anche comunicare chiaramente tale priorità alle persone responsabili della risoluzione degli imprevisti. La migliore pratica qui è usare segnali visivi, acustici e sensoriali per indicare in modo rapido e chiaro l'azione successiva su cui i team dovrebbero concentrarsi.

Rendi gli avvisi utilizzabili

Sapere cosa c'è che non va è importante. Sapere cosa fare dopo è ancora più importante. Ecco perché se i tuoi avvisi non sono utilizzabili, dovresti fare in modo che lo diventino.

Questo è un posto in cui i team DevOps possono imparare dal settore dell'aviazione. Quando viene visualizzato un avviso sulla strumentazione di bordo del pilota durante un volo, viene accompagnato da una checklist utilizzabile. L'inserimento di questo tipo di dettagli nel tuo sistema di avvisi riduce i tempi di diagnostica e aiuta gli sviluppatori a muoversi rapidamente nel tuo processo.

Ciò è particolarmente utile quando uno sviluppatore viene svegliato nel cuore della notte, con gli occhi annebbiati e la mente un po' rallentata.

Scelta della tecnologia di avviso giusta

Sviluppare un sistema di avvisi IT che segua queste migliori pratiche significa essere strategici riguardo agli avvisi e giocare d'anticipo. Significa anche scegliere la tecnologia giusta per farlo. Quando si sceglie un fornitore, consigliamo di cercare:

Molteplici canali di avviso

L'e-mail è spesso il canale preferito quando si tratta di avvisi, ma la verità è che l'e-mail non è sempre sufficiente. Se gli avvisi sono urgenti, potresti richiedere o aver bisogno di SMS, notifiche push su dispositivi mobili o persino chiamate vocali. Cerca un sistema che ti consenta di inviare avvisi in vari modi.

Arricchimento degli avvisi

Gli avvisi utilizzabili sono avvisi dettagliati. Il che significa che un breve messaggio di testo non è sempre sufficiente. Fai attenzione ai limiti rigorosi di caratteri e cerca una tecnologia che ti consenta di allegare grafici, log, runbook e checklist per fornire un contesto aggiuntivo a un avviso e far sapere allo sviluppatore quale dovrebbe essere la sua prossima mossa.

Azioni di avviso personalizzate

La tecnologia della maggior parte degli avvisi ti consentirà di aggiungere una nota al tuo avviso o di chiuderlo. Ma a volte ci sono dei passaggi intermedi. Ad esempio, eseguire l'escalation dell'avviso per effettuare ulteriori indagini, creare un ticket di servizio o riavviare un server. Cerca soluzioni tecnologiche che ti consentano di fare molto di più che aprire e chiudere.

Azioni automatizzate

Per alcuni avvisi, capire cosa fare dopo è complicato e richiede l'intuizione di uno sviluppatore esperto. Per altri, la strada da seguire è chiara.

Per gli avvisi con passaggi successivi chiari (test diagnostici, azioni correttive), ti consigliamo un sistema che attivi automaticamente tali risposte in seguito alla ricezione di un avviso che soddisfi i tuoi criteri predefiniti.

Ad esempio, se un database rallenta, potrebbe essere utile impostare il tuo sistema di avvisi in modo che passi automaticamente a un database di backup. Se il primo passo per risolvere il ticket A è sempre riavviare un server, forse potresti impostare il tuo sistema di avvisi in modo che riavvii il server e monitori il risultato prima di inviare un avviso nel bel mezzo della notte.

Personalizzazione e classificazione degli avvisi

Il tuo team dovrebbe essere in grado di organizzare, taggare con informazioni aggiuntive e filtrare gli avvisi non appena li riceve.

Monitoraggio del ciclo di vita degli avvisi

Nella tua analisi retrospettiva dell'imprevisto, vorrai sapere quando è arrivato l'imprevisto, chi l'ha ricevuto, quando l'ha visto e quali azioni sono state intraprese. Assicurati che qualsiasi tecnologia tu scelga tenga automaticamente traccia di questi dettagli. Ti aiuterà a capire cosa funziona e cosa non funziona, migliorerà i tuoi KPI e documenterà gli imprevisti passati in modo che i team su chiamata possano trarne insegnamento e fare riferimento a tali informazioni per gli imprevisti futuri.

Policy di avviso e notifica

Se la migliore pratica qui è impostare soglie intelligenti per i tuoi avvisi e assicurarti che ticket minori non sveglino i tuoi sviluppatori nel bel mezzo della loro fase REM, hai bisogno di una tecnologia che ti consenta di sopprimere, ritardare ed elaborare più rapidamente gli avvisi in base al loro contenuto e alla tempistica.

Monitorare in tempo reale il sistema monitoraggio

Come fai a sapere, in un dato momento, che i tuoi sistemi di allarme sono attivi e funzionanti?

Con la tecnologia giusta, ovvero una tecnologia dotata di un sistema di monitoraggio. Con Opsgenie, lo facciamo con uno strumento chiamato Heartbeats, che verifica continuamente che gli strumenti di monitoraggio siano attivi e connessi e che i task personalizzati vengano completati nei tempi previsti. Se il segnale si interrompe, il sistema ti avvisa immediatamente.

Prossimo contenuto
Escalation Policies