Close

Gestione degli imprevisti per i team high velocity

Piani di ripristino di emergenza per i professionisti delle operazioni IT e DevOps

Man mano che i servizi IT passano da un centro di costo focalizzato sulle attività di routine alla promozione di un valore essenziale per l'azienda, disporre di pratiche di ripristino di emergenza IT efficaci è più importante che mai.

Che si tratti di tempo di inattività delle applicazioni, perdita di dati o persino di un incendio in sede, rispondere a una situazione di emergenza non è quasi mai semplice.

Per le piccole imprese, gli sforzi necessari per eseguire un ripristino possono avere conseguenze devastanti. Secondo la FEMA, circa il 40-60% delle piccole aziende non riapre mai i battenti a seguito di un disastro.

Che cos'è un piano di ripristino di emergenza?

Un piano di ripristino di emergenza è un insieme documentato di pratiche e procedure messe in atto per proteggere un'organizzazione e i suoi asset IT in caso di emergenza. In genere il piano comprende scenari, runbook, backup e istruzioni per rendere operativi i servizi aziendali e IT. Assume particolare rilevanza qualora si verifichino eventi come errori di sistema, tempo di inattività, violazioni della sicurezza o perdita di dati.

Secondo IBM:

"Prima degli anni '70, la maggior parte delle organizzazioni doveva preoccuparsi solo di eseguire copie dei propri documenti cartacei. La pianificazione del ripristino di emergenza ha acquisito importanza negli anni '70, quando le aziende hanno iniziato a fare maggiore affidamento sull'informatica per le proprie operazioni. All'epoca la maggior parte dei sistemi erano mainframe orientati ai batch. Un altro mainframe esterno poteva essere caricato dai nastri di backup, in attesa del ripristino del sito primario".

Pianificazione del ripristino di emergenza e pianificazione della continuità aziendale a confronto

La pianificazione del ripristino di emergenza è un sottoinsieme della pianificazione della continuità operativa. Mentre la pianificazione del ripristino di emergenza ha l'obiettivo di ripristinare i servizi interessati il più velocemente possibile, la pianificazione della continuità operativa si propone di garantire che l'azienda possa operare senza interruzioni in caso di emergenza.

L'IT svolge un ruolo centrale in entrambe le pratiche.

Il ripristino di emergenza e la continuità aziendale sono spesso considerati in modo intercambiabile. In realtà la pianificazione del ripristino di emergenza è finalizzata al ripristino del servizio dopo un imprevisto, mentre il ripristino di emergenza è solo una parte del piano generale di continuità aziendale. Un piano di continuità aziendale è progettato per mantenere l'organizzazione operativa prima, durante e dopo un imprevisto. Mentre il ripristino di emergenza fornisce indicazioni su come porre fine all'imprevisto, la continuità aziendale fa sì che l'azienda possa continuare a operare anche durante un imprevisto.

Pianificazione del ripristino di emergenza e gestione degli imprevisti a confronto

Per i team DevOps e delle operazioni IT, la gestione degli imprevisti è il processo utilizzato per rispondere a un evento non pianificato o a un'interruzione del servizio e per ripristinare il servizio al suo stato operativo.

La gestione degli imprevisti e il ripristino di emergenza sono spesso utilizzati in modo intercambiabile, a seconda del team e dell'organizzazione. La gestione degli imprevisti è incentrata anche sulla capacità di gestire gli imprevisti in tempo reale e ripristinare l'operatività dei servizi durante l'imprevisto.

In Atlassian, un imprevisto è definito come un evento che causa un'interruzione o una riduzione della qualità di un servizio e che richiede una risposta di emergenza.

Oppure, in base alla definizione fornita nel libro di Google sull'ingegneria dell'affidabilità dei siti:

"Una gestione efficace degli imprevisti è fondamentale per limitare le interruzioni causate da un imprevisto e ripristinare le normali operazioni aziendali il più velocemente possibile. Se la risposta ai potenziali imprevisti non è stata adeguatamente definita, anche una gestione degli imprevisti basata su solidi principi può finire nella spazzatura in situazioni di vita reale".

Google consiglia inoltre di includere la gestione degli imprevisti come parte del processo dei test di ripristino di emergenza di un'organizzazione. Idealmente, le azioni e le comunicazioni degli addetti agli imprevisti dovrebbero essere registrate tramite un processo dedicato allo scopo di creare una tempistica completa degli imprevisti che può costituire una risorsa per le interruzioni o gli imprevisti correlati che dovessero verificarsi in futuro. Si tratta di un'azione utile per le organizzazioni che eseguono test di ripristino di emergenza, poiché i team dispongono dell'intero contesto delle operazioni.

Cos'è l'obiettivo del tempo di ripristino?

L'obiettivo del tempo di ripristino è il periodo di ripristino che una funzione aziendale considera accettabile per la ripresa del normale servizio dopo un'interruzione. È strettamente correlato al tempo medio di ripristino preso in esame nelle metriche DevOps.

Pianificazione del ripristino di emergenza in una realtà DevOps

In che modo i piani di ripristino di emergenza rimangono pertinenti in una realtà di continuous delivery, test automatizzati e più distribuzioni al giorno?

In altre parole, qual è il ruolo dei piani di ripristino di emergenza nelle organizzazioni che utilizzano DevOps?

Per fortuna, le due pratiche possono coesistere con reciproci vantaggi. Anche gli stessi strumenti e processi utilizzati per inviare il codice dallo sviluppo ai test fino alla produzione possono avere un ruolo nel ripristino di emergenza. Ad esempio, i backup degli ambienti di produzione utilizzati per testare le distribuzioni possono servire anche per eseguire simulazioni di emergenza e i commit di codice monitorati dalla pipeline CI/CD possono essere uno strumento utile per far emergere le recenti modifiche in uno scenario di ripristino di emergenza.

Non è un segreto che le attività DevOps dettino sempre di più il passo di tutte le decisioni IT aziendali. Questo, tuttavia, non significa che il duro lavoro dedicato al piano di ripristino e alle risorse sia inutile o che il piano di ripristino di emergenza rimarrà sugli scaffali a raccogliere polvere.

Scopri di più sulla soluzione di gestione degli imprevisti di Atlassian, Jira Service Management, e in che modo offre ai team di sviluppo e delle operazioni la flessibilità necessaria per lavorare insieme, indipendentemente dal fatto che stiano risolvendo imprevisti o eseguendo il ripristino di emergenza.