Close

ITSM per team high velocity

Che cos'è la gestione della continuità dei servizi IT?

La gestione della continuità dei servizi IT (ITSCM, IT Service Continuity Management) è una componente chiave della fornitura di servizi ITIL. Si concentra sulla pianificazione della prevenzione, della previsione e della gestione degli imprevisti con l'obiettivo di mantenere la disponibilità e le prestazioni del servizio ai massimi livelli possibili prima, durante e dopo un imprevisto di entità disastrosa.

L'obiettivo dell'ITSCM è ridurre il tempo di inattività, i costi e l'impatto aziendale degli imprevisti mettendo in atto processi efficaci e standardizzati per quando tali imprevisti inevitabilmente si verificheranno.

Questo perché, in assenza di un piano, ci sono molti fattori che possono rallentare o arrestare il ripristino in caso di imprevisto. Dopotutto, l'esperto su chiamata potrebbe rispondere alle 3 del mattino, con gli occhi ancora offuscati dal sonno, potrebbe non essere a conoscenza dell'evoluzione del codice se è stato impegnato in un'altra attività per settimane o mesi, potrebbe farsi prendere dal panico a causa dell'entità disastrosa di un imprevisto oppure potrebbe essere un nuovo membro del team di ripristino di emergenza e non avere molta esperienza nella risoluzione dei problemi.

Disporre di un piano chiaro e adeguatamente documentato per la gestione della continuità dei servizi contribuirà a ridurre al minimo i ritardi causati dalle curve di apprendimento, dal tempo trascorso lontano dal codice, dal panico in caso di emergenza o dagli avvisi di mezzanotte.

ITSCM e ITIL 4

In ITIL 4, la gestione della continuità dei servizi è un processo destinato a supportare la gestione della continuità aziendale (BCM). L'obiettivo del processo è assicurarsi che, dopo una grave interruzione del servizio, i servizi siano di nuovo attivi e funzionanti entro le timeline aziendali concordate.

ITSCM e gestione degli imprevisti a confronto

ITIL 4 opera una distinzione tra la gestione degli imprevisti, che si occupa della gestione degli imprevisti a diversi livelli di impatto, e l'ITSCM, che riguarda la pianificazione delle attività necessarie per far fronte a eventi disastrosi su larga scala.

Quindi, cosa si intende esattamente per evento disastroso? La risposta può essere diversa per ogni azienda, ma il Business Continuity Institute lo definisce come: "Un evento improvviso e non pianificato che causa gravi danni o perdite gravi a un'organizzazione. Determina l'incapacità da parte dell'organizzazione di fornire funzioni aziendali critiche per un periodo di tempo minimo predeterminato".

La portata di ciò che chiamiamo evento disastroso, il tempo minimo predeterminato e la definizione delle funzioni aziendali critiche sono tre concetti che ogni azienda dovrà definire e documentare per se stessa.

ITSCM e gestione della continuità aziendale (BCM)

La gestione della continuità aziendale è un processo che avviene al di fuori dell'IT e che identifica i rischi per l'azienda con l'obiettivo di ridurli. Alcuni rischi possono essere legati all'informatica, compresi gli imprevisti di entità disastrosa, e altri potrebbero essere esterni al controllo IT, come disastri naturali o incendi di impianti.

Poiché la BCM comprende l'ITSCM e altri processi di riduzione del rischio, è logico che i team IT lavorino a stretto contatto con il team BCM per creare:

  • Un piano di continuità aziendale (BCP) che include piani per la prevenzione e il ripristino da imprevisti IT di entità disastrosa.
  • Analisi dell'impatto sul business (BIA) che identificano il potenziale impatto aziendale di un evento IT disastroso.

Obiettivi ITSCM

Dal punto di vista aziendale, l'obiettivo dell'ITSCM è ridurre il tempo di inattività, i costi e l'impatto aziendale degli imprevisti di entità disastrosa. A un livello più tattico, gli obiettivi includono:

  • Collaborazione più stretta con la BCM per proteggere la continuità aziendale complessiva.
  • Creazione e gestione di piani per la continuità e il ripristino dei servizi IT in caso di emergenza.
  • Collaborazione con i fornitori per ridurre al minimo l'impatto dell'eventuale tempo di inattività dei loro prodotti e servizi, in relazione al business.
  • Analisi del rischio e dell'impatto, e conseguente revisione dei piani nel corso del tempo.

Il processo ITSCM

Il piano di continuità di Atlassian si basa sul presupposto che il processo di pianificazione per la gestione degli eventi disastrosi sia continuo, guidato dalla leadership e accuratamente testato. Siamo determinati a non raccontare frottole ai clienti. Il nostro processo include pianificazione, comunicazione, responsabilità chiare, test e miglioramento continuo.

Pianificazione

Il processo di pianificazione ha inizio con domande generali a cui fa seguito l'elaborazione di un piano basato sulle risposte fornite. Le domande iniziali dovrebbero includere:

  • Qual è la nostra risposta agli imprevisti?
  • Quali sono i valori che seguiremo?
  • Quali sono i tipi di eventi disastrosi che richiedono pianificazione? Quali sono i rischi e le minacce intrinseche del nostro business?
  • Quali sistemi dobbiamo supportare? Quali di essi sono fondamentali?
  • Come risponderemo nel caso in cui si verifichi un evento disastroso?
  • Dove si trovano le informazioni di cui avremo bisogno per supportare e ripristinare i sistemi critici?
  • Come possiamo centralizzare tali informazioni e semplificare i processi di ripristino?
  • La documentazione delle informazioni e dei processi è collaborativa e revisionabile dai team che la gestiranno?

Dopo aver risposto a queste domande, il passaggio successivo è quello di utilizzare le risposte per definire:

  • Policy per il ripristino di emergenza
  • Ambito delle responsabilità IT
  • Ambito dell'impatto aziendale di ciascun rischio
  • Piani e processi per ogni scenario di rischio
  • Requisiti relativi a personale e documentazione

La chiave per una fase di pianificazione ITSCM di successo consiste nel documentare e nel trasformare in un modello il piano risultante per renderlo chiaro e ripetibile. Risorse come un playbook di risposta agli imprevisti o altri runbook da consultare all'occorrenza possono essere una fonte di riferimento e organizzazione per chi risponde durante uno scenario ad alto rischio.

Nello spirito dell'ITSCM, una soluzione con l'accesso a una knowledge base integrata, come Jira Service Management basato su Confluence, consente una documentazione continua che favorisce la revisione, l'ottimizzazione e la collaborazione. In questo modo, chi risponde ha accesso alla documentazione di risoluzione precedente e a risorse aggiornate.

Responsabilità chiare

Chi è responsabile in caso di imprevisto? Chi è responsabile della manutenzione e dell'aggiornamento di piani, processi e documentazione? Nell'ITSCM dovrebbero essere sempre chiari ruoli e responsabilità non solo per gli imprevisti, ma anche per il monitoraggio e il miglioramento continui. Con Jira Service Management, chi risponde può taggare la parte o la persona appropriata sui ticket per garantire che le responsabilità siano debitamente assegnate e semplificare la collaborazione interfunzionale.

L'approccio che adottiamo in Atlassian include la conduzione di riunioni regolari sul ripristino di emergenza con i nostri Site Reliability Engineer e il team responsabile del rischio e della conformità. Si parla delle lacune del ripristino di emergenza e si identificano le aree che richiedono ulteriori piani, valutazioni o modifiche.

Comunicazione

L'apertura è un valore fondamentale per Atlassian e siamo convinti che i tuoi piani ITSCM saranno tanto più efficaci quanto maggiore è il livello di informazione della tua organizzazione riguardo a tali piani.

Offrire canali di comunicazione flessibili durante l'intero processo di risposta agli imprevisti consente ai team di rimanere in contatto attraverso il metodo che preferiscono. Jira Service Management integra più canali di comunicazione, come widget per lo stato incorporabili, pagine di stato dedicate, e-mail, strumenti di chat, social media ed SMS, per ridurre al minimo il tempo di inattività.

La comunicazione non solo mantiene aggiornati gli stakeholder e aiuta la dirigenza a evitare il panico durante un imprevisto grave, ma consente anche al team di chiedere aiuto ad altri team, se necessario. Questo contribuisce a mitigare il rischio di attrito causato da una confusione organizzativa.

Test

Come fai a sapere se i tuoi piani funzionano senza testarli? Si tratta di una domanda fondamentale per l'ITSCM ed è il motivo per cui i test e la gestione degli imprevisti sono fondamentali per il successo della pratica.

I test possono aiutarti a identificare i punti deboli del tuo processo, i problemi imprevisti e le aree in cui i team potrebbero aver bisogno di una nuova formazione o di una documentazione migliore.

Valutazione e miglioramento

L'ITSCM non è un processo una tantum. Richiede un'attenta pianificazione iniziale e continua, formazione, valutazione e miglioramento. Ecco perché conduciamo riunioni regolari sul ripristino di emergenza, testiamo i backup di sistema, effettuiamo esercitazioni su ciò che accade in caso di interruzione del data center o di errore della regione AWS. Ed è per questo che ogni piano ITSCM degno di questo nome viene costantemente monitorato ed è in continua evoluzione.

La maggior parte delle aziende rappresenta il processo ITSCM come una serie di passaggi, ma noi pensiamo che sia più simile a un cerchio. La pianificazione dovrebbe portare all'individuazione di ruoli e responsabilità definiti. Successivamente, il team dovrebbe comunicare nell'ambito dell'intera organizzazione, testare ripetere i test, valutare, monitorare e migliorare e, utilizzando i miglioramenti, continuare ad aggiornare il piano, definire ulteriormente i ruoli e continuare a comunicare.

È in questo ambito che una knowledge base integrata e collaborativa si rivela utile. Gli articoli della knowledge base sono una risorsa preziosa quando si parla di valutazione e documentazione. I report di analisi retrospettiva degli imprevisti sono fondamentali per la revisione e riparazione a seguito di un imprevisto, ma possono essere anche risorse utili da sfruttare per i problemi che potrebbero presentarsi in futuro. Jira Service Management basato su Confluence, è dotato di una potente piattaforma collaborativa per eseguire soluzioni di valutazione e miglioramento.

Ruoli e responsabilità ITSCM

Per pianificare e implementare efficacemente le pratiche ITSCM in tutta l'organizzazione, molte aziende nominano un Service Continuity Manager e un Service Continuity Recovery Team.

Service Continuity Manager (SCM)

Come il nome stesso suggerisce, il Service Continuity Manager è responsabile della supervisione della continuità dei servizi. In genere è l'owner dell'intero processo, guida lo sviluppo del piano, la gestione delle attività continue di monitoraggio e valutazione, e la supervisione dei piani che sono messi in atto in caso di evento disastroso.

Questa persona è solitamente un professionista esperto del supporto tecnico di livello senior, ma può ricoprire un ruolo dirigenziale e non è direttamente coinvolto nella gestione quotidiana nella tecnologia.

Team di ripristino della continuità dei servizi

Guidato dall'SCM, questo team è responsabile dell'esecuzione di test ed esercitazioni sugli imprevisti e del miglioramento continuo dell'ITSCM. Il team comprende in genere personale tecnico, professionisti del controllo di qualità o utenti per i test e rappresentanti dei reparti di tutta l'organizzazione che hanno la responsabilità di mantenere aperte le linee di comunicazione tra l'SCM e i suoi team.

Perché l'ITSCM è importante?

Le organizzazioni con piani chiari per il ripristino di emergenza usciranno da un evento disastroso in modo più rapido e completo.

L'ITSCM non ha a che fare con la pianificazione delle interruzioni quotidiane, ma con la gestione degli scenari peggiori e, nel caso in cui si verificano, si assicura che causino un livello di interruzione minimo per clienti e dipendenti.

Ecco tre vantaggi chiari di una buona pratica ITSCM:

  • In caso di evento disastroso, un buon piano ITSCM consente un ripristino rapido dell'operatività dei servizi essenziali.
  • L'organizzazione è sempre pronta per un evento disastroso grave ed è in grado di reagire in modo rapido e appropriato.
  • Ogni persona in tutta l'azienda comprende cosa succederà nel caso in cui si verifichi un evento disastroso e sa per quanto tempo i sistemi resteranno inattivi.

Scopri in che modo l'ITSCM migliora la qualità del servizio clienti e riduce al minimo il tempo di inattività dell'organizzazione con Jira Service Management.