Close

Il percorso verso una gestione degli imprevisti più efficace inizia qui

Le 7 fasi di una risposta efficace agli imprevisti

La risposta agli imprevisti è il processo di reazione di un'organizzazione alle minacce IT come attacchi informatici, violazioni della sicurezza e tempo di inattività dei server.

Altri team IT Ops e DevOps possono fare riferimento alla pratica come gestione degli imprevisti gravi o meno.

Le sezioni seguenti descrivono un processo di risposta agli imprevisti e spiegano cosa fare nei momenti che intercorrono tra la presa di coscienza che un servizio è inattivo e la sua riattivazione, sulla base del materiale contenuto nel nostro Manuale sugli imprevisti.

In questo articolo tratteremo le sette fasi chiave della risposta agli imprevisti:

  1. Rilevazione dell'imprevisto
  2. Configurazione dei canali di comunicazione del team
  3. Valutazione dell'impatto e assegnazione di un livello di gravità
  4. Comunica con i clienti
  5. Escalation agli addetti appropriati
  6. Delega agli addetti alla risposta agli imprevisti
  7. Risoluzione dell'imprevisto
Flusso di lavoro di risposta agli imprevisti

Rilevazione dell'imprevisto

Idealmente, gli strumenti di monitoraggio e avviso rileveranno un imprevisto e ne informeranno il tuo team prima ancora che i tuoi clienti se ne accorgano. Anche se a volte verrai a conoscenza dell'esistenza di un imprevisto da Twitter o dai ticket dell'assistenza clienti.

No matter how the incident is detected, your first step should be to record that a new incident is open in a tool for tracking incidents. In an incident management solution such as Jira Service Management, alerting and communication is integrated with your tracking tool.

Configurazione dei canali di comunicazione del team

One of the first things the incident manager (IM) does when they come online is set up the incident team's communication channels. The goal at this point is to establish and focus all incident team communications in well-known places, such as:

  • Chat in Slack o un altro servizio di messaging.
  • Videochat in un'app per conferenze come Zoom (o se siete tutti nello stesso posto, riunione del team in una stanza fisica).

Preferiamo utilizzare sia la videochat che uno strumento di chat di testo durante gli imprevisti, poiché entrambi sono ottimizzati per scopi diversi. La videochat è ottima per creare rapidamente un'immagine mentale condivisa dell'imprevisto attraverso discussioni di gruppo. Inoltre, Slack aiuta a generare un record con data e ora dell'imprevisto, insieme a collegamenti raccolti a screenshot, URL e dashboard.

Slack e la maggior parte degli altri strumenti di chat consentono agli utenti di impostare un argomento della stanza. Il gestore imprevisti deve utilizzare questo campo per fornire informazioni sull'imprevisto e collegamenti utili.

Infine, l'IM imposta il proprio stato chat personale all'identificatore ticket dell'imprevisto che sta gestendo. Questo consente ai colleghi di sapere che l'IM è impegnato nella gestione di un imprevisto.

Valutazione dell'impatto e assegnazione di un livello di gravità

Dopo che i canali di comunicazione del team incaricato della risoluzione dell'imprevisto sono stati impostati, è tempo di valutare l'imprevisto, in modo che il team possa decidere cosa comunicare riguardo l'imprevisto e chi coinvolgere per correggerlo.

Gli IM rivolgono ai propri team la seguente serie di domande:

  • Qual è l'impatto sui clienti (interni o esterni)?
  • Cosa stanno notando i clienti?
  • Quanti clienti sono interessati (alcuni, tutti)?
  • Quando è iniziato il malfunzionamento?
  • Quanti casi di supporto hanno aperto i clienti?
  • Vi sono altri fattori, ad es. Twitter, sicurezza o perdita di dati?

The next step typically is to assign a severity level.

Livelli di gravità della risposta agli imprevisti

Gravità 1
Descrizione: un imprevisto critico con un impatto molto elevato
Esempi:

  • Un servizio rivolto al cliente non è disponibile per tutti gli utenti
  • La riservatezza o la privacy sono state violate
  • Sì è verificata una perdita di dati dei clienti

Gravità 2
Un imprevisto grave con un impatto significativo
Esempi:

  • Un servizio rivolto ai clienti non è disponibile solo per alcuni clienti, ma non per tutti
  • Le funzionalità principali ne risentono in modo significativo.

Gravità 3
Un imprevisto minore a basso impatto
Esempi:

  • Un piccolo inconveniente per i clienti, soluzione alternativa disponibile.
  • Un degrado delle prestazioni disponibili.

L'utilizzo di un sistema di numerazione per i livelli di gravità consente di definire e comunicare rapidamente il tipo di imprevisto. Basta assegnare il livello di gravità 1 affinché le persone giuste comprendano immediatamente la gravità della questione anche prima di ottenere ulteriori informazioni.

I livelli di gravità possono anche aiutare a sviluppare linee guida per le aspettative di risposta.

In alcune aziende, ad esempio, gli imprevisti di gravità 3 possono essere risolti durante l'orario lavorativo, mentre i livelli di gravità 1 e 2 richiedono il coinvolgimento dei membri del team per una correzione immediata.

Le definizioni di gravità degli imprevisti devono essere documentate e coerenti in tutta l'organizzazione.

Comunica con i clienti

Una volta che un team ha stabilito che l'imprevisto è reale, è buona prassi comunicarlo il prima possibile agli stakeholder internamente ed esternamente.

L'obiettivo della comunicazione interna è di focalizzare la risposta agli imprevisti su un unico punto e ridurre la confusione.

L'obiettivo della comunicazione esterna è spiegare ai clienti che il team è a conoscenza del malfunzionamento e che lo sta esaminando. Comunicare in modo rapido e preciso aiuta a creare un clima di fiducia con i clienti e il resto dell'organizzazione.

Molti team utilizzano Statuspage per comunicare gli imprevisti sia internamente che esternamente. Di seguito sono riportati due semplici modelli per aggiornare una pagina di stato interna o esterna:

Statuspage interno
- -

Stiamo analizzando un imprevisto che riguarda il , il e il . Forniremo aggiornamenti via e-mail e Statuspage a breve.

Statuspage esterno
Stiamo analizzando un imprevisto che riguarda il

Stiamo analizzando un imprevisto che riguarda il e forniremo qui aggiornamenti a breve.

Escalation agli addetti appropriati

Sometimes the initial responders are the ones who resolve the incident. More often than not, those responders need to bring other teams into the incident by paging them using an alerting tool. With Jira Service Management, responders can take their pick as to what alerting method they use, or even use them all in one central location.

Gli strumenti di avviso consentono ai team di definire i turni di chiamata per creare una rotazione del personale che deve essere raggiungibile durante un imprevisto. Questa soluzione è più efficace che affidarsi a una persona specifica ogni volta che si verifica un imprevisto poiché quella persona non sarà sempre disponibile (andrà in ferie, cambierà lavoro o finirà per andare in esaurimento se la chiami troppo spesso).

Delega agli addetti alla risposta agli imprevisti

After a new incident responder is paged and comes online, the incident manager delegates a role to them. As It’s important they understand what's required of their role, and how to contribute to the incident team quickly and effectively.

Un altro vantaggio della definizione dei ruoli è che incrementa l'adattabilità e la flessibilità. A condizione che una determinata persona sappia come svolgere un determinato ruolo, può assumere quel ruolo per qualsiasi imprevisto.

Tre ruoli chiave di risposta agli imprevisti

L'Incident manager

Ogni imprevisto è gestito dal Gestore imprevisti (IM), che ha la responsabilità generale e l'autorità decisionale sull'imprevisto.

Il Gestore imprevisti ha facoltà di intraprendere qualsiasi azione necessaria a risolvere l'imprevisto, incluso contattare chiunque nell'organizzazione e tenere focalizzate sul ripristino più rapido possibile del servizio tutte le parti coinvolte nella risoluzione dell'imprevisto.

Coordinatore tecnico

Un tecnico d'intervento esperto sviluppa teorie su cosa è rotto e perché, decide i cambiamenti e dirige il team tecnico. Questa persona lavora a stretto contatto con il Gestore imprevisti.

Responsabile delle comunicazioni

È una persona che ha familiarità con le comunicazioni pubbliche, meglio se proveniente dal team di assistenza clienti o dalle pubbliche relazioni. È responsabile della redazione e dell'invio di comunicazioni interne ed esterne sull'imprevisto.

Risoluzione dell'imprevisto

Non esiste un processo valido per tutti in grado di risolvere ogni imprevisto. Se ci fosse, basterebbe automatizzarlo e avremmo finito. Invece, prendiamo ispirazione dal metodo scientifico. Iteriamo la procedura seguente per adattarci rapidamente a una varietà di scenari di risposta agli imprevisti:

  • Osservare che cosa sta succedendo. Condividere e verificare le osservazioni.
  • Sviluppare teorie riguardo al motivo per cui sta succedendo.
  • Sviluppare ed eseguire esperimenti che dimostrino o confutino queste teorie.
  • Ripetere l'operazione finché l'imprevisto non viene risolto.

Un imprevisto è risolto quando l'impatto attuale o imminente sul business è terminato. A quel punto, la risposta all'emergenza si conclude e il team passa alle eventuali attività di ripulitura e analisi retrospettiva.

Inviamo comunicazioni interne ed esterne definitive quando l'imprevisto è risolto. Le comunicazioni interne contengono un riepilogo dell'impatto e della durata dell'imprevisto, ad esempio quanti casi di supporto sono stati sollevati e altre importanti dimensioni degli imprevisti. Dovrebbero anche indicare chiaramente che l'imprevisto è stato risolto e non ci saranno ulteriori comunicazioni al riguardo. Le comunicazioni esterne sono di solito brevi e informano i clienti che il servizio è stato ripristinato e che eseguiremo un'analisi retrospettiva.

Conclusion

There are many moving parts to the incident response process. Keeping track of each step with seamless communication is easy with an incident management tool like Jira Service Management. Centralize alerts and unify teams with flexibility to resolve incidents quickly.

Prossimo contenuto
Analisi retrospettive