Close

El camino hacia una mejor gestión de incidentes empieza aquí

Cómo ejecutar un proceso de gestión de incidentes graves

Gestión y resolución de incidentes de gran impacto

La gestión de incidentes graves (a menudo denominada en Atlassian simplemente gestión de incidentes) es el proceso utilizado por los equipos de DevOps y de operaciones de TI para responder a un evento no planificado o una interrupción y restaurar el servicio a su estado operativo.

¿Qué es un incidente grave?

Así pues, ¿en qué consiste un incidente grave? Un incidente grave es una interrupción o pérdida de servicio con nivel de emergencia.

La definición de nivel de emergencia varía en función de cada organización. En Atlassian, contamos con tres niveles de gravedad, y los dos primeros (gravedad 1 y gravedad 2) se consideran incidentes graves.

Si un servicio orientado al cliente se cae para todos los clientes de Atlassian, se trata de un incidente de gravedad 1. Si el mismo servicio se cae para un subconjunto de clientes, se trata de un incidente de gravedad 2. Ambos se encuadran en la denominación de incidente grave y requieren una respuesta inmediata de nuestros equipos de gestión de incidentes.

Toda incidencia que no interfiera en las tareas esenciales se considera de gravedad 3 y no es un incidente grave.

Definición del proceso de gestión de incidentes graves

El ciclo de vida de los incidentes (que a veces también se conoce como proceso de gestión de incidentes) es el camino que tomamos para identificar incidentes, resolverlos, comprenderlos y evitar que se repitan.

Los procesos de gestión de incidentes varían de una empresa a otra, pero la clave del éxito de cualquier equipo es definir y comunicar claramente los niveles de gravedad, las prioridades, las funciones y los procesos por adelantado, antes de que se produzca un incidente grave.

Para obtener una percepción común de las prioridades, las funciones y los procesos, todo equipo que esté iniciando o revisando su proceso de gestión de incidentes principales debe comenzar por aclarar las respuestas a preguntas como las siguientes:

  • ¿En qué consiste un incidente grave en nuestra empresa o producto?
  • ¿Cómo definiremos los niveles de gravedad y prioridad de los incidentes? Si ocurre más de un incidente grave a la vez, ¿cómo sabremos cuál debemos abordar primero?
  • ¿Quién debe encargarse de la gestión de incidentes graves? ¿Qué funciones tendrán los miembro del equipo? ¿Cómo se definirán y se transmitirán las funciones?
  • ¿Qué proceso seguirán los equipos en caso de que se produzca un incidente grave? ¿Hay más de un proceso dependiendo del tipo de incidente?
  • ¿Con qué frecuencia nos comunicaremos con las partes interesadas tanto internas como externas? ¿Cuál es nuestro plan de comunicación?
  • ¿Cómo será nuestro horario de guardias para los incidentes graves? ¿Quién es el responsable de gestionar un incidente a las 2 de la mañana? ¿Y durante un fin de semana? ¿Y en los días festivos?
  • ¿Cuándo y cómo deberíamos alertar a nuestro gestor de incidentes de guardia teniendo en cuenta que debemos priorizar la resolución rápida de los incidentes graves y al mismo tiempo evitar la fatiga por exceso de alertas?

Proceso de gestión de incidentes graves de Atlassian

En Atlassian, nuestro proceso de gestión de incidentes incluye la detección, el registro del nuevo incidente, la apertura de las comunicaciones, la evaluación, el envío de comunicaciones iniciales, la escalación, la delegación, el envío de comunicaciones de seguimiento, la revisión y la resolución.

Ilustración de respuesta ante incidentes: detectar, abrir comunicaciones, evaluar, comunicar, escalar, delegar, resolver

Detección

En primer lugar, nuestra tecnología, nuestros clientes o nuestro personal detectan un incidente. Quien detecta el incidente (ya sea un técnico que se dé cuenta de la incidencia o un representante de atención al cliente que reciba una llamada de un cliente frustrado) se encarga también de registrar el incidente en nuestro sistema y de asignar un nivel de gravedad.

Así, cuando un incidente llega a nuestros equipos, ya tiene un nivel de gravedad 1, 2 o 3 asignado. Consideramos los niveles de gravedad 1 y 2 como incidentes graves, mientras que un nivel de gravedad 3 indica un incidente de menor impacto.

Registro del nuevo incidente

Una vez creado un ticket de incidente, se envía una notificación al profesional de guardia responsable de ese servicio.

La alerta de página que enviamos en Atlassian incluye información sobre la gravedad y la prioridad del incidente, así como un resumen, donde se deja claro, de un vistazo, si tiene la máxima prioridad o puede esperar en caso de que haya otro incidente en curso.

Apertura de las comunicaciones

Una vez que el gestor de incidentes recibe una alerta, su primera orden de trabajo es comunicar que la corrección del incidente está en curso. Para ello, cambia el estado del incidente a uno de reparación y establece los canales de comunicación del equipo.

Evaluación

Se ha avisado al gestor de incidentes y se han abierto los canales de comunicación. Siguiente paso: evaluar el propio incidente.

Para nuestros equipos, este proceso comienza con una serie de preguntas que el equipo tiene que responder:

  • ¿Cuál es la repercusión en los clientes y los empleados de Atlassian?
  • ¿Qué ven los clientes?
  • ¿A cuántos clientes afecta (a algunos, a todos)?
  • ¿Cuándo comenzó el incidente?
  • ¿Cuántos casos de soporte se han abierto acerca del incidente?
  • ¿Intervienen otros factores que afectan al nivel de gravedad o de prioridad o que cambian la forma en que debemos abordar el incidente (por ejemplo, problemas de seguridad, crisis de relaciones públicas en redes sociales, etc.)? (P. ej., preocupaciones de seguridad, crisis de relaciones públicas en redes sociales, etc.).

Cuando hayamos respondido a esas preguntas, podremos avanzar con confianza en los diagnósticos y las propuestas de correcciones o cambiar el nivel de gravedad y el nivel de prioridad de un incidente según sea necesario.

Envío de comunicaciones iniciales

Una vez que hemos confirmado que el incidente es real, la comunicación con nuestros clientes y empleados pasa a ser la máxima prioridad. Como decimos en nuestro manual:

"El objetivo de la comunicación inicial interna es centrar la respuesta ante incidentes en un único lugar y reducir la confusión. El objetivo de la comunicación externa es decir a los clientes que tienes conocimiento de un fallo y que estás investigándolo con urgencia".

La comunicación rápida y precisa ayuda a generar confianza en el cliente.

Contamos con un plan de comunicación de incidentes estratégico, usamos Statuspage para comunicar nuestros incidentes y proporcionamos actualizaciones periódicas de estado que siguen un formato simple. Además, enviamos un correo electrónico a una lista establecida de partes interesadas que incluye a nuestro equipo líder de ingeniería, a los gestores de incidentes graves y demás personal interno clave.

Escalación

A veces, el equipo de guardia resuelve rápidamente un incidente. Pero en los casos en que eso no ocurre, el siguiente paso es escalar la incidencia a otro experto o equipo de expertos más preparado para resolver este incidente concreto.

Delegación

En cuanto se escala una incidencia a alguien nuevo, el gestor de incidentes delega en él una función. En Atlassian, estas funciones están preestablecidas para que los miembros del equipo comprendan rápidamente qué se espera de ellos.

A veces, los incidentes importantes requieren un único gestor de incidentes y un equipo pequeño. Otras veces, una situación puede requerir varios responsables técnicos o incluso varios gestores de incidentes. El gestor de incidentes original es el encargado de averiguar cuándo es ese el caso y de incorporar a las personas apropiadas.

Envío de comunicaciones de seguimiento

A medida que el incidente sigue avanzando, otra ronda de comunicación fuera del equipo técnico ayuda a mantener a los clientes y a los empleados tranquilos, confiados y al corriente de todo.

Revisa

Lamentablemente, cuando se trata de la resolución de incidentes, la solución depende de cada caso, por lo que en esta fase del proceso, dedicamos tiempo a lo siguiente:

  • Observa lo que está sucediendo, comparte observaciones y confírmalas con el equipo.
  • Desarrolla teorías sobre los motivos por los que está pasando (y sobre cómo se puede corregir).
  • Idea y lleva a cabo experimentos que demuestren o refuten tus teorías.
  • Repite el procedimiento.

A lo largo de este proceso, el gestor de incidentes vigila de cerca cómo van las cosas. ¿Hay miembros del equipo con demasiadas tareas? ¿Necesita alguien un descanso? ¿Hacen falta un par de ojos nuevos? En caso necesario, se delega más.

Resolución

En nuestro manual de gestión de incidentes se define la resolución como "el momento en que ha finalizado el impacto empresarial actual o inminente".

En este punto, la emergencia ha pasado y el equipo avanza a la aclaración y al análisis retrospectivo.

Análisis retrospectivos

Nuestro ciclo de vida de incidentes termina cuando el incidente se ha resuelto, pero ese no es el final de nuestro proceso en Atlassian. También queremos hacer todo lo que esté a nuestro alcance para asegurarnos de que un incidente no se repita. Es por eso por lo que el siguiente paso es un análisis retrospectivo sin reproches diseñado para identificar la causa de un incidente y ayudarnos a mitigar nuestro riesgo en el futuro.

Roles y responsabilidades

Las funciones y responsabilidades variarán según la política corporativa de la organización, el tamaño del equipo, los horarios de las guardias, etc. Estas son algunas funciones comunes de gestión de incidentes graves:

Gestor de incidentes: la persona responsable de supervisar la resolución de un incidente.

Líder técnico: profesional técnico sénior encargado de averiguar qué ha fallado y por qué, de decidir la mejor medida que tomar y de dirigir el equipo técnico.

Gestor de comunicaciones: profesional de comunicaciones (a menudo pertenece a los equipos de relaciones públicas o atención al cliente) responsable de comunicarse con los clientes internos y externos afectados por el incidente.

Responsable de atención al cliente: persona encargada de asegurarse de que los tickets, las llamadas de teléfono y los tweets entrantes sobre el incidente reciban una respuesta adecuada y oportuna.

Responsable de redes sociales: profesional de las redes sociales encargado de comunicar información sobre el incidente en los canales sociales.

Entre otros tipos de funciones habituales se incluyen los siguientes:

Analista de la causa primordial o gestor de problemas: la persona responsable de ir más allá de la resolución del incidente para identificar la causa primordial y todos los cambios que hay que hacer para evitar la incidencia en el futuro.

Comisión de investigación de incidentes graves: grupo responsable de la investigación y la gestión de cambios.

A continuación
IT incident management