Close

El camino hacia una mejor gestión de incidentes empieza aquí

The 7 stages of effective incident response

La respuesta ante incidentes es el proceso mediante el cual una organización reacciona ante amenazas de TI, como es el caso de los ciberataques, las vulneraciones de seguridad y el tiempo de inactividad de los servidores.

Other IT Ops and DevOps teams may refer to the practice as major incident management or simply incident management.

En las siguientes secciones se explica un proceso de respuesta ante incidentes, qué es lo que hay que hacer entre la constatación de que un servicio está inoperante y su reactivación y puesta en marcha de nuevo, según el material de nuestro propio Manual de gestión de incidentes.

En este artículo, explicaremos las siete fases clave de la respuesta ante incidentes:

  1. Detectar el incidente
  2. Definir los canales de comunicación del equipo
  3. Evaluar la repercusión y aplicar un nivel de gravedad
  4. Comunícate con los clientes
  5. Escalar a los usuarios de respuesta adecuados
  6. Delegar las funciones de respuesta ante incidentes
  7. Resolver el incidente
Flujo de trabajo respuesta ante incidentes

Detectar el incidente

Lo ideal es que las herramientas de supervisión y generación de alertas detecten los incidentes e informen a tu equipo de ellos antes siquiera de que los clientes se enteren. No obstante, en ocasiones, la primera noticia de un incidente te llegará a través de Twitter o de tickets de atención al cliente.

Independientemente de cómo se detecte el incidente, el primer paso debería ser dejar constancia de que se ha abierto un incidente en una herramienta de monitorización de incidentes. Esta puede ser una herramienta específica de operaciones como Opsgenie Enterprise o alguna herramienta de seguimiento más general como Jira.

Definir los canales de comunicación del equipo

Una de las primeras cosas que hace el gestor de incidentes (GI) cuando se conectan es definir los canales de comunicación del equipo encargado de los incidentes. El objetivo en este momento es el de establecer y centrar todas las comunicaciones del equipo de incidentes en ubicaciones conocidas como, por ejemplo, las siguientes:

  • Una sala de chat en Slack u otro servicio de mensajería.
  • Un videochat en una aplicación de videoconferencias como Zoom (o, si os encontráis todos en el mismo lugar, reúne al equipo en una sala física).

Preferimos usar el videochat y una herramienta de chat de texto durante los incidentes, ya que ambos son excelentes para cosas distintas. El videochat es genial para crearnos con rapidez una imagen mental compartida del incidente mediante una conversación en grupo. Además, Slack ayuda a generar un registro con marca de tiempo del incidente, junto con una recopilación de enlaces a pantallazos, URL y paneles.

Slack y la mayoría del resto de las herramientas de chat permiten a los usuarios establecer el tema de una sala. El gestor de incidentes debe utilizar este campo para plasmar información sobre el incidente y enlaces útiles.

Por último, el GI establece su propio estado de chat personal para la clave de incidencia del incidente que está gestionando, lo cual informa a sus compañeros de que están ocupados con la gestión de un incidente.

Evaluar la repercusión y aplicar un nivel de gravedad

Después de establecer los canales de comunicación del equipo de incidentes, es momento de evaluar el incidente para que el equipo pueda decidir qué decir sobre este y quién debe corregirlo.

A continuación te mostramos una serie de preguntas que los IM deben formular a sus equipos:

  • ¿Cuál es el impacto en los clientes (a nivel interno o externo)?
  • ¿Qué ven los clientes?
  • ¿A cuántos clientes les afecta (a algunos, a todos)?
  • ¿Cuándo ha comenzado?
  • ¿Cuántos casos de soporte han abierto los clientes?
  • ¿Existen otros factores? (P. ej., Twitter, seguridad o pérdida de datos)

El siguiente paso suele consistir en asignar un nivel de gravedad.

Niveles de gravedad de respuesta ante incidentes

Gravedad 1
Descripción: Un incidente crítico con una amplísima repercusión.
Ejemplos:

  • Un servicio público que afecta a todos los usuarios
  • Se ha vulnerado la confidencialidad o la privacidad.
  • Se han perdido datos del cliente.

Gravedad 2
Un incidente grave con una repercusión considerable.
Ejemplos:

  • Un servicio público no está disponible para algunos clientes, pero para el resto, sí.
  • Una funcionalidad esencial se ve afectada considerablemente.

Gravedad 3
Un incidente leve de poca repercusión.
Ejemplos:

  • Una inconveniencia secundaria para los clientes que cuenta con una solución alternativa.
  • Degradación del rendimiento usable.

Utilizar un sistema de numeración para los niveles de gravedad ayuda a definir el incidente y comunicarlo con rapidez. Alguien no tiene más que decir "podríamos tener un nivel 1 [de gravedad, entiéndase]", y las personas adecuadas pueden entender de inmediato la gravedad del asunto antes incluso de obtener información adicional.

Los niveles de gravedad también pueden ayudar a desarrollar pautas para las expectativas de respuesta.

Por ejemplo, en algunas empresas, los incidentes de gravedad 3 se pueden solucionar durante el horario laboral, mientras que los de gravedad 1 y 2 obligan a avisar a los miembros del equipo para dar una solución inmediata.

Las definiciones de la gravedad de los incidentes deben documentarse y ser homogéneas en toda la organización.

Comunícate con los clientes

En cuanto un equipo determina que el incidente es real, lo mejor es ponerse en contacto con las partes interesadas internas y externas lo antes posible.

El objetivo de la comunicación inicial interna es centrar la respuesta ante el incidente en un solo lugar y reducir la confusión.

El objetivo de la comunicación externa es avisar a los clientes de que al equipo le consta que algo va mal y que estáis investigando el asunto. Una comunicación rápida y precisa ayuda a generar confianza entre los clientes y el resto de la organización.

Muchos equipos usan Statuspage para comunicar los incidentes, tanto de forma interna como externa. Aquí tienes dos sencillas plantillas para actualizar una página de estado interna o externa:

Página de estado interna
- -

Estamos investigando un incidente que afecta a , y . En breve enviaremos actualizaciones por correo electrónico y a través de Statuspage.

Página de estado externa
Investigación de incidencias con

Estamos investigando incidencias con y pronto publicaremos actualizaciones aquí.

Escalar a los usuarios de respuesta adecuados

En ocasiones, son los usuarios de respuesta iniciales quienes resuelven el incidente, pero lo más habitual es que dichos usuarios de respuesta tengan que pedir ayuda a otros equipos para solucionar el incidente, para lo cual les avisan mediante una herramienta de alertas como Opsgenie.

Las herramientas de generación de alertas permiten a los equipos definir listas de guardias para crear una rotación del personal que se espera que esté disponible durante un incidente, lo cual es mejor que confiar en una persona específica cada vez que se produce un incidente, ya que no siempre estará disponible esa misma persona (porque se irá de vacaciones, cambiará de trabajo o se agotará cuando le llamas demasiado).

Delegar las funciones de respuesta ante incidentes

En cuanto se avisa a otro usuario de respuesta ante incidentes y este se conecta, el gestor de incidentes delega en él una función. Es importante que entiendan lo que se exige de su función y cómo deben colaborar con al equipo de incidentes de forma rápida y eficaz.

Otra de las ventajas de definir las funciones es que posibilita una mayor adaptabilidad y flexibilidad. Siempre que alguien sepa cómo desempeñar una función específica, podrá ejercerla para cualquier incidente.

Tres funciones clave en la respuesta ante incidentes

Gestor de incidentes

El gestor de incidentes dirige todos los incidentes, y es quien tiene la autoridad y responsabilidad total por el incidente.

El gestor de incidentes tiene autoridad para efectuar todas las acciones necesarias a fin de resolver el incidente, lo que incluye ponerse en contacto con cualquiera de la organización y hacer que las personas implicadas en un incidente permanezcan concentradas en restaurar el servicio cuanto antes.

Responsable técnico

Un usuario de respuesta técnico sénior. Es responsable de desarrollar teorías sobre qué ha fallado y por qué, de decidir los cambios y de dirigir el equipo técnico. Esta persona colabora íntimamente con el gestor de incidentes.

Gestor de comunicaciones

La persona familiarizada con las comunicaciones públicas, que podría pertenecer al equipo de atención al cliente o de relaciones públicas. Su cometido es escribir y enviar comunicaciones a nivel interno y externo sobre el incidente.

Resolver el incidente

No existe ningún proceso integral que pueda resolver todos los incidentes. Si lo hubiera, nos habríamos limitado a automatizarlo y ya habríamos terminado. En vez de eso, inspírate en el método científico. Itera a partir del siguiente proceso para adaptarlo rápidamente a diversas situaciones de respuesta ante incidentes:

  • Fíjate en lo que está sucediendo. Comparte observaciones y confírmalas.
  • Desarrolla teorías sobre los motivos por los que está pasando.
  • Desarrolla y lleva a cabo experimentos que demuestren o refuten tus teorías.
  • Repite hasta que se resuelva el incidente.

Un incidente se resuelve cuando concluye el impacto empresarial actual o inminente. Llegados a este punto, el proceso de respuesta de emergencia termina y el equipo pasa a ocuparse de cualesquiera tareas de limpieza que hagan falta y del análisis retrospectivo.

Una vez resuelto el incidente, enviamos las comunicaciones internas y externas definitivas. Las comunicaciones internas contienen un resumen del impacto y la duración del incidente, que incluye cuántos casos de soporte se han emitido y otras dimensiones importantes del incidente. Además, deben enunciar claramente que el incidente se ha resuelto y que no se enviarán más comunicaciones al respecto. Las comunicaciones externas suelen ser breves e informan a los clientes de que se ha restaurado el servicio y de que el equipo realizará un seguimiento con un análisis retrospectivo.

A continuación
Postmortems