Close

El camino hacia una mejor gestión de incidentes empieza aquí

Buscar temas

Las 7 fases de la respuesta ante incidentes eficaz

La respuesta ante incidentes es el proceso mediante el cual una organización reacciona ante amenazas de TI, como es el caso de los ciberataques, las vulneraciones de seguridad y el tiempo de inactividad de los servidores.

Otros equipos de operaciones de TI y de DevOps pueden referirse a esta práctica como "gestión de incidentes graves" o, simplemente, "gestión de incidentes".

En las siguientes secciones se explica un proceso de respuesta ante incidentes, qué es lo que hay que hacer entre la constatación de que un servicio está inoperante y su reactivación y puesta en marcha de nuevo, según el material de nuestro propio Manual de gestión de incidentes.

En este artículo, explicaremos las siete fases clave de la respuesta ante incidentes:

  1. Detectar el incidente
  2. Definir los canales de comunicación del equipo
  3. Evaluar la repercusión y aplicar un nivel de gravedad
  4. Comunícate con los clientes
  5. Escalar a los usuarios de respuesta adecuados
  6. Delegar las funciones de respuesta ante incidentes
  7. Resolver el incidente
Flujo de trabajo respuesta ante incidentes

Detectar el incidente

Lo ideal es que las herramientas de supervisión y generación de alertas detecten los incidentes e informen a tu equipo de ellos antes siquiera de que los clientes se enteren. No obstante, en ocasiones, la primera noticia de un incidente te llegará a través de Twitter o de tickets de atención al cliente.

No matter how the incident is detected, your first step should be to record that a new incident is open in a tool for tracking incidents. In an incident management solution such as Jira Service Management, alerting and communication is integrated with your tracking tool.

Definir los canales de comunicación del equipo

One of the first things the incident manager (IM) does when they come online is set up the incident team's communication channels. The goal at this point is to establish and focus all incident team communications in well-known places, such as:

  • Una sala de chat en Slack u otro servicio de mensajería.
  • Un videochat en una aplicación de videoconferencias como Zoom (o, si os encontráis todos en el mismo lugar, reúne al equipo en una sala física).

Preferimos usar el videochat y una herramienta de chat de texto durante los incidentes, ya que ambos son excelentes para cosas distintas. El videochat es genial para crearnos con rapidez una imagen mental compartida del incidente mediante una conversación en grupo. Además, Slack ayuda a generar un registro con marca de tiempo del incidente, junto con una recopilación de enlaces a pantallazos, URL y paneles.

Slack y la mayoría del resto de las herramientas de chat permiten a los usuarios establecer el tema de una sala. El gestor de incidentes debe utilizar este campo para plasmar información sobre el incidente y enlaces útiles.

Por último, el GI establece su propio estado de chat personal para la clave de incidencia del incidente que está gestionando, lo cual informa a sus compañeros de que están ocupados con la gestión de un incidente.

Evaluar la repercusión y aplicar un nivel de gravedad

Después de establecer los canales de comunicación del equipo de incidentes, es momento de evaluar el incidente para que el equipo pueda decidir qué decir sobre este y quién debe corregirlo.

A continuación te mostramos una serie de preguntas que los IM deben formular a sus equipos:

  • ¿Cuál es el impacto en los clientes (a nivel interno o externo)?
  • ¿Qué ven los clientes?
  • ¿A cuántos clientes les afecta (a algunos, a todos)?
  • ¿Cuándo ha comenzado?
  • ¿Cuántos casos de soporte han abierto los clientes?
  • ¿Existen otros factores? (P. ej., Twitter, seguridad o pérdida de datos)

The next step typically is to assign a severity level.

Niveles de gravedad de respuesta ante incidentes

Gravedad 1
Descripción: Un incidente crítico con una amplísima repercusión.
Ejemplos:

  • Un servicio público que afecta a todos los usuarios
  • Se ha vulnerado la confidencialidad o la privacidad.
  • Se han perdido datos del cliente.

Gravedad 2
Un incidente grave con una repercusión considerable.
Ejemplos:

  • Un servicio público no está disponible para algunos clientes, pero para el resto, sí.
  • Una funcionalidad esencial se ve afectada considerablemente.

Gravedad 3
Un incidente leve de poca repercusión.
Ejemplos:

  • Una inconveniencia secundaria para los clientes que cuenta con una solución alternativa.
  • Degradación del rendimiento usable.

Utilizar un sistema de numeración para los niveles de gravedad ayuda a definir el incidente y comunicarlo con rapidez. Alguien no tiene más que decir "podríamos tener un nivel 1 [de gravedad, entiéndase]", y las personas adecuadas pueden entender de inmediato la gravedad del asunto antes incluso de obtener información adicional.

Los niveles de gravedad también pueden ayudar a desarrollar pautas para las expectativas de respuesta.

Por ejemplo, en algunas empresas, los incidentes de gravedad 3 se pueden solucionar durante el horario laboral, mientras que los de gravedad 1 y 2 obligan a avisar a los miembros del equipo para dar una solución inmediata.

Las definiciones de la gravedad de los incidentes deben documentarse y ser homogéneas en toda la organización.

Comunícate con los clientes

En cuanto un equipo determina que el incidente es real, lo mejor es ponerse en contacto con las partes interesadas internas y externas lo antes posible.

El objetivo de la comunicación inicial interna es centrar la respuesta ante el incidente en un solo lugar y reducir la confusión.

El objetivo de la comunicación externa es avisar a los clientes de que al equipo le consta que algo va mal y que estáis investigando el asunto. Una comunicación rápida y precisa ayuda a generar confianza entre los clientes y el resto de la organización.

Muchos equipos usan Statuspage para comunicar los incidentes, tanto de forma interna como externa. Aquí tienes dos sencillas plantillas para actualizar una página de estado interna o externa:

Página de estado interna
- -

Estamos investigando un incidente que afecta a , y . En breve enviaremos actualizaciones por correo electrónico y a través de Statuspage.

Página de estado externa
Investigación de incidencias con

Estamos investigando incidencias con y pronto publicaremos actualizaciones aquí.

Escalar a los usuarios de respuesta adecuados

Sometimes the initial responders are the ones who resolve the incident. More often than not, those responders need to bring other teams into the incident by paging them using an alerting tool. With Jira Service Management, responders can take their pick as to what alerting method they use, or even use them all in one central location.

Las herramientas de generación de alertas permiten a los equipos definir listas de guardias para crear una rotación del personal que se espera que esté disponible durante un incidente, lo cual es mejor que confiar en una persona específica cada vez que se produce un incidente, ya que no siempre estará disponible esa misma persona (porque se irá de vacaciones, cambiará de trabajo o se agotará cuando le llamas demasiado).

Delegar las funciones de respuesta ante incidentes

After a new incident responder is paged and comes online, the incident manager delegates a role to them. As It’s important they understand what's required of their role, and how to contribute to the incident team quickly and effectively.

Otra de las ventajas de definir las funciones es que posibilita una mayor adaptabilidad y flexibilidad. Siempre que alguien sepa cómo desempeñar una función específica, podrá ejercerla para cualquier incidente.

Tres funciones clave en la respuesta ante incidentes

Gestor de incidentes

El gestor de incidentes dirige todos los incidentes, y es quien tiene la autoridad y responsabilidad total por el incidente.

El gestor de incidentes tiene autoridad para efectuar todas las acciones necesarias a fin de resolver el incidente, lo que incluye ponerse en contacto con cualquiera de la organización y hacer que las personas implicadas en un incidente permanezcan concentradas en restaurar el servicio cuanto antes.

Responsable técnico

Un usuario de respuesta técnico sénior. Es responsable de desarrollar teorías sobre qué ha fallado y por qué, de decidir los cambios y de dirigir el equipo técnico. Esta persona colabora íntimamente con el gestor de incidentes.

Gestor de comunicaciones

La persona familiarizada con las comunicaciones públicas, que podría pertenecer al equipo de atención al cliente o de relaciones públicas. Su cometido es escribir y enviar comunicaciones a nivel interno y externo sobre el incidente.

Resolver el incidente

No existe ningún proceso integral que pueda resolver todos los incidentes. Si lo hubiera, nos habríamos limitado a automatizarlo y ya habríamos terminado. En vez de eso, inspírate en el método científico. Itera a partir del siguiente proceso para adaptarlo rápidamente a diversas situaciones de respuesta ante incidentes:

  • Fíjate en lo que está sucediendo. Comparte observaciones y confírmalas.
  • Desarrolla teorías sobre los motivos por los que está pasando.
  • Desarrolla y lleva a cabo experimentos que demuestren o refuten tus teorías.
  • Repite hasta que se resuelva el incidente.

Un incidente se resuelve cuando concluye el impacto empresarial actual o inminente. Llegados a este punto, el proceso de respuesta de emergencia termina y el equipo pasa a ocuparse de cualesquiera tareas de limpieza que hagan falta y del análisis retrospectivo.

Una vez resuelto el incidente, enviamos las comunicaciones internas y externas definitivas. Las comunicaciones internas contienen un resumen del impacto y la duración del incidente, que incluye cuántos casos de soporte se han emitido y otras dimensiones importantes del incidente. Además, deben enunciar claramente que el incidente se ha resuelto y que no se enviarán más comunicaciones al respecto. Las comunicaciones externas suelen ser breves e informan a los clientes de que se ha restaurado el servicio y de que el equipo realizará un seguimiento con un análisis retrospectivo.

Conclusion

There are many moving parts to the incident response process. Keeping track of each step with seamless communication is easy with an incident management tool like Jira Service Management. Centralize alerts and unify teams with flexibility to resolve incidents quickly.