Close

El camino hacia una mejor gestión de incidentes empieza aquí

Prácticas recomendadas para la comunicación de incidentes

Los incidentes siempre han sido una realidad cotidiana para las personas de TI y Operaciones. Actualmente, los equipos de DevOps y atención al cliente también reciben un curso intensivo en comunicación de incidentes.

La comunicación de incidentes es el proceso de alertar a los usuarios de que un servicio está experimentando algún tipo de interrupción del servicio o un rendimiento degradado. Esto es especialmente importante para los servicios web y de software, donde se espera disponibilidad ininterrumpida.

La comunicación de incidentes a escala web es más compleja que el simple envío de un correo electrónico masivo. Hay que tener en cuenta diferentes públicos. Distintos umbrales para las expectativas de mensajería y respuesta.

Dado que es inevitable que se produzca algún tiempo de inactividad, lo mejor es planificar con antelación y asegurarse de que el equipo esté preparado.

Esta es nuestra guía sobre las prácticas recomendadas para la comunicación de incidentes. Trataremos lo siguiente:

  • Por qué es importante la comunicación de incidentes
  • Cómo prepararse para la comunicación de incidentes
  • Cómo manejan la tarea los profesionales de la comunicación de incidentes
  • Por qué la comunicación de incidentes no termina después del incidente
Diagrama de comunicación de incidentes

Comunicación de incidentes: ¿para quién es importante?

A tus clientes y compañeros les importa. Y a ti también debería importarte. Los tiempos de inactividad mal gestionados pueden suponer una experiencia desastrosa para tus clientes y equipos, lo que puede afectar a tus resultados. Es posible que a algunos de los clientes les preocupe que puedan verse sorprendidos por más malas experiencias y decidan pasarse a la competencia. Perderás futuros clientes debido a la falta de confianza. La moral del equipo puede resentirse y, como consecuencia, podría bajar la productividad. Además, despídete de todas esas maravillosas recomendaciones que suelen darse del boca a boca.

Por suerte, los tiempos de inactividad imprevistos no tienen por qué convertirse en una pesadilla para la atención al cliente. Resulta que, si se mantiene a los clientes al corriente comunicándoles lo que ocurre y lo que se está haciendo para solucionar el problema, lo entenderán y tendrán una reacción mucho menos negativa ante toda la situación.

Preparación para la comunicación de incidentes

Prepararse adecuadamente evita que el rendimiento flaquee. Si es un eslogan lo suficientemente bueno como para adentrarse en la batalla, es igual de apropiado para tu estrategia de comunicación de incidentes. Cuando te encuentres bajo la presión de un incidente, agradecerás haber dedicado tiempo a la comunicación de incidentes.

Definición de lo que se considera un incidente

Antes de poder comunicar los incidentes, debemos decidir qué es un incidente. Muchas empresas web se basan en un sistema estandarizado de definición de la gravedad en 4 niveles. Aquí tienes una estupenda guía sobre las definiciones de gravedad de nuestro propio manual de gestión de incidentes.

Sean cuales sean tus umbrales de gravedad de los incidentes, resulta fundamental marcar unos límites claros (lo ideal sería que fuera en torno a algún tipo de métrica cuantificable). Si designas un incidente como de gravedad 1, es importante que todos los miembros del equipo sepan exactamente lo que eso significa.

Los sistemas de definición de la gravedad también son útiles para eliminar los matices inherentes al tiempo de inactividad.

Independientemente del sistema que elijas, te recomendamos un plan de comunicación de tolerancia cero para los incidentes que impliquen incidencias de seguridad o pérdida de datos.

Selección de las soluciones de comunicación, canales y plantillas de mensajes con antelación

Los equipos profesionales de soporte y los ingenieros de fiabilidad del sitio no deciden sobre la marcha los canales por los que se van a comunicar. Elaboran un plan de antemano.

Existen seis canales principales para la comunicación de incidentes:

  • Página de estado especializada
  • Estado insertado
  • Correo electrónico
  • Herramienta de chat del trabajo
  • Redes sociales
  • SMS

Página de estado especializada

Nuestra recomendación es que los equipos utilicen una página de estado especializada como principal solución de comunicación de incidentes. Independientemente de que crees tu propia solución u optes por una alojada, como Statuspage, es importante ofrecer a los clientes y compañeros una fuente de información clara durante los incidentes. Statuspage también brinda a los usuarios la posibilidad de suscribirse para recibir actualizaciones en el momento en que se publiquen. Esto alivia la carga de soporte a los equipos que deberían ocuparse de solucionar el problema.

Estado insertado

En Statuspage, facilitamos la introducción de información sobre el estado directamente en cualquier sitio web que gestionen nuestros clientes. Sabemos que la mayoría de los visitantes suelen consultar la página de inicio o de soporte de un proveedor antes de buscar una página de estado. El widget insertado (aquí tienes un ejemplo) permite indicar a esos visitantes de forma sencilla si se ha producido un incidente. Los visitantes también pueden hacer clic en el widget para ir a la página de estado.

Correo electrónico

Como acabamos de mencionar, una buena herramienta de página de estado le dará a tu público la opción de suscribirse para recibir avisos por correo electrónico. Aunque envíes los mensajes directamente desde tu herramienta de correo electrónico, en lugar de utilizar una página de estado para desencadenar el envío de los correos, es un buen canal para la comunicación de incidentes.

Herramientas de chat

El uso de las herramientas de chat, como Slack, se ha extendido enormemente en los trabajos durante los últimos años. Muchos equipos montan una sala de operaciones especializada para la comunicación de incidentes o crean una nueva sala para cada uno de ellos. Consulta aquí nuestras integraciones con herramientas de chat.

Redes sociales

Muchos equipos utilizan canales de redes sociales, como Twitter, para la comunicación durante un incidente. Es buena idea incluirlos en tu estrategia, pero no dependas de ellos como único medio de comunicación.

Ninguno de estos canales es una solución milagrosa para la comunicación de incidentes. Todos tienen diferentes puntos fuertes y es al combinarlos cuando se les saca verdadero provecho. Por ejemplo, podemos publicar los incidentes en una página de estado, pero también enviar esas actualizaciones por Twitter. Asimismo, podemos integrarlos en nuestra aplicación web. Estos mensajes dirigen al usuario de vuelta a la página de estado para obtener más detalles sobre el incidente. Te recomendamos que identifiques un canal como tu principal medio de comunicación y canalices ahí a todo el mundo desde los demás canales.

SMS

Enviar un SMS o mensaje de texto suele ser una forma más inmediata de llegar a alguien y una preferencia para muchas personas cuando se trata de alertas críticas de entrada, como un anuncio de tiempo de inactividad. También constituye un canal donde la gente puede cansarse de los mensajes muy rápidamente y darse de baja si recibe demasiados SMS que no son de interés.

Configuración de plantillas para la comunicación de incidentes e interrupciones

Bajo la presión de un incidente, lo último de lo que quieres preocuparte es de cómo redactar el anuncio de un incidente. Expresar el incidente de manera incorrecta es la excusa perfecta para los gestores no técnicos, que podrían aferrarse a cualquier resquicio para criticar el proceso de respuesta de tu equipo.

Decide el lenguaje que se utilizará habitualmente con antelación, haz que los responsables lo aprueben y guárdalo en una plantilla. De este modo, resultará más fácil introducir los detalles pertinentes y abordar un incidente el mismo día.

Aquí tienes dos de las plantillas de incidentes que usamos para nuestra propia página de estado:

  • El sitio está experimentando en estos momentos una carga superior a la normal, lo que puede provocar que las páginas se ralenticen o no respondan. Estamos investigando la causa; comunicaremos las novedades lo antes posible.
  • Nuestro proveedor de almacenamiento de datos de métricas públicas está teniendo problemas de infraestructura en estos momentos. Comunicaremos las novedades a medida que se desarrolle la situación o se nos facilite información.

Echa un vistazo a nuestra biblioteca de plantillas de incidentes para ver más ejemplos.

Gestión de la comunicación como un profesional

El ciclo de vida de un incidente incluirá probablemente varios puntos de contacto. Si el proceso se hace bien, un incidente tiene una estructura común que consta de tres partes: primer contacto, actualizaciones durante el incidente y resolución y análisis retrospectivo.

Parte 1: primer contacto

La actualización inicial es la más importante. Todo, desde lo que dices hasta cómo y cuándo lo dices, marca el tono de cómo se percibirá tu respuesta. En este aspecto es donde verdaderamente ayuda tener una plantilla preparada de antemano.

Tu objetivo debería ser admitir rápidamente el problema, resumir brevemente las consecuencias conocidas, prometer futuras actualizaciones y, si es posible, mitigar cualquier preocupación en torno a la seguridad o la pérdida de datos. Es crucial admitir que hay un problema, aunque todavía no se conozcan los detalles exactos.

Parte 2: actualizaciones periódicas durante el incidente

La comunicación a mitad del incidente resulta esencial.

Según los equipos de SRE de Google, el responsable de comunicación es una de las funciones clave que alguien debe supervisar durante un incidente.

En el libro “Site Reliability Engineering” (Ingeniería de fiabilidad del sitio) de Google, se dice esto sobre la función del responsable de comunicación:

Esta persona es la cara pública del equipo de respuesta ante incidentes. Sus tareas incluyen, sin duda, la comunicación de actualizaciones periódicas al equipo de respuesta ante incidentes y a las partes interesadas (por lo general, por correo electrónico), y también pueden abarcar, por ejemplo, el mantenimiento de un documento de incidentes minucioso y actualizado.

Esta persona también se encargará de continuar actualizando la página de estado o publicar las novedades en los demás canales a medida que la situación evolucione. Incluso una actualización donde se diga “Seguimos trabajando en la incidencia, no hay nada nuevo de lo que informar” es mejor que no comentar nada y dejar al público colgado. La gente que se ve rodeada por la más absoluta oscuridad empieza a temerse lo peor.

Parte 3: resolución, análisis retrospectivo y lo que viene después

En 2010, Facebook sufrió su mayor interrupción hasta la fecha. Durante unas 2 horas y media, la red social no estuvo disponible para millones de sus entonces quinientos millones de usuarios.

El momento no podía haber sido menos oportuno para el incipiente gigante tecnológico, que aún estaba en los primeros días de su espectacular aumento de usuarios y necesitaba seguir demostrando al mundo empresarial que el servicio merecía la pena.

Cuando las aguas volvieron a su cauce, un ingeniero de Facebook publicó un resumen de 395 palabras en el blog de ingeniería de la empresa sobre el incidente.

Este es un fragmento del blog:

Durant el día de hoy, Facebook ha estado fuera de servicio o inaccesible para muchos de vosotros durante unas 2 horas y media. Esta es la peor interrupción que hemos tenido en más de cuatro años y, en primer lugar, queríamos pedir disculpas por ello. También nos gustaría dar muchos más detalles técnicos sobre lo ocurrido y compartir la gran lección que hemos aprendido.

La estructura del análisis retrospectivo es muy sencilla:

  • Admitir el problema, empatizar con los afectados y disculparse
  • Explicar lo que ha ido mal y por qué
  • Explicar lo que se ha hecho para solucionar el incidente y para evitar que se vuelva a repetir
  • Admitir, empatizar y disculparse una vez más

En este tipo de comunicaciones, no es necesario utilizar muchas florituras ni hacer afirmaciones grandilocuentes. Hay que hablar con sencillez e ir al grano. Por ejemplo, también se explicó esto en el blog de Facebook:

Nos disculpamos de nuevo por la interrupción del sitio y queremos que sepáis que nos tomamos muy en serio el rendimiento y la fiabilidad de Facebook.

Esta forma de hablar facilita que los clientes y compañeros confíen en que diriges un equipo sensato y que no pierdes de vista el objetivo.

La realidad de los servicios ininterrumpidos es que, en ocasiones, surgen problemas de improviso. Una comunicación eficiente durante el tiempo de inactividad puede infundir confianza tanto en los compañeros como en los clientes. Una buena respuesta puede marcar la diferencia. También hemos creado esta sencilla herramienta para ayudarte a redactar rápidamente comunicaciones eficaces durante los incidentes.

Productos discutidos
Logotipo de Statuspage

Comunica el estado a tus usuarios de manera cómoda y en tiempo real.

A continuación
On call schedule