Gestión de incidentes para equipos de alta velocidad
Cómo adoptan ChatOps los equipos para la gestión de incidentes
No es ningún secreto que, cuanto mejor sea tu comunicación, mejor será tu gestión de incidentes.
Los equipos con prácticas sólidas de comunicación y colaboración resuelven incidentes con mayor rapidez y, al mismo tiempo, tienen satisfechos tanto a los equipos internos como a los usuarios externos. Además, están mejor preparados para hacer análisis retrospectivos que contribuyan a identificar los problemas fundamentales y prevenir incidentes en el futuro.
Este es el motivo por el que no es de extrañar que ChatOps se haya convertido en un componente esencial de los procesos de muchos equipos de gestión de incidentes.
Por qué ChatOps
Como bien dice Sean Regan, el director de marketing de producto para Jira y Bitbucket, ChatOps son conversaciones que se ponen a trabajar:
“ChatOps es un modelo de colaboración que conecta personas, herramientas, procesos y automatización en un flujo de trabajo transparente. Este flujo conecta el trabajo necesario, el que está en curso y el realizado en una ubicación permanente atendida por las personas, por bots y por herramientas relacionadas” La transparencia refuerza el ciclo del feedback, mejora el intercambio de información y aumenta la colaboración del equipo, por no hablar de la cultura del equipo y la formación cruzada...”.
“El chat representa una nueva forma de captar el conocimiento colectivo de un equipo y usarlo para impulsar un cambio duradero en la forma de entregar los productos y de colaborar del personal. Al hablar de ello no parece un cambio demasiado radical, pero cuando empiezas a trabajar así, no te imaginas volviendo a seguir el método anterior”.
¿Cómo funciona ChatOps en la gestión de incidentes?
En el contexto de la gestión de incidentes, ChatOps lleva el flujo de trabajo de los incidentes a un solo lugar para que los equipos continúen coordinados y siguiendo una metodología ágil.
Centraliza toda la comunicación sobre los incidentes, los informes de incidentes, los planes y el progreso, con lo que mantiene a todo el mundo al día en tiempo real. Además, proporciona un lugar para que los equipos de DevOps, de TI, de comunicaciones, de seguridad, jurídicos y otros equipos pertinentes puedan colaborar no solo en la resolución de incidentes, sino también en su prevención y en la mitigación de riesgos en el futuro.
Derriba las unidades aisladas de información durante los incidentes
Todo el mundo puede acceder a la misma información
Cuanto más aisladas estén tus conversaciones sobre incidentes, mayores serán las posibilidades de que se produzcan errores de comunicación que hagan descarrilar el progreso del proyecto. Reunir a todo el mundo en una sola sala de chat reduce ese riesgo.
Las conversaciones se producen en tiempo real
Esto significa que todas las personas que tienen que estar al corriente y reaccionar (desde los desarrolladores que resuelven incidentes hasta los gestores de redes sociales que tranquilizan a los usuarios finales) estén siempre están al día y sin demora.
Menos cambios de contexto
Sin ChatOps, la gestión de incidentes suele producirse entre una variedad de aplicaciones y se comunica por correo electrónico, teléfono, texto, etc., lo cual conlleva una gran cantidad de cambios de contexto y obliga a devanarse los sesos para hacer un seguimiento.
ChatOps lo optimiza todo —todo lo posible— en un solo lugar. Las alertas entran en el chat. Los informes entran en el chat. Las conversaciones se relegan al chat. Y, por lo tanto, hay un solo lugar al que tienen que ir los equipos de incidentes para recibir la información más reciente.
Nada de jugar al teléfono escacharrado
Cualquiera que conozca el viejo juego del teléfono escacharrado sabe que basta con uno o dos traspasos de información para cambiar un mensaje por completo. ChatOps elimina este riesgo. Si todo el mundo puede acceder a las mismas conversaciones originales, el riesgo de que se produzcan errores de comunicación se reduce considerablemente.
Integra de serie un registro por escrito para los análisis retrospectivos de los incidentes
¿Qué salió mal? ¿Cuánto tiempo se tardó en resolver el incidente? ¿Qué acabó solucionando el problema? ¿Es la solución algo que podemos automatizar en el futuro?
Estos son los tipos de preguntas que probablemente acabarás investigando en el análisis retrospectivo de un incidente. Además, con un único registro de todas las comunicaciones en el que conste la fecha y la hora, resultará mucho más sencillo contestarlas de forma clara y correcta.
Prácticas recomendadas de ChatOps para la gestión de incidentes
Conecta tu sistema de alertas con tu chat
Cuanto más tengan que entrar en el chat y salir de él los desarrolladores para resolver un incidente, más tiempo perderás cambiando de tarea; lo que significa que, en lugar de enviar alertas por correo electrónico y teléfono durante un incidente, enviarlas directamente a tu sala de chat puede contribuir a agilizar el proceso de resolución de incidentes.
Establece umbrales inteligentes para tus alertas
El exceso de alertas es una amenaza muy real, sobre todo en medio de un incidente grave. Por lo tanto, cuando recomendamos canalizar las alertas directamente en tu chat, no nos referimos a todas las alertas.
¿Qué alertas ayudarán a tu equipo a responder de forma rápida y completa a un incidente? ¿Qué alertas no son más que ruido? ¿Qué alertas son duplicados?
Plantea estas preguntas por adelantado y establece umbrales de alerta inteligentes para tu chat con el fin de mantener las cosas optimizadas y reducir el riesgo de que a los equipos se les escape algo importante debido al exceso de alertas. Una herramienta como Opsgenie te permite configurar cuáles son las acciones que se envían a una sala de chat y filtrar las alertas en función de sus propiedades.
Configura una sala independiente para cada incidente grave
Los equipos que gestionan un incidente grave no deberían preocuparse por quedarse empantanados por incidentes leves, el chat cotidiano u otros incidentes que no ocupen una posición tan elevada en su lista de prioridades. Procura que cada incidente grave tenga su propia sala exclusiva.
Incorpora acciones al chat
Con una combinación como la de Slack y Opsgenie, el chat de gestión de incidentes se puede convertir en algo más que un mero canal de comunicación. Puedes habilitar comandos de texto o botones directamente en el chat para que ejecuten acciones con incidentes, tales como asignar alertas, hacerse cargo de incidentes, añadir notas, silenciar incidentes o incluso crear nuevas alertas.
Invita a varios equipos
Desde los equipos de DevOps y TI hasta los líderes de comunicaciones y los gestores de redes sociales, pasando por los jurídicos y de seguridad, es habitual que haya varios equipos y funciones que tengan que estar al tanto de un incidente en tiempo real. Averigua quiénes son estos equipos y funciones con antelación, e incorpóralos pronto a tu chat.
Prioriza la seguridad
Procura que tu chat sea seguro y que las únicas personas que puedan acceder para intervenir sean las que tú quieres que lo hagan.
Guarda las transcripciones de los chats
Una vez resuelto el incidente, llega la hora del análisis retrospectivo, y ChatOps simplifica el proceso. El hecho de que haya una sola sala en la que tenga lugar toda la comunicación sobre incidentes significa que, una vez terminado el incidente, dispondrás de un registro integral de todas las conversaciones, acciones, alertas e informes, y todo ello en un solo lugar. Puedes guardar este registro para conservarlo en el futuro, usarlo para actualizar los manuales de estrategias de incidentes e indagar en él durante el análisis retrospectivo para dar con formas de evitar o mitigar el riesgo de que en el futuro se produzcan incidentes parecidos.
6 funciones imprescindibles a la hora de usar Slack para la gestión de incidentes
Descubre ChatOps, seis funciones importantes de las integraciones de chat para las soluciones de gestión de incidentes y una comparación de las integraciones de Slack empleadas por los actores más importantes en la gestión de incidentes.
Configuración de un horario de guardias con Opsgenie
En este tutorial aprenderás a configurar un horario de guardias, aplicar reglas de anulación, configurar notificaciones de guardias y mucho más, todo dentro de Opsgenie.
Leer el tutorialVentajas e inconvenientes de los diferentes enfoques de la gestión de las guardias
Los equipos de guardia evolucionan rápidamente. Descubre las ventajas y los inconvenientes de los diferentes enfoques de la gestión de las guardias.
Leer el artículo