Close

El camino hacia una mejor gestión de incidentes empieza aquí

Cómo crear mejores cronogramas de incidentes (y su importancia)

A medida que la tecnología se vuelve más compleja, también lo hace la gestión de incidentes. Y, a medida que la gestión de incidentes se vuelve más compleja, también lo hacen la documentación y la comunicación.

Por este motivo, cada vez más empresas están adoptando cronogramas de incidentes. Un cronograma de incidente es una fuente de actividades centralizada y diseñada para mantener a los equipos coordinados durante un incidente y generar un registro que esos mismos equipos pueden usar después del incidente para identificar el origen del problema y mejorar el rendimiento en el futuro.

¿Qué son los cronogramas de incidentes?

Un cronograma de incidente es un registro completo en tiempo real de un incidente. Suele constar de entradas manuales (chat), registros consolidados de páginas, alertas y confirmaciones de recepción, y avisos automáticos del sistema (por ejemplo, una notificación que indica que alguien ha cambiado el nivel de gravedad de un incidente o lo ha marcado como resuelto). También se suele sincronizar con el chat o con un canal de Slack.

El cronograma sirve para mantener al equipo coordinado, poner al día rápidamente a los nuevos miembros del equipo y simplificar el proceso de los análisis retrospectivos de incidentes.

“Pongamos que tenemos una lista de todos los cambios realizados en, por ejemplo, los tres últimos días. Sin un cronograma preciso, no podríamos establecer las causas y los efectos, y probablemente terminaríamos causando otra interrupción del servicio”.

— Extracto de “The Phoenix Project” de
Gene Kim, Kevin Behr y George Spafford

El valor de un cronograma de incidente

Una única vista en tiempo real

La falta de comunicación entre equipos o partes interesadas es una de las vías más rápidas para que un incidente acabe descontrolado. Tener un cronograma de incidente mitiga este riesgo, ya que proporciona la misma información en una sola vista y en tiempo real a todas las partes interesadas, ya sean desarrolladores que trabajan en el incidente, miembros del equipo de comunicaciones responsables de informar a los usuarios o altos ejecutivos. De este modo, todo el mundo puede estar al día sin necesidad de llamadas de teléfono ni hilos de correo electrónico o chats inconexos.

La vista única en tiempo real también facilita a las partes interesadas identificar no solo el problema central del incidente, sino también los riesgos y problemas potenciales en los sistemas interconectados. Dar acceso a varios equipos a un mismo cronograma facilita la identificación de problemas, causas o riesgos potenciales en los sistemas interconectados.

Análisis retrospectivos de incidentes más robustos

En Atlassian, los análisis retrospectivos de incidentes son una parte esencial de nuestros procesos de gestión de incidentes y problemas. Reúnen a la gente para averiguar qué pasó, por qué sucedió y qué se puede hacer para evitar que suceda en el futuro. Para llegar al fondo de estas cuestiones, es útil tener un registro detallado de todo lo que sucedió durante un incidente, ya sean alertas, notificaciones para las partes interesadas o la solución del incidente.

Para muchas empresas, los cronogramas de incidentes actúan como ese registro detallado. No son solo una herramienta para la colaboración en incidentes en tiempo real, también son una visión única de lo que sucedió, cuándo sucedió y, a veces, de por qué. Esta información puede ahorrar muchas horas a los equipos durante la fase de revisión del análisis retrospectivo.

Profundizando más aún en los KPI

El cronograma de un incidente suele ayudar a los equipos a conocer el origen del incidente, pero su utilidad va más allá. También se puede utilizar junto con los cronogramas de incidentes similares para ayudar a los equipos a detectar patrones y diagnosticar problemas más grandes con KPI importantes.

Si se tardó más de lo habitual en resolver un incidente, ¿en qué puntos se falló? ¿Coinciden con los de otros incidentes similares? ¿Qué partes del proceso hay que examinar más detenidamente? ¿Hay algún patrón que pueda indicar una incidencia mayor con el proceso, la tecnología o la configuración del equipo? ¿Están enviándose las alertas adecuadamente o necesitamos revisar nuestros umbrales de alerta? ¿El horario de guardias está dando cobertura suficiente a los incidentes? ¿Nuestros equipos están estructurados de la manera adecuada?

Un cronograma puede servir como un único punto de datos para la revisión o como uno de los muchos puntos de datos en una investigación sobre incidencias de SLA y SLO.

Cronogramas de incidentes vs. ChatOps

Normalmente, los cronogramas de incidentes se generan y utilizan en sistemas de gestión de incidentes como Opsgenie para centralizar toda la información sobre incidentes.

La gestión de incidentes con ChatOps tiene el mismo objetivo. La única diferencia es que, en lugar de estar alojado el cronograma en un sistema de gestión de incidentes, ChatOps normalmente lo centraliza en un programa de chat como Slack, que se sincroniza con plataformas de gestión de incidentes como Opsgenie (y cualquier otra fuente relevante) y extrae información de ellas.

Las ventajas de ChatOps (como el acceso de los equipos a la misma información, las conversaciones y actualizaciones en tiempo real, menos cambios de contexto, menos llamadas de teléfono y un registro integrado para análisis retrospectivos) son las mismas que ofrece un cronograma de incidentes. Las diferencias principales son simplemente la ubicación y la cantidad de información. Para la mayoría de los equipos de incidentes, la fuente de ChatOps suele tener mucho “ruido“ en torno a la información importante. Resulta útil incorporar la información relevante al cronograma de incidentes, a la vez que conservas el registro de chat por si alguna vez necesitas consultarlo en el futuro.

A continuación
5 whys