Close

Gestión de incidentes para equipos de alta velocidad

Cómo crear un manual de estrategias de respuesta ante incidentes

Inspírate en nuestro manual.

La misión de Atlassian consiste en desatar el potencial de todos los equipos. Si algo tienen en común los grandes equipos es que utilizan manuales de estrategias para gestionar todos los procesos formulados para el buen funcionamiento de sus organizaciones.

Este artículo detalla cinco pasos fundamentales para crear un manual de estrategias con el que responder con eficacia ante incidentes. Usaremos nuestro propio Manual de gestión de incidentes de Atlassian como plantilla para elaborar un plan de respuesta ante incidentes.

Por qué los equipos ágiles necesitan un manual de estrategias de respuesta ante incidentes

Un manual de estrategias de respuesta ante incidentes proporciona a los equipos procedimientos y pasos estándar con los que responder y resolver incidentes en tiempo real. También puede incluir ejercicios y formación para momentos de ausencia de problemas, que prepararán al equipo para el próximo incidente.

En Atlassian, los equipos de incidentes están en constante formación, y optimizan, prueban y mejoran permanentemente nuestro proceso de gestión de incidentes. Hemos elaborado un manual de estrategias de respuesta ante incidentes propio, con estos objetivos:

  • Guiar la toma de decisiones autónoma de individuos y equipos en incidentes y análisis retrospectivos.
  • Crear una cultura de equipo homogénea que incluya cómo identificar, gestionar y aprender de los incidentes.
  • Sincronizar a los equipos con respecto a la actitud que deben mostrar ante cada parte de la identificación, resolución y reflexión de incidentes.

¿Qué es un manual de estrategias de respuesta ante incidentes?

Los manuales de estrategias son un componente clave de la gestión de incidentes de DevOps y Operaciones de TI, así como de la ciberseguridad. Establecen las políticas y prácticas de la organización para responder a las interrupciones no planificadas, ayudan a los equipos a poner orden en el caos y garantizan una respuesta homogénea ante los incidentes y amenazas de seguridad.

Con un manual de gestión de incidentes, tu equipo dispondrá de un conjunto de procesos para responder, resolver y aprender de los incidentes, desde problemas de seguridad a cualquier otra vulnerabilidad emergente. El contenido puede incluir de todo, desde runbooks y checklist hasta plantillas, ejercicios de formación, escenarios de ataques de seguridad y simulacros.

Elaborar un manual de estrategias de respuesta ante incidentes

Al elaborar nuestro propio Manual de gestión de incidentes de Atlassian, hemos determinado cinco prácticas recomendadas a la hora de gestionar un incidente. Estos pasos se pueden trasladar a todo tipo de equipos de DevOps y de operaciones de TI y sirven para elaborar manuales de estrategias de respuesta ante incidentes eficaces.

1. Define qué es un incidente para tu organización

En qué consiste: una definición específica de lo que constituye un incidente.

Por qué: no podrás resolver un incidente de forma eficaz si no sabes cuándo está ocurriendo. Cada equipo define los incidentes a su manera. Si algo sale mal, cada segundo importa y lo último que necesitas es que tus colegas se peleen por definiciones.

Ejemplo:

Esta es la manera en que definimos "incidente" en el Manual de gestión de incidentes de Atlassian:

¿Qué es un incidente?

Definimos incidente como un evento que causa una interrupción o una reducción en la calidad de un servicio, y que requiere una respuesta de emergencia. Los equipos que siguen las prácticas de ITIL o ITSM pueden utilizar para esto el término "incidente principal" en su lugar.

Se considera que un incidente está resuelto cuando el servicio afectado vuelve a funcionar con normalidad. Esto incluye solo las tareas necesarias para restaurar la completa funcionalidad y deja fuera tareas de seguimiento que son parte del análisis retrospectivo, como descubrir el origen del problema y decidir cómo mitigarlo.

El análisis retrospectivo de los incidentes se lleva a cabo después de que se produzca el incidente con el objetivo de determinar el origen del problema y asignar acciones para garantizar que se solucione antes de que cause un incidente repetido.

2. Establece funciones predefinidas

En qué consiste: funciones y responsabilidades de los incidentes.

Por qué: un manual de estrategias de respuesta ante incidentes adecuado designa funciones y responsabilidades claras. Las personas que forman parte del equipo de respuesta ante incidentes deben conocer las funciones de sus compañeros y de qué es responsable cada uno durante un incidente.

Ejemplo:

Las funciones que utilizamos en Atlassian pretenden garantizar que se cubran todos los pasos necesarios, que no se duplique el trabajo y que la comunicación funcione sin problemas y de forma eficaz.

  • El gestor de incidentes tiene la responsabilidad y la autoridad generales sobre el incidente. Puede realizar todas las acciones necesarias para resolverlo, lo que incluye ponerse en contacto con alguien de la organización y mantener a los que participan en un incidente centrados en restaurar el servicio lo antes posible.
  • Líder técnico: trabajador técnico experimentado. Es responsable de desarrollar teorías sobre qué ha fallado y por qué, de decidir los cambios y de dirigir el equipo técnico. Trabaja codo con codo con el gestor de incidentes.
  • Gestor de comunicaciones: persona familiarizada con las comunicaciones públicas, que posiblemente pertenezca al equipo de atención al cliente o a relaciones públicas. Su cometido es escribir y enviar comunicaciones a nivel interno y externo.

3. Haz seguir un proceso coherente

En qué consiste: pasos del proceso y flujos de trabajo.

Por qué: no hay dos incidentes exactamente iguales. Sin embargo, eso no significa que sea imposible introducir un flujo de trabajo homogéneo para responder ante incidentes.

Describe los pasos y las fases clave y asegúrate de que todo el equipo tiene claro lo que debe hacer en cada etapa y cuáles son los pasos siguientes. Por ejemplo, Atlassian describe el flujo de respuesta ante incidentes en siete pasos a través de tres fases para llevar el incidente desde la detección hasta la resolución.

Ejemplo:

miniatura de respuesta ante incidentes

Cuando se detecta un nuevo incidente, el gestor de incidentes pone en marcha la comunicación interna y la organización de respuesta. A continuación, el equipo puede empezar a trabajar para resolver la causa del incidente y llegar a una solución. Una organización sólida en esta etapa facilita el trabajo, que se basa en la comunicación frecuente. Seguir un proceso uniforme agiliza la resolución, incluido el análisis retrospectivo que trataremos a continuación.

4. Permite una respuesta rápida

En qué consiste: plantillas y checklist.

Por qué: los manuales de estrategias de respuesta ante incidentes deben ser lo suficientemente sencillos como para que los equipos los sigan en momentos de tensión. Nuestro propio proceso incluye una "chuleta" para el gestor de incidentes graves, que detalla en una sola página todos los pasos clave como evaluar, derivar y delegar.

Seguir un proceso de respuesta ante incidentes predeterminado no significa que no haya margen para improvisar. Tienes que ser flexible y saber cuándo adaptarte a cambios en la situación. Por definición, los incidentes son situaciones en las que las cosas no salen según lo planeado, pero eso no significa que no puedas planificarlos. Los equipos que entrenan y practican una serie de jugadas suelen ser los que salen airosos.

Estos son algunos consejos:

Prueba a seguir una estrategia de valores de respuestas ante incidentes para mejorar la cohesión del equipo y resolver cualquier posible malentendido antes de que se produzca un incidente. Usa el Manual de estrategias para equipos de Atlassian para conocer mejor el proceso de tu equipo y crear un manual de estrategias dinámico.

5. Facilita análisis retrospectivos integrales

En qué consiste: un esbozo del proceso análisis retrospectivo y los campos de incidencias.

Por qué: los análisis retrospectivos pretenden comprender las causas raíz que propiciaron el incidente, documentarlo para tenerlo de referencia y detectar patrones en el futuro, y establecer medidas preventivas eficaces para reducir la probabilidad de que se vuelva a producir o las consecuencias de que esto suceda. Su objetivo último es sacar todo el valor posible de los incidentes que lleguen a producirse.

Si pasas a considerar los incidentes como inversiones en la fiabilidad de tu sistema que no estaban previstas, el análisis retrospectivo es la forma de maximizar el retorno de esa inversión.

Prueba esto:

Para que los análisis retrospectivos sean efectivos, el proceso debe facilitar que los equipos identifiquen los orígenes del problema y los solucionen. Los métodos exactos dependerán de la política corporativa de tu equipo; en Atlassian, hemos encontrado una combinación de métodos que funciona con nuestros equipos de análisis retrospectivo:

  • Las reuniones presenciales ayudan a llevar a cabo análisis adecuados y a sincronizar al equipo con respecto a qué necesita solución.
  • Las aprobaciones de los análisis retrospectivos de los gestores de los equipos de entregas y operaciones fomentan a los equipos a llevarlos a cabo de forma minuciosa.
  • Designa acciones prioritarias con objetivos de nivel de servicio (SLO) asignados con recordatorios e informes para garantizar que se lleven a cabo.

Puedes encontrar un resumen paso a paso del análisis retrospectivo de la respuesta ante incidentes de Atlassian en la página 46 de nuestro Manual de gestión de incidentes.

En última instancia, se debe utilizar un manual de estrategias de respuesta ante incidentes para promover la colaboración de los equipos para resolver los incidentes lo más rápido posible. Cuando ocurre un incidente, nadie tiene tiempo para debatir las mejores prácticas o para pasar la patata caliente. Con unos manuales de estrategias exhaustivos y bien diseñados, los equipos podrán dar lo mejor de sí. En Atlassian, la guía de todas estas estrategias se detalla en el Manual de gestión de incidentes.

Up Next
On call