Close

Gestión de incidentes para equipos de alta velocidad

Manual de gestión de incidentes de Atlassian

En la actualidad, se espera que los equipos que ofrecen servicios tecnológicos tengan una disponibilidad ininterrumpida.

Cuando algo va mal, ya sea debido a una interrupción del servicio o a que falle una funcionalidad, los miembros del equipo deben responder de inmediato y restaurar el servicio. Este proceso se denomina gestión de incidentes y supone un desafío complejo y constante para pequeñas y grandes empresas.

Queremos ayudar a todos los equipos, independientemente de dónde se encuentren, a mejorar la gestión de incidentes. Inspirándonos en equipos como el de .Google, hemos creado este manual a modo de resumen del proceso de gestión de incidentes de Atlassian. Estas son las lecciones que hemos aprendido tras una década de resolución de incidentes. A pesar de que se basan en nuestras experiencias exclusivas, esperamos que se puedan adaptar para cubrir las necesidades de tu propio equipo.

Manual de gestión de incidentes

Obtén el manual en versión impresa o PDF

Tenemos existencias limitadas de la versión impresa del manual de gestión de incidentes, que enviamos de forma gratuita. También puedes descargar una versión en PDF.

Queremos ayudar a todos los equipos, independientemente de dónde se encuentren, a mejorar la gestión de incidentes. Inspirándonos en equipos como el de .Google, hemos creado este manual a modo de resumen del proceso de gestión de incidentes de Atlassian. Estas son las lecciones que hemos aprendido tras una década de resolución de incidentes. A pesar de que se basan en nuestras experiencias exclusivas, esperamos que se puedan adaptar para cubrir las necesidades de tu propio equipo.


¿A quién se dirige esta guía?

Si perteneces a un equipo de desarrollo o de operaciones que se ocupa de servicios de Internet para clientes que requieren disponibilidad ininterrumpida, este es tu manual.


¿Qué es un incidente?

Definimos incidente como un evento que causa una interrupción o una reducción en la calidad de un servicio, y que requiere una respuesta de emergencia. Los equipos que siguen las prácticas de ITIL o ITSM pueden utilizar para esto el término incidente principal en su lugar.

Se considera que un incidente está resuelto cuando el servicio afectado vuelve a funcionar con normalidad. Esto incluye solo las tareas necesarias para restaurar la completa funcionalidad.

El análisis a toro pasado de los incidentes se lleva a cabo después de que se produzca el incidente con el objetivo de determinar el origen del problema y asignar acciones para garantizar que se solucione antes de que cause un incidente repetido.


Nuestros valores de incidente

Un proceso para gestionar incidentes no puede cubrir todas las situaciones posibles, por lo que ofrecemos orientación a tus equipos en forma de valores. De forma similar a los valores de la compañía Atlassian, hemos diseñado nuestros valores de incidentes con los siguientes objetivos:

  • Guía la toma de decisiones autónoma de personas y equipos con incidentes y análisis retrospectivos.
  • Construir una cultura coherente entre equipos relativa a cómo identificamos, gestionamos, y aprendemos de los incidentes.
  • Sincronizar a los equipos con respecto a qué actitud deben mostrar ante cada parte de la identificación, resolución, y reflexión de incidentes.
Fase Valor de incidente Valor de Atlassian relacionado Razonamiento
1. Detectar Atlassian se entera antes que nuestros clientes

Crea con el corazón y equilibrio

Un servicio equilibrado incluye las suficientes labores de supervisión y alerta para detectar incidentes antes de que lo hagan los clientes.

El mejor sistema de supervisión alerta de los problemas antes de que se conviertan en incidencias.

2. Responder Escalar, escalar y escalar

Funcionar como un equipo

A nadie le gusta que lo despierten, y no nos tomamos la responsabilidad a la ligera. Sin embargo, todo el mundo suele entender que a veces se les despierte por un incidente para el que al final no hacen falta. Lo que suele ser más difícil de entender es que te despierten por un incidente grave y tengas que ponerte al corriente de la situación cuando deberían haberte avisado antes.

No siempre tenemos todas las respuestas, por lo que "no dudes en derivar".

3. Recuperar Todo se vuelve un caos, soluciónalo rápidamente. No #@!% al cliente

A nuestros clientes no les importa por qué se ha interrumpido el servicio. Lo único que les interesa es que lo restauremos lo más rápido posible.

Nunca dudes en resolver un incidente rápidamente para que podamos minimizar el impacto en nuestros clientes.

4. Aprender Siempre irreprochable Empresa abierta, sin tonterías Los incidentes forman parte de la ejecución de los servicios. Nosotros mejoramos los servicios al hacer responsables a los equipos y no repartir las culpas.
5. Mejorar No dejes que se produzca dos veces el mismo incidente Ser el cambio que deseas

Identifica el origen del problema y los cambios que evitarán que toda la clase de incidente ocurra de nuevo.

Comprométete a realizar cambios específicos en fechas determinadas.


Requisitos de herramientas

El proceso de gestión de incidentes descrito usa varias herramientas que son específicas de Atlassian y pueden sustituirse cuando sea necesario:

  • Seguimiento de incidentes : cada incidente se supervisa como incidencia de Jira y se crea un seguimiento de incidencia para llevar un control de la ejecución de los análisis retrospectivos (Atlassian utilizaba una versión altamente personalizada de Jira Software para esto).
  • Sala de chat: un canal de comunicación de texto en tiempo real es fundamental para diagnosticar y resolver el incidente como equipo.
  • Videochat: para muchos incidentes, un videochat de equipos como Blue Jeans puede ayudarte a tratar y acordar enfoques.
  • Sistema de alertas: la herramienta Opsgenie gestiona las rotaciones de guardias y las derivaciones.
  • Herramienta de documentación: usamos Confluence para nuestros documentos de estados de incidentes y para compartir análisis a toro pasado mediante blogs.
  • Statuspage: comunicar el estado a las partes internas interesadas y a los clientes mediante Statuspage ayuda a mantener a todo el mundo informado.

Seguimiento de incidentes

Cada incidente se supervisa como incidencia de Jira y se crea un seguimiento de incidencia para llevar un control de la ejecución de los análisis retrospectivos. En el proceso de este manual se hace referencia a la versión altamente personalizada de Jira Software.

Las incidencias de incidentes las crea normalmente un ingeniero de soporte en respuesta a un ticket de cliente o un desarrollador que reconoce una alerta de supervisión como un incidente. Animamos a las personas a crear una incidencia si les preocupa algo, en lugar de esperar a derivarla.

En Jira, tenemos un workflow sencillo para supervisar los incidentes en la fase de resolución y registrar todas las acciones importantes que se han realizado durante la respuesta al incidente.


Gestor de incidentes

Cada incidente se encuentra bajo el control del gestor de incidentes (GI), que tiene la autoridad y responsabilidad total con respecto al incidente. La persona asignada al incidente se encarga de nombrar a este gestor. El gestor de incidentes puede realizar todas las acciones necesarias para resolver los incidentes, lo que incluye ponerse en contacto con alguien de la organización y mantener a los que participan en un incidente centrados en restaurar el servicio lo antes posible.

El gestor de incidentes se corresponde una función, más que con un individuo en el incidente. La ventaja de definir las funciones durante un incidente es que permite que las personas sean intercambiables. Siempre que una persona determinada sepa cómo desempeñar una función específica, esta podrá ejercer dicha función para cualquier incidente.


¿Tienes ideas o sugerencias para esta guía?