Close

Ready for ITSM at high velocity?

¿Qué es la gestión de la continuidad del servicio de TI?

La gestión de continuidad del servicio de TI (ITSCM) es un componente clave de la prestación de servicios de ITIL . Se centra en la planificación de la prevención, predicción y gestión de incidentes con el objetivo de mantener el rendimiento y la disponibilidad del servicio en los niveles más altos posibles antes, durante y después de un incidente a nivel de desastre.

El objetivo de ITSCM es reducir el tiempo de inactividad, los costes y el impacto empresarial de los incidentes mediante procesos eficaces y estandarizados que deben aplicarse cuando sucedan los inevitables incidentes.

Sin un plan, hay muchos factores que pueden ralentizar (incluso detener) la recuperación de incidentes. Después de todo, tu experto de guardia podría tener que responder amodorrado a las tres de la mañana. También podría haber pasado unos meses trabajando en otras cosas y estar totalmente desconectado del código en cuestión. Puede que entre en pánico al ver la dimensión del incidente, o tocarle la papeleta al último en llegar al equipo de recuperación ante desastres, sin ninguna experiencia en la resolución de incidencias.

Tener un plan bien documentado y claro para la gestión de la continuidad del servicio reducirá los retrasos causados por la curva de aprendizaje, por haber pasado un tiempo sin contacto con el código, por el pánico ante un desastre o por las alertas que suenan en mitad de la noche.

ITSCM e ITIL 4

En ITIL 4, la gestión de continuidad del servicio es un proceso destinado a respaldar la gestión de la continuidad empresarial (BCM). El objetivo del proceso es garantizar que, después de grandes interrupciones, los servicios estén recuperados y funcionando dentro de unos plazos acordados.

ITSCM y gestión de incidentes

ITIL 4 distingue entre la gestión de incidentes (que se ocupa de incidentes de diversos niveles de impacto) e ITSCM (que trata de planificar desastres a gran escala).

¿Qué es exactamente un desastre? La respuesta puede ser diferente para cada empresa, pero el Business Continuity Institute ofrece esta definición: "Un evento repentino y no planificado que causa grandes daños o pérdidas graves a una organización. Provoca que una organización no proporcione funciones empresariales críticas durante algún período de tiempo mínimo preestablecido".

Toda empresa deberá definir y documentar tres factores: la escala de lo que se considera desastre, el tiempo mínimo preestablecido y la definición de las funciones críticas del negocio.

ITSCM y gestión de la continuidad empresarial (BCM)

La gestión de la continuidad empresarial es un proceso gestionado fuera de TI, que identifica los riesgos para el negocio y trabaja para mitigarlos. Algunos riesgos pueden estar relacionados con TI, incluidos los incidentes a nivel de desastre, y otros pueden estar fuera del control de TI, como desastres naturales o incendios de las instalaciones.

La gestión de la continuidad empresarial (BCM) abarca ITSCM y otros procesos de mitigación de riesgos, por lo que tiene lógica que los equipos de TI colaboren con el equipo de BCM para crear lo siguiente:

  • Un plan de continuidad empresarial (BCP) que incluye planes para la prevención y la recuperación de incidentes de TI a nivel de desastre
  • Análisis de impacto empresarial (BIA) que identifican el posible impacto de un desastre de TI en el negocio

Objetivos de ITSCM

Desde una perspectiva empresarial, el objetivo de ITSCM es reducir el tiempo de inactividad, los costes y el impacto empresarial de los incidentes a nivel de desastre. Estos son los objetivos en un nivel más táctico:

  • Colaborar estrechamente con BCM para proteger la continuidad general del negocio
  • Crear y gestionar planes para la continuidad del servicio de TI y la recuperación en caso de desastre
  • Colaborar con proveedores para minimizar el impacto de los tiempos de inactividad en productos y servicios, por la repercusión que esto tiene para el negocio
  • Analizar el riesgo y el impacto, y revisar los planes en consecuencia con el tiempo

El proceso de ITSCM

En Atlassian, nuestro propio plan de continuidad se basa en la idea de que el proceso de planificación de desastres es un proceso continuo que debe estar impulsado por los directivos y que debe someterse a exhaustivas pruebas. Estamos decididos a no #@! % a los clientes. Nuestro proceso incluye planificación, comunicación, responsabilidades claras, pruebas y mejora continua.

Planificación

Para comenzar la planificación, hazte preguntas generales y, después, construye un plan a partir de tus respuestas. Estas podrían ser algunas primeras preguntas:

  • ¿Cuál es nuestra respuesta ante incidentes?
  • ¿Qué valores seguiremos?
  • ¿Qué tipo de desastres tenemos que planificar? ¿Cuáles son los riesgos y amenazas inherentes a nuestro negocio?
  • ¿Qué sistemas debemos respaldar? ¿Cuáles son críticos?
  • ¿Cómo responderemos ante cada desastre?
  • ¿Dónde está la información que necesitaremos para respaldar y recuperar sistemas críticos?
  • ¿Cómo podemos centralizar esa información y simplificar los procesos de recuperación?
  • ¿Los equipos que van a ocuparse de la gestión pueden revisar la información y la documentación del proceso y colaborar en ellas?

Cuando hayas respondido, define lo siguiente con tus respuestas:

  • Políticas para la recuperación ante desastres
  • Alcance de las responsabilidades de TI
  • Alcance del impacto empresarial de cada riesgo
  • Planes y procesos de cada escenario de riesgo
  • Necesidades de personal y documentación

La clave para que todo vaya bien con la planificación de ITSCM es documentar y crear plantillas del plan resultante, para que sea claro y repetible.

Responsabilidades claras

En caso de desastre, ¿quién es responsable? ¿Quién se encarga de mantener y actualizar planes, procesos y documentación? El ITSCM siempre debe tener claras las funciones y responsabilidades, no solo con respecto a los desastres en sí, sino también para la vigilancia y mejora permanentes.

En Atlassian, parte de nuestro concepto consiste en celebrar reuniones periódicas de recuperación ante desastres con nuestros ingenieros de fiabilidad del sitio y nuestro equipo de riesgos y cumplimiento normativo. Analizan carencias en la recuperación ante desastres y determinan dónde es necesario realizar planes, mejoras, evaluaciones o cambios adicionales.

Comunicación

Un valor fundamental en Atlassian es la mentalidad abierta y creemos que, cuanto mejor conozca tu organización los planes de ITSCM, más efectivos serán esos planes.

La comunicación no solo mantiene a las partes interesadas implicadas y ayuda a los altos directivos a evitar el pánico durante un incidente a nivel de desastre. También permite al equipo recurrir a la ayuda de otros equipos si es necesario y mitigar el riesgo de fricción que puede causar la confusión en la organización.

Pruebas

¿Cómo puedes saber si tus planes funcionan sin probarlos? Esta es una pregunta fundamental para ITSCM y la razón por la que las pruebas y los simulacros de gestión de incidentes son cruciales para el éxito de la práctica.

Las pruebas pueden servir para identificar puntos débiles en el proceso, problemas imprevistos y puntos en los que los equipos pueden necesitar formación o mejor documentación.

Evaluar y mejorar

ITSCM no es un proceso único. Requiere una planificación cuidadosa por adelantado, y formación, evaluación y mejora continuas. Por eso, celebramos reuniones periódicas de recuperación ante desastres. También probamos las copias de seguridad del sistema y ejecutamos simulacros sobre lo que ocurre en caso de interrupción del servicio del centro de datos o de fallo en la región de AWS. Por todo esto, cualquier plan ITSCM que valga la pena está en cambio permanente y en constante supervisión.

La mayoría de las empresas imaginan el proceso ITSCM como una serie de pasos, pero para nosotros es más bien un círculo. La planificación debería dar lugar a funciones y responsabilidades claramente definidas. A partir de ahí, el equipo debe comunicarse en toda la organización, probar una y otra vez, evaluar, supervisar y mejorar y, en esas mejoras, seguir actualizando el plan, definiendo todavía más roles y llevando adelante la comunicación.

Roles y responsabilidades de ITSCM

Con el fin de planificar e implementar con eficacia prácticas de ITSCM en toda la organización, muchas empresas nombran un Gestor de continuidad del servicio y un equipo de Recuperación de continuidad del servicio.

Gestor de continuidad del servicio

Como su nombre indica, el Gestor de continuidad del servicio se encarga de supervisar la continuidad del servicio. Esta persona suele estar al cargo del proceso de principio a fin, liderando el desarrollo de planes, administrando actividades de supervisión y evaluación continuas, y supervisando los planes en acción en caso de desastre.

Suele ser un profesional de asistencia técnica con experiencia y de alto nivel, u ocupar un rol de gestión y no estar directamente involucrado con la tecnología en su trabajo diario.

Equipo de recuperación de continuidad del servicio

Liderado por el Gestor de continuidad del servicio, este equipo se encarga de realizar pruebas y simulacros de incidentes y mejorar continuamente ITSCM. El equipo suele incluir personal técnico, profesionales de control de calidad o usuarios para pruebas, y representantes de departamentos de toda la organización que se ocupan de la comunicación entre ITSCM y sus respectivos equipos.

La importancia de ITSCM

Las organizaciones con planes claros para la recuperación ante desastres se recuperarán más rápida y plenamente en caso de desastres.

ITSCM no se ocupa de planificar las interrupciones diarias. Lo que trata es de abordar los peores escenarios y garantizar que, si suceden, causen una interrupción mínima en la vida de clientes y empleados.

Estas son tres ventajas claras de una buena práctica de ITSCM:

  • Si se produce un desastre, un buen plan ITSCM permitirá recuperar rápidamente los servicios esenciales.
  • La organización siempre está preparada para un desastre grave y puede reaccionar de forma rápida y apropiada.
  • Todas las personas de la empresa saben qué sucederá en caso de desastre y en cuánto tiempo podrán contar de nuevo con los sistemas.
A continuación
Problem Management