Gestión de incidentes para equipos de alta velocidad
¿En qué consisten las alertas de incidentes de TI?f
Las alertas de incidentes se producen cuando las herramientas de supervisión generan alertas para notificar al equipo los cambios, las acciones de alto riesgo o los fallos en el entorno de TI.
Por ejemplo, un sistema diseñado para que los médicos prescriban medicamentos puede generar una alerta si la dosis que solicita un médico es inusualmente alta, no se corresponde con el peso corporal que figura en el expediente de un paciente o supone un riesgo de interacción farmacológica con otros medicamentos comunes.
Del mismo modo, un sistema concebido para supervisar un producto tecnológico puede generar una alerta si un sistema se desconecta, las solicitudes web tardan más de lo habitual en procesarse o la latencia de la base de datos se ralentiza más allá de un umbral establecido.
El objetivo de las alertas de TI es identificar y resolver rápidamente las incidencias que afecten al tiempo de actividad, la velocidad y la funcionalidad de los productos, en todo momento y sin necesidad de una supervisión manual.
¿Por qué son importantes las alertas de TI?
A medida que sigue aumentando la importancia de los sistemas disponibles en todo momento, también lo hace el coste del tiempo de inactividad, ya que los expertos calculan un coste medio de entre 5600 y 9000 dólares por minuto. Dado que cada minuto que el sistema pasa con fallos sale muy caro, la identificación de las incidencias antes de que se vayan de las manos tiene una gran repercusión en los resultados de la empresa (por no hablar de los horarios y los niveles de estrés de los equipos de TI).
Las alertas de TI son la primera línea de defensa contra las interrupciones del sistema o los cambios que pueden convertirse en incidentes graves. Mediante la supervisión automática de los sistemas y la generación de alertas para las interrupciones y los cambios arriesgados, los equipos de TI pueden minimizar el tiempo de inactividad y el alto coste que conlleva.
Prácticas recomendadas de las alertas
Es innegable que las alertas de TI constituyen una parte fundamental de la gestión de incidentes, pero lo cierto es que no son una simple solución que puedas poner y olvidarte de ella. Establecer unos umbrales de alerta demasiado bajos puede provocar que se desborden las bandejas de entrada, que los equipos de guardia no estén satisfechos y que ocurra una avalancha de alertas. Por el contrario, definir unos umbrales demasiado altos puede suponer que se pasen por alto algunas incidencias críticas y que la empresa pierda millones.
Por ello, los sistemas de alertas de TI más eficaces se configuran teniendo en cuenta estas prácticas recomendadas.
Automatiza la supervisión
La mejor manera de identificar rápida y eficientemente las incidencias es automatizar la supervisión.
¿Hay una base de datos que responde con más lentitud de lo habitual? ¿Los usuarios experimentan tiempos de carga más lentos de lo normal en tu aplicación? ¿Se ha caído un sistema esencial? ¿Alguno de tus técnicos ha hecho una solicitud que parece una bandera roja? Tu sistema debería seguir automáticamente este tipo de problemas y avisarte cuando surjan.
Establece umbrales de alerta inteligentes
¿Hay que atender de inmediato cada alerta? En la mayoría de las empresas, la respuesta es “no”, por lo que es necesario establecer unos umbrales de alerta razonables.
Saber si vale la pena despertar a un desarrollador en mitad de la noche (o si la cosa puede esperar a la mañana siguiente) puede marcar la diferencia entre unos desarrolladores satisfechos con tiempos de respuesta breves y unos equipos con exceso de alertas que pasan los fines de semana buscando un nuevo trabajo.
Desduplica tus alertas
Según un estudio sobre el exceso de alertas, para los médicos de un hospital, la atención que prestaban a las alertas descendía en un 30 % cada vez que se duplicaba una alerta. Y es probable que los resultados del estudio se apliquen también a los desarrolladores. Cuanto más vemos la misma alerta, menos atención le prestamos. Por eso, en este caso, se recomienda desduplicar las alertas y minimizar los recordatorios.
Define niveles de prioridad y gravedad
Lógicamente, algunas alertas son más importantes que otras. Es probable que una interrupción de un sitio web tenga prioridad con respecto a una breve ralentización de una función que se usa con poca frecuencia. Un ataque malintencionado de un pirata informático posiblemente tenga una mayor prioridad que una imagen que no se renderiza bien en la aplicación.
Tu sistema no solo debería reconocer la prioridad y la gravedad de las alertas, sino también comunicar esa prioridad con claridad a los responsables de resolver los incidentes. En este caso, se recomienda utilizar señales visuales, sonoras y sensoriales para indicar de manera rápida y precisa en qué deberían centrarse los equipos a continuación.
Convierte las alertas en algo práctico
Saber lo que va mal está bien, pero saber qué hacer a continuación es mejor. Por ello, si tus alertas no son procesables, deberían serlo.
En este aspecto, los equipos de DevOps tienen mucho que aprender del sector aeronáutico. Cuando aparece una alerta en el panel del piloto durante un vuelo, viene acompañada de una checklist procesable. La inclusión de este tipo de detalles en tu sistema de alerta reduce el tiempo de diagnóstico y ayuda a los desarrolladores a avanzar rápidamente en el proceso.
Esto resulta de especial utilidad cuando un desarrollador se levanta en medio de la noche, con cara de sueño y sin poder rendir al máximo.
Elección de la tecnología de alerta adecuada
Para desarrollar un sistema de alerta de TI que siga estas prácticas recomendadas, hay que adoptar una postura estratégica en cuanto a las alertas desde el principio. También se debe elegir la tecnología adecuada para hacerlo. A la hora de seleccionar un proveedor, te recomendamos que te fijes en lo siguiente:
Varios canales de alertas
El correo electrónico suele ser el canal preferido cuando se trata de las alertas. Pero lo cierto es que no siempre basta con él. Para las alertas urgentes, es posible que te vengan bien los SMS, las notificaciones de inserción de los dispositivos móviles o incluso las llamadas de voz. Busca un sistema que te permita enviar alertas de diversas maneras.
Enriquecimiento de alertas
Las alertas procesables son detalladas, lo que significa que un breve mensaje de texto no siempre es suficiente. Ten cuidado con los límites estrictos de caracteres y busca una tecnología que te permita adjuntar gráficos, registros, runbooks y checklists para ofrecer más contexto sobre una alerta y conseguir que el desarrollador sepa lo que debe hacer a continuación.
Acciones personalizadas de alertas
Con la mayoría de las tecnologías de alertas, podrás añadir una nota a la alerta o cerrarla, pero a veces hay pasos intermedios, como escalar la alerta para investigarla más a fondo, crear un ticket de asistencia o reiniciar un servidor. Busca soluciones tecnológicas que te permitan hacer algo más que abrir y cerrar.
Acciones automatizadas
En algunas alertas, lo que hay que hacer a continuación es complicado y requiere los conocimientos de un desarrollador con experiencia. En otras, los pasos están claros.
En el caso de las alertas con pasos claros sobre cómo continuar (pruebas de diagnóstico, acciones correctivas, etc.), necesitarás un sistema que desencadene esas respuestas automáticamente en contestación a una alerta que cumpla tus criterios predefinidos.
Por ejemplo, si una base de datos se ralentiza, puedes configurar tu sistema de alerta para cambiar automáticamente a una base de datos de reserva. Si el primer paso para solucionar la incidencia A siempre consiste en reiniciar un servidor, puedes ajustar el sistema de alerta para que reinicie el servidor y supervise el resultado antes de enviar una alerta en mitad de la noche.
Personalización y clasificación de alertas
A medida que llegan las alertas, el equipo debe ser capaz de organizarlas, etiquetarlas con información adicional y filtrarlas.
Supervisión del ciclo de vida de las alertas
En los análisis retrospectivos de los incidentes, deberás examinar cuándo se produjo la alerta, quién la recibió, cuándo se vio y qué medidas se tomaron. Asegúrate de que la tecnología que elijas haga un seguimiento automático de esta información. De este modo, resultará más sencillo saber lo que funciona y lo que no, mejorar los indicadores clave del rendimiento y documentar los incidentes anteriores para que los equipos de guardia puedan aprender de ellos y consultar esos conocimientos de cara a futuros incidentes.
Políticas de alertas y notificaciones
Si en este aspecto la práctica recomendada es definir umbrales inteligentes para las alertas y asegurarte de que las incidencias de menor importancia no despierten a tus desarrolladores en plena fase REM mientras duermen, necesitas una tecnología que te permita suprimir, retrasar y acelerar las alertas en función de su contenido y del momento.
Supervisión en tiempo real
¿Cómo sabes, en un momento dado, que tus sistemas de alertas están en funcionamiento?
La respuesta, con la tecnología adecuada, debería ser que la tecnología tenga su propio sistema de supervisión. Con Opsgenie, conseguimos esto gracias a una herramienta llamada Heartbeats, que comprueba continuamente que las herramientas de supervisión estén activas y conectadas, y que las tareas personalizadas se terminen según lo previsto. Si la señal se pierde, el sistema te avisa al instante.
Configuración de un horario de guardias con Opsgenie
En este tutorial aprenderás a configurar un horario de guardias, aplicar reglas de anulación, configurar notificaciones de guardias y mucho más, todo dentro de Opsgenie.
Leer el tutorialUn método de planificación de guardias más adecuado
Una planificación de guardias eficaz es fundamental para mantener una política corporativa saludable con respecto a las guardias. Descubre los errores habituales, los tipos de planificaciones con rotación y cómo hacerlas bien.
Leer el artículo