Close

Gestión de incidentes para equipos de alta velocidad

Cómo elegir herramientas de gestión de incidentes

Categorías, funciones clave y en qué conviene centrarse

No existe una herramienta universal para la gestión de incidentes.

Los equipos de incidentes con mejor rendimiento se hacen valer de las herramientas, prácticas y personas adecuadas.

Algunas herramientas son específicas para la gestión de incidentes, mientras que otras son herramientas más generales que el equipo utiliza también para otras tareas. Y algunas herramientas pueden ofrecer una experiencia totalmente personalizada y basada en capas de integraciones y personalización.

Independientemente del caso práctico, las mejores herramientas de gestión de incidentes tienen algunas cosas en común: son abiertas, fiables y adaptables.

Abiertas: en un entorno de mucha presión, como el de un incidente, es fundamental que las personas adecuadas tengan acceso de inmediato a las herramientas y la información necesarias. Esto no solo se aplica a quienes tienen que dar respuesta al incidente, sino también a las partes interesadas de la empresa que necesitan supervisar las tareas de respuesta.

Fiables: hay pocas cosas peores que pueden suceder durante la respuesta ante incidentes que tener las herramientas de respuesta fuera de servicio. El uso de herramientas en la nube, como Slack y Opsgenie, minimiza el riesgo de que se produzca una interrupción del servicio en la infraestructura que ponga las herramientas de respuesta fuera de servicio.

Adaptables: las integraciones, los flujos de trabajo, los complementos, la personalización y las API, entre otras cosas, amplían las posibilidades del producto. Puede que quieras ponerte a trabajar con una configuración predefinida, pero a medida que tus prácticas y procesos evolucionen, querrás que las herramientas sean lo suficientemente flexibles como para dar respuesta a las necesidades cambiantes.

Antes del incidente

Supervisión

Los sistemas de supervisión permiten a los equipos de DevOps y operaciones de TI recopilar, agregar y activar alertas de datos procedentes de miles de servicios diferentes en tiempo real. Estos sistemas son fundamentales para proporcionar una visibilidad completa de la salud de tus servicios y, a menudo, activan los primeros avisos de alarma durante un incidente.

Ventajas

Las herramientas de supervisión proporcionan a los equipos una visión constante del estado de salud de la infraestructura. Las más modernas también activan alertas de forma proactiva cuando se detecta actividad inesperada.

Ventajas

Las herramientas de supervisión proporcionan a los equipos una visión constante del estado de salud de la infraestructura. Las más modernas también activan alertas de forma proactiva cuando se detecta actividad inesperada.

Funcionalidad

Monitoring tools give your team constant insight into the health of the infrastructure. Modern monitoring tools also proactively trigger alerts during unexpected activity.

 

 

Feature Set

Questions to ask

24/7 coverage and analytics

Does the tool have visibility into all my servers and infrastructures?

Integrates with alerting tools

Can my team see real time analytics and dashboards and set alerting thresholds?

 

Does the product integrate with my alerting and on-call tool?

Incidencias

El software de centro de asistencia ofrece a los clientes y empleados un mecanismo para informar de incidentes e incidentes potenciales.

Ventajas

Junto con sus muchos otros casos prácticos (solicitudes de asistencia, servicio de asistencia informática), los centros de asistencia permiten a los equipos obtener información sobre incidentes de las personas que más importan: los usuarios y los clientes.

Funcionalidad

 

 

Feature set

Questions to ask

Enable self serve

Can customers quickly file tickeCan customers quickly file tickets through a self-service support portal?

 

Can customers find the help they need with automated knowledge-based suggestions?

Nuestra recomendación: Jira Service Management

Alertas y guardias

Las alertas rápidas y fiables son un componente fundamental de la respuesta ante incidentes. Así es como los equipos se aseguran de que las personas adecuadas sepan que se ha producido un incidente.

Ventajas

Las herramientas de alerta notifican a las personas de guardia designadas a través de una sofisticada combinación de programación, rutas de escalación y notificaciones.

Funcionalidad

 

 

Feature set

Questions to ask

Works globally

Can I send notifications (SMS, voice, email) to almost anywhere?

Multiple notification methods

Can I send notifications using multiple notification methods like email, SMS, phone, and mobile app push and try them multiple times?

Nuestra recomendación: Opsgenie

Durante el incidente

Aprovechar una base de datos de gestión de la configuración (CMDB) para una resolución más rápida

Conocer las interdependencias dentro de tu infraestructura es fundamental para determinar el impacto total del incidente y alcanzar la resolución más rápidamente.

Ventajas

Utilizar una CMDB te ayudará a conocer las relaciones y las dependencias dentro de tu infraestructura de TI. Si algo deja de funcionar, este mapa te permite encontrar lo siguiente de forma rápida:

  • Las posibles causas del incidente; por ejemplo, puedes determinar en qué host se está ejecutando un servicio con solo hacer clic en un botón.
  • Otros efectos relacionados con el incidente; por ejemplo, puedes descubrir que otros servicios están ejecutándose en el mismo host problemático.

De este modo, puedes investigar y comunicar rápidamente todos los aspectos del incidente.

 

 

Feature set

Questions to ask

Multiple channels

How flexible is the CMDB? Can I store any CI or asset?

Integrations

Can I visualize my infrastructure graphically?

 

Can I link CIs/assets with my service desk issues?

 

Can I link CIs/assets to change requests?

Nuestra recomendación: Insight

Logotipo de Insight

Resuelve incidentes más rápido

Asocia tu infraestructura y sus dependencias en Jira de forma nativa. Podrás encontrar la causa de los incidentes y resolverlos en menos tiempo.

Comunicación entre equipos

La comunicación clara y fiable es, sin duda, fundamental durante la gestión de incidentes.

Ventajas

Disponer de una plataforma de comunicación fiable permite al equipo comunicarse, compartir observaciones, enlaces y capturas de pantalla con marcas temporales y de forma preservada. De este modo, se reúne la información adecuada y a las personas apropiadas durante un incidente, y se crea un registro detallado del que se puede aprender después del incidente.

Funcionalidad

 

 

Feature set

Questions to ask

Multiple channels

Can my incident response team quickly spin up a dedicated channel for an incident?

Integrations

Can other tools in my incident toolchain post into my team's communication channel?

Nuestra recomendación: Slack (texto), Zoom (vídeo)

Comunicación con los clientes

Las herramientas de comunicación con los clientes nos ayudan a mantenerlos informados durante un incidente.

Ventajas

No hay duda de que los incidentes suponen una mala experiencia para los clientes. Mantener informados a los clientes genera confianza y acelera los procesos de respuesta. De este modo, sabrán que eres consciente del incidente y que estás buscando una solución.

Funcionalidad

 

 

Feature set

Questions to ask

Off of my infrastructure

Will my communication tool be operational and accessible even if my internal infrastructure is down?

Subscribers and notifications

Can customers opt in to get notifications when I post about an incident?

Nuestra recomendación: Statuspage

Centro de Comando de Incidentes

En un centro de comando de incidentes se guardan los registros canónicos de los incidentes y sus detalles fundamentales. Puede ser una herramienta de gestión de incidentes como Opsgenie o una herramienta de seguimiento de incidencias como Jira.

Ventajas

Un centro de comandos ofrece un solo lugar para que todo el mundo esté al día durante y después de un incidente, ya que pueden consultarse detalles clave como el estado del incidente, las alertas asociadas, las actualizaciones y mucho más. También proporciona un registro histórico del incidente y de los procesos de respuesta asociados.

Funcionalidad

 

 

Feature set

Questions to ask

Source of truth

Can team members and stakeholders use this record to locate all the other details of the incident and response activities?

Timeline

Does the tool aggregate a chronological timeline of key events?

 

Can team members and stakeholders quickly get up to speed on the incident?

Nuestra recomendación: Opsgenie

Después del incidente

Análisis retrospectivo

Un análisis retrospectivo es un registro escrito de lo que ha sucedido durante un incidente y de las acciones tomadas después para evitar que vuelva a ocurrir.

Ventajas

Una vez resuelto un incidente, los equipos a menudo no saben cuál fue su origen y corren el riesgo de que se repita. Los análisis retrospectivos ayudan a prevenirlo, ya que reúnen al equipo para hacer un análisis posterior al incidente.

Funcionalidad

 

 

Feature set

Questions to ask

Templates

Can my team use a template to fill out a postmortem?

Map out next actions

Can my team plan out next actions and remediation work during a postmortem?

Nuestra recomendación: Opsgenie

Gestión de Tareas

Las herramientas de seguimiento de incidencias ayudan a los equipos a determinar el trabajo futuro que debe realizarse para solucionar problemas.

Ventajas

En muchos casos, la resolución del incidente corrige el funcionamiento del servicio, pero no aborda el origen del incidente. Por lo general, hay que realizar más trabajo de ingeniería para remediar las causas del incidente y asegurarse de que no se repita. Las herramientas de seguimiento de incidencias y del trabajo —que esperamos que tu equipo ya esté utilizando para otras tareas de desarrollo— ayudan a priorizar ese trabajo para que no caiga en el olvido.

Funcionalidad

 

 

Feature set

Questions to ask

Shared workflow pipeline

Can my team plan any incident remediation work alongside their other work and priorities?

Integrations

Can my team pull in data and content from my other incident tools?

Nuestra recomendación: Jira Software

A continuación
KPIs