Close

Prêt pour une solution ITSM à haute vélocité ?

Qu'est-ce que la gestion des incidents ?

La gestion des incidents désigne le processus qui consiste à répondre à un événement imprévu ou à une interruption pour rétablir le service. Selon ITIL (IT Infrastructure Library), « le processus de gestion des incidents permet de rétablir le fonctionnement normal du service le plus rapidement possible et de limiter l'impact business. »

Les incidents sont des événements de toute nature qui perturbent ou affectent la qualité du service (ou menacent de le faire). La panne d'une app métier constitue un incident, au même titre que la lenteur d'un serveur web en fin de vie. Ce dernier fonctionne lentement et nuit à la productivité. Pire encore, il risque d'entraîner une panne complète.

Afin de mettre tout le monde sur la même longueur d'onde, voici une courte définition de quelques termes associés :

ITSM (IT Service Management ou gestion des services informatiques) est une approche commune de création, de support et de gestion des services informatiques. Le concept fondamental de l'ITSM repose sur la conviction selon laquelle l'informatique devrait être fournie en tant que service. La gestion des incidents constitue l'une des pratiques de base de l'ITSM.

ITIL est un ensemble de bonnes pratiques pour l'ITSM (il s'apparente à un playbook).

Un problème est la cause profonde encore inconnue derrière un ou plusieurs incidents. Dans l'incident ci-dessus, la lenteur du réseau et la panne d'une app métier pourraient découler de la mauvaise configuration d'un routeur.

L'importance de la gestion des incidents : une pratique ITSM

Étant donné tous les services logiciels utilisés aujourd'hui par les organisations, les points de défaillance potentiels sont plus nombreux que jamais. En outre, l'impact d'un incident peut être énorme. Selon une étude, les incidents majeurs peuvent coûter 300 000 dollars par heure d'arrêt d'un système. Pour certains services web, ce chiffre peut être encore bien plus élevé.

L'adoption d'un processus de gestion des incidents bien défini peut contribuer à réduire considérablement ces coûts. Voici les avantages d'un tel processus :

  • Accélération de la résolution des incidents
  • Réduction des coûts ou des pertes de revenus résultant d'incidents pour l'organisation
  • Amélioration de la communication (interne et externe) pendant les incidents
  • Apprentissage et amélioration continus

Processus de gestion des incidents

La clé de la gestion des incidents ? Adopter un processus de qualité et s'y tenir. La tâche peut sembler titanesque, mais il y a une bonne nouvelle : vous pouvez vous inspirer de l'expérience de milliers d'autres équipes informatiques.

L'une des principales erreurs commises par les organisations informatiques en pleine croissance est de vouloir tout réinventer et de créer des processus en partant de rien. Appuyez-vous sur les bonnes pratiques et ne perdez pas de temps à développer un outil interne pour gérer des tickets.

Voici un aperçu général des étapes importantes d'un processus de gestion des incidents :

Identifier un incident et le consigner

Un incident peut avoir de multiples causes. Un employé peut vous appeler pour le signaler, ou il peut littéralement tomber du ciel, si votre hub réseau n'est pas au point. (Non pas que nous parlions d'expérience…)

Quelle que soit la source, les deux premières étapes sont simples : une personne identifie un incident et une autre le consigne.

Si l'incident qui vous est communiqué est déjà consigné par votre centre de services, vous pouvez ignorer ces deux premières étapes. Si vous recevez un appel téléphonique ou si l'incident est signalé par e-mail, par SMS ou par pigeon voyageur, l'équipe du centre de services doit le consigner correctement dans votre centre de services.

Ces journaux d'incident (c.-à-d. les tickets) comprennent généralement ce qui suit :

  • le nom de la personne qui signale l'incident ;
  • la date et l'heure de signalement de l'incident ;
  • une description de l'incident (le composant en panne ou qui ne fonctionne pas correctement) ;
  • un numéro d'identification unique assigné à l'incident, pour le suivi.

Catégorisez votre incident

Assignez une catégorie logique et intuitive (et une sous-catégorie, selon les besoins) à chaque incident. Si vous ne le faites pas, vous limitez votre capacité à analyser ultérieurement vos données et à rechercher des tendances et des modèles, ce qui constitue un élément essentiel de la gestion efficace des problèmes et de la prévention des incidents futurs. Assurez-vous également de choisir une solution de centre de services ITSM qui vous permet de personnaliser facilement les catégories d'incident.

Hiérarchisez votre incident

Chaque incident doit se voir assigner une priorité. Commencez par évaluer son impact sur l'entreprise. Tenez compte du nombre de personnes qui seront touchées et des répercussions potentielles en termes de finances, de sécurité et de conformité. Vous pourrez ainsi déterminer plus facilement les conséquences de l'incident et l'urgence avec laquelle l'entreprise doit le régler.

La bonne pratique consiste à définir vos niveaux de gravité et de priorité avant qu'un incident ne se produise, ce qui simplifie l'évaluation de la priorité pour les gestionnaires d'incident.

Lorsque vous avez des doutes sur le niveau de priorité, optez pour le niveau le plus élevé. Mieux vaut prévenir que guérir.

Une fois que vous avez défini ces priorités, traitez tous les incidents en cours par ordre de priorité. La plupart des organisations établissent des accords de service clairs autour de chaque niveau de priorité, afin que les clients connaissent les délais de réponse et de résolution.

Répondre

Le terme de réponse aux incidents a une acception large. Décomposons-le et analysons les étapes que vous êtes le plus susceptible de suivre lorsque vous aurez identifié, catégorisé et hiérarchisé un incident.

Diagnostic initial

Ce diagnostic s'apparente au tri effectué par un hôpital sur les nouveaux patients. L'employé du centre de services formule rapidement une hypothèse sur le problème, afin de pouvoir s'attaquer à sa résolution ou de suivre les procédures appropriées et compiler les bonnes ressources pour le résoudre. Dans ce contexte, les bases de connaissances et les manuels de diagnostic constituent des outils utiles.

Si le premier agent qui intervient est en mesure de résoudre l'incident en fonction de ses diagnostics initiaux et des connaissances et outils disponibles, l'incident est résolu. Sinon, faites remonter l'incident.

Remontée de l'incident

Votre équipe de support de première ligne devrait être en mesure de résoudre un grand nombre d'incidents les plus fréquents sans remontée. Pour les autres, l'objectif est de rassembler et de consigner les informations adéquates pour aider l'équipe à les comprendre rapidement afin de les résoudre dans les meilleurs délais.

Enquête et diagnostic

Beaucoup considèrent cette étape comme propre à ITIL. En réalité, elle apparaît tout au long du cycle de vie de l'incident.

Le premier agent du support à intervenir enquête déjà, dans une certaine mesure, lorsqu'il recueille des informations, et peut même diagnostiquer et résoudre l'incident sans qu'il soit nécessaire de le faire remonter. Dans ce cas, vous pouvez passer aux étapes suivantes : résolution et récupération, et clôture de l'incident.

Sinon, l'enquête et le diagnostic seront réalisés à chaque étape du processus lorsque vous faites remonter un problème ou que vous impliquez des ressources externes pour vous aider à le résoudre.

Résolution et récupération

Enfin (et dans l'idéal), dans le cadre de vos accords de niveau de service (SLA), vous établirez un diagnostic et suivrez les étapes nécessaires pour résoudre l'incident. La récupération implique simplement le temps nécessaire pour reprendre le cours normal des opérations, car certains correctifs (comme les correctifs de bug, etc.) peuvent nécessiter des tests et un déploiement, et ce, même après que la résolution appropriée a été identifiée.

Clôture de l'incident

L'incident est ensuite renvoyé au centre de services (s'il a fait l'objet d'une remontée) pour être clôturé. Afin de maintenir la qualité et d'assurer un processus en douceur, seuls les employés du centre de services sont autorisés à clôturer les incidents. En outre, le propriétaire de l'incident devrait vérifier auprès de la personne qui l'a signalé que la résolution est satisfaisante et que l'incident peut réellement être clôturé.

Résumé

Le processus de gestion des incidents peut sembler inutilement formel, surtout si vous faites partie d'une organisation de petite taille. Mais quelle que soit la structure de votre équipe, le cycle de vie de l'incident reste le même et les remontées sont fréquentes. Ne sautez pas d'étape !

Les incidents, ça arrive. Cela dit, un processus solide de gestion des incidents vous permet de réduire leur impact et de rétablir rapidement les services.