Close

L'ITSM pour les équipes haute vélocité

Qu'est-ce que la gestion de la continuité des services informatiques ?

La gestion de la continuité des services informatiques (ITSCM) est un composant clé de la fourniture de services ITIL . Elle se concentre sur la prévention, la prévision et la gestion des incidents dans le but de maintenir la disponibilité et la performance des services au plus haut niveau possible avant, pendant et après un incident de type sinistre.

L'objectif de l'ITSCM est de réduire les temps d'arrêt, les coûts et l'impact business, ou métier, des incidents en mettant en place des processus efficaces et normalisés lorsque ces incidents se produisent inévitablement.

Sans plan, de nombreux facteurs peuvent ralentir ou interrompre la reprise après incident. Après tout, votre expert d'astreinte pourrait répondre à moitié endormi à 3 heures du matin. Il peut ne plus avoir touché au code depuis un certain temps, car il a travaillé sur d'autres projets pendant des semaines ou des mois. Il pourrait paniquer au vu de l'ampleur du sinistre. Ou bien il peut être le dernier membre arrivé dans l'équipe de reprise d'activité, et avoir moins d'expérience dans la résolution des problèmes.

Un plan clair et bien documenté pour gérer la continuité des services contribuera à minimiser les retards liés aux courbes d'apprentissage, le manque de pratique avec le code, la panique liée au sinistre ou les alertes au milieu de la nuit.

ITSCM et ITIL 4

Dans ITIL 4, la gestion de la continuité des services est un processus destiné à soutenir la gestion de la continuité d'activité (BCM). Le processus a pour but de s'assurer que les services sont de nouveau opérationnels dans les délais convenus après des perturbations majeures du service.

ITSCM et gestion des incidents

ITIL 4 fait une distinction entre la gestion des incidents, qui traite les incidents à divers niveaux d'impact, et l'ITSCM, qui consiste à planifier les sinistres à grande échelle.

Alors, qu'est-ce qui constitue exactement un sinistre ? La réponse peut être différente pour chaque entreprise, mais le Business Continuity Institute le définit comme suit : « Un événement soudain imprévu qui cause de grands dommages ou de graves pertes à une organisation. Cet événement empêche l'organisation de fournir les fonctions métier essentielles pendant une période minimale prédéterminée. »

Chaque entreprise devra définir et documenter pour elle-même trois éléments : l'ampleur du « sinistre », le temps minimum prédéterminé et les fonctions métier essentielles.

ITSCM et gestion de la continuité de l'activité (BCM)

La gestion de la continuité d'activité est un processus géré en dehors du service informatique qui identifie les risques pour l'entreprise et s'efforce de les atténuer. Certains risques peuvent être associés à l'informatique, comme les incidents de type sinistre, et certains risques peuvent échapper au contrôle du service informatique, comme les catastrophes naturelles ou les incendies d'installations.

Étant donné que la gestion de la continuité d'activité englobe l'ITSCM ainsi que d'autres processus d'atténuation des risques, il est logique que les équipes informatiques collaborent étroitement avec l'équipe de gestion de la continuité d'activité pour créer :

  • un plan de continuité d'activité (BCP) qui comprend des plans de prévention et de reprise des incidents informatiques de type sinistre ;
  • des analyses d'impact métier (BIA) (ou « analyse d’impact business » chez ITIL) qui identifient l'impact commercial potentiel d'un sinistre informatique.

Objectifs ITSCM

Du point de vue de l'entreprise, l'ITSCM a pour objectif de réduire les temps d'arrêt, les coûts et l'impact des incidents de type sinistre. Sur un plan plus tactique, ses objectifs sont les suivants :

  • Travailler en étroite collaboration avec la gestion de la continuité d'activité pour assurer la continuité des activités globale
  • Créer et gérer des plans de continuité et de reprise des services informatiques en cas de sinistre
  • Travailler avec les fournisseurs pour minimiser l'impact des interruptions de leurs produits et services sur l'activité
  • Analyser les risques et l'impact, et réviser les plans en conséquence au fil du temps

Le processus ITSCM

Chez Atlassian, notre plan de continuité repose sur l'hypothèse que le processus de planification des sinistres est continu, guidé par le leadership et soigneusement testé. Nous sommes déterminés à ne pas baratiner nos clients. Notre processus comprend la planification, la communication, les responsabilités claires, les tests et l'amélioration continue.

Planification

Le processus de planification démarre par des questions générales, puis implique l'élaboration d'un plan basé sur vos réponses. Les questions de départ doivent inclure celles qui suivent :

  • Quel est notre processus de réponse aux incidents ?
  • Quelles valeurs suivrons-nous ?
  • À quels types de sinistre devons-nous nous préparer ? Quels sont les risques et les menaces inhérents à notre activité ?
  • Quels systèmes devons-nous soutenir ? Lesquels sont essentiels ?
  • Comment réagirons-nous en cas de sinistre ?
  • Où se trouvent les informations dont nous aurons besoin pour prendre en charge et restaurer les systèmes critiques ?
  • Comment centraliser ces informations et simplifier les processus de restauration ?
  • Les informations et la documentation relatives au processus sont-elles collaboratives et révisables par les équipes qui s'en occuperont ?

Une fois que vous avez des réponses à ces questions, l'étape suivante consiste à les utiliser pour définir :

  • une politique de reprise d'activité ;
  • le périmètre des responsabilités informatiques ;
  • le périmètre de l'impact métier de chaque risque ;
  • les plans et processus pour chaque scénario de risque ;
  • les exigences en matière de personnel et de documentation.

Pour être couronnée de succès, la phase de planification de l'ITSCM doit documenter le plan qui en découle et le modéliser afin de le rendre clair et reproductible. Un playbook de réponse aux incidents ou d'autres runbooks peuvent constituer une source de référence et d'organisation pour les intervenants lors un scénario aux enjeux importants.

Dans l'esprit d'ITSCM, une solution avec accès à une base de connaissances intégrée, comme Jira Service Management optimisé par Confluence, assure une documentation continue qui favorise la révision, l'optimisation et la collaboration. De cette façon, les intervenants ont accès à la documentation liée aux résolutions précédentes et à des ressources à jour.

Responsabilités claires

Qui est responsable en cas de sinistre ? Qui est responsable de la maintenance et de la mise à jour des plans, des processus et de la documentation ? L'ITSCM devrait toujours avoir une idée claire des rôles et des responsabilités non seulement pour les sinistres eux-mêmes, mais aussi pour la surveillance et l'amélioration continues. Grâce à Jira Service Management, les intervenants peuvent mentionner la partie ou la personne appropriée sur des tickets afin de s'assurer que les responsabilités sont correctement déléguées et de simplifier la collaboration transverse.

Chez Atlassian, une partie de notre approche consiste à organiser régulièrement des réunions de reprise d'activité avec nos ingénieurs chargés de la fiabilité du site et notre équipe de gestion des risques et de la conformité. Ils discutent des lacunes en matière de reprise d'activité et identifient les domaines dans lesquels des plans, des améliorations, des évaluations ou des changements supplémentaires doivent être apportés.

Communication

L'ouverture est une valeur fondamentale chez Atlassian, et nous croyons que plus votre organisation est informée de vos plans ITSCM, plus ces plans seront efficaces.

Proposer des canaux de communication flexibles tout au long du processus de réponse aux incidents permet aux équipes d'utiliser leurs méthodes de communication préférées. Jira Service Management intègre plusieurs canaux de communication afin de réduire les temps d'arrêt. Entre autres, un widget d'état intégrable, une page d'état dédiée, les e-mails, les outils de chat, les réseaux sociaux et les SMS.

La communication a de multiples vertus : elle permet non seulement de tenir les parties prenantes informées et d'aider les directeurs à éviter la panique lors d'un sinistre, mais elle permet également à l'équipe de demander l'aide d'autres équipes au besoin et d'atténuer le risque de friction lié la confusion organisationnelle.

Tests

Comment savoir si vos plans fonctionnent sans les tester ? Cette question est fondamentale pour l'ITSCM et explique pourquoi les tests et exercices de gestion des incidents sont essentiels au succès de la pratique.

Les tests peuvent vous aider à identifier les points faibles de votre processus, les problèmes imprévus, et les domaines dans lesquels les équipes peuvent avoir besoin d'une formation ou d'une meilleure documentation.

Évaluation et amélioration

L'ITSCM n'est pas un processus ponctuel. Elle exige une planification réfléchie et une formation, une évaluation et une amélioration continues. C'est pourquoi nous organisons régulièrement des réunions de reprise d'activité. C'est également la raison pour laquelle nous testons les sauvegardes système et réalisons des exercices de simulation dans lesquels nous reproduisons une panne d'un data center ou d'une région AWS. Par conséquent, tout plan ITSCM digne de ce nom doit constamment évoluer et être surveillé.

La plupart des entreprises représentent le processus ITSCM comme une série d'étapes, mais nous pensons qu'il ressemble plus à un cercle. La planification devrait déboucher sur des rôles et des responsabilités définis. Ensuite, l'équipe doit communiquer à l'échelle de l'organisation, tester encore et encore, évaluer, surveiller et améliorer et, dans ces améliorations, continuer à mettre à jour le plan, définir davantage les rôles et continuer à communiquer.

Une fois de plus, c'est là qu'une base de connaissances collaborative et intégrée s'avère très utile. Les articles de base de connaissances constituent une ressource précieuse en matière d'évaluation et de documentation. Les rapports post-mortem d'incident sont cruciaux pour les processus de révision et de correction consécutifs à un incident, mais peuvent également constituer une ressource à long terme pour les futurs problèmes potentiels. Jira Service Management, optimisé par Confluence, fournit une puissante plateforme collaborative pour la mise en œuvre de solutions d'évaluation et d'amélioration.

Rôles et responsabilités ITSCM

Afin de planifier et d'implémenter efficacement les pratiques ITSCM dans l'ensemble de l'organisation, de nombreuses entreprises nomment un responsable de la continuité des services (SCM) et une équipe de reprise de la continuité des services.

Responsable de la continuité des services (SCM)

Comme son nom l'indique, le responsable de la continuité des services est chargé de superviser la continuité des services. Cette personne est généralement propriétaire du processus de A à Z, elle pilote l'élaboration du plan, gère les activités de surveillance et d'évaluation continues, et supervise la réalisation des plans en cas de sinistre.

Cette personne est généralement un professionnel expérimenté du support technique, mais elle peut jouer un rôle de gestion et ne pas être impliquée directement dans la gestion technologique au jour le jour le jour.

Équipe de restauration de la continuité des services

Pilotée par le SCM, cette équipe est chargée de réaliser des tests et simulations d'incidents et d'améliorer continuellement l'ITSCM. Elle comprend généralement du personnel technique, des professionnels de l'assurance qualité ou des utilisateurs pour les tests, ainsi que des représentants des services de l'ensemble de l'organisation qui sont responsables de maintenir les canaux de communication ouverts entre le SCM et ses équipes.

Pourquoi l'ITSCM est-elle importante ?

Les organisations qui ont des plans clairs de reprise d'activité pourront récupérer plus rapidement et de manière plus complète en cas de sinistre.

L'ITSCM n'implique pas de planifier les pannes quotidiennes. Il s'agit d'aborder les scénarios les plus défavorables et de veiller à ce qu'ils ne perturbent pas la vie des clients et des employés s'ils venaient à se produire.

Voici trois avantages évidents d'une bonne pratique ITSCM :

  • En cas de sinistre, un bon plan ITSCM implique la restauration rapide des services essentiels.
  • L'organisation est toujours prête à faire face à un sinistre majeur et peut réagir rapidement et de manière appropriée.
  • Tout le monde dans l'entreprise comprend ce qui se passera en cas de sinistre et combien de temps les systèmes devraient rester indisponibles.

Découvrez comment l'ITSCM améliore la qualité du service client et réduit les temps d'arrêt de l'organisation grâce à Jira Service Management.