Close

Gestion des incidents pour les équipes haute vélocité

Que peuvent apprendre les équipes de gestion des incidents de l'aviation ?

C'est bien connu, l'avion est le moyen de transport le plus sûr, et l'aviation améliore activement sa gestion des incidents depuis des décennies. En fait, en 1959, pour chaque million de vols, on recensait 40 accidents mortels. Une décennie plus tard, ce nombre était tombé à deux. Aujourd'hui, il est descendu à 0,1.

En général, les enjeux peuvent être plus importants dans l'aviation que dans le développement logiciel (nous risquons probablement moins de mourir en raison d'une panne d'une boutique électronique que d'une défaillance d'un équipement d'avion), mais la pratique quotidienne de la prévention et de la gestion des incidents n'est pas si différente. Les deux secteurs doivent gérer les risques, générer des alertes et combattre la fatigue d'alerte. Ils ont tous deux besoin de calendriers qui répondent aux besoins urgents 24 heures sur 24. Ils font face à des incidents avec des niveaux de gravité variés. Tous deux suivent religieusement des KPI. Et tous deux doivent assumer leurs responsabilités face au public et à leurs clients.

C'est pourquoi le secteur de la technologie peut probablement apprendre une chose ou l'autre de l'approche sans compromis de l'aviation pour améliorer la gestion et la prévention des incidents. Voici cinq pratiques que votre équipe peut emprunter aux plus grandes compagnies aériennes :

Gardez à l'esprit la gestion des incidents lors de la conception et du lancement

Tant dans le secteur de l'aviation que dans celui de la technologie, tenir compte des incidents lors de la phase de design peut avoir un impact important sur les coûts ultimes de ces incidents.

Dans l'aviation, l'introduction des sièges 16G en 1988 a ajouté une protection contre les blessures à la tête et à la poitrine et réduit les risques de se retrouver piégé dans un siège en raison de sa déformation lors d'un accident. Les avantages estimés de ces sièges en vies sauvées et en blessures évitées s'élèvent à 78,9 millions de dollars sur 25 ans. Et cela, grâce à un design qui tient compte de la possibilité d'incidents.

Dans l'univers de la technologie, nous obtenons un avantage similaire suite à l'essor de l'approche « you built it, you run it » (Vous l'avez conçu, vous en êtes responsable), qui fusionne les responsabilités en matière de développement et de gestion des incidents. L'un des résultats positifs de cette approche ? Les équipes chargées de mettre au point la technologie sont plus conscientes des risques d'incident et davantage susceptibles de travailler pour les empêcher et réduire leur impact.

Automatiser pour réduire les risques d'erreur

Les erreurs de pilotage sont identifiées comme la cause la plus fréquente des catastrophes aéronautiques. En matière d'incidents logiciels et informatiques, la faute est fréquemment imputée aux humains. L'automatisation peut aider dans les deux domaines, et a permis de réduire considérablement les erreurs dans de nombreux secteurs. Il est donc tout à fait logique que l'aviation se dirige vers plus d'automatisation chaque année. Le pilote automatique gère déjà 90 % du vol, et des options d'automatisation complète sont étudiées.

L'abondance des erreurs humaines est la raison pour laquelle, chez Atlassian, l'une des grandes questions que nous nous posons lors des post-mortems est : pouvons-nous automatiser quelque chose pour éviter que cet incident se reproduise ? Parce que, souvent, un problème peut être évité à l'aide d'une correction technique simple.

Chez Atlassian, nous avons connu une situation qui illustre parfaitement cela il y a quelques années :

« Un ingénieur a commis une grave erreur dans la syntaxe d'un fichier de configuration pour un équipement stratégique : l'ensemble de l'entreprise a été à l'arrêt pendant 45 minutes, ce qui représente une perte de plusieurs centaines de milliers de dollars… L'erreur est humaine, c'est indéniable. Nous nous sommes donc demandé comment limiter le plus possible les erreurs humaines.

En fin de compte, la correction apportée a été simple et permanente : nous avons intégré un contrôle de démarrage automatisé au fichier de configuration avant le chargement. Nous avons ainsi éliminé toute intervention humaine dans la configuration du système. Nous avons écarté le problème qui a causé la panne grâce à une correction technique rapide. »

Définissez clairement les priorités et concevez des alertes autour d'elles

S'il est un domaine dans lequel l'industrie aéronautique excelle, c'est le resserrement impitoyable des priorités. Parce qu'en vérité, même dans une situation d'urgence, certaines questions sont plus urgentes que d'autres. Et quand un avion risque de s'écraser, vous voulez que votre pilote sache très clairement quelles urgences requièrent son attention, et dans quel ordre.

C'est pourquoi, bien que l'ordinateur de bord d'un avion suive en permanence plus de 10 000 points de données, le pilote ne reçoit d'alerte que dans 10 % des vols. Le pilote doit-il savoir si le dégivrage de la verrière passe d'un réglage élevé à moyen ? Doit-on savoir qu'une pompe hydraulique est en panne et qu'une autre a pris le relais, sans impact sur l'avion ou sa trajectoire de vol ? Les réponses, selon les experts de l'aviation, sont non et non.

Lorsque des alertes sont nécessaires (en cas de panne moteur ou de problème de pression dans la cabine) et sont envoyées au poste de pilotage, leurs niveaux de priorité sont très clairs, indiqués non seulement par des repères visuels comme du texte et des voyants de couleur rouge, mais aussi par des signaux audio et physiques, comme une vibration du dispositif de direction ou un avertissement vocal.

Le niveau d'alerte le plus élevé, comme vous pouvez vous y attendre, implique le plus de signaux. Si votre avion est sur le point de piquer du nez, le pilote recevra un message de couleur rouge, verra s'allumer des voyants rouges, entendra un avertissement vocal et son dispositif de direction se mettra à vibrer.

Le niveau inférieur implique toutes les alertes ci-dessus, à l'exception des vibrations du dispositif de direction. Le niveau inférieur génère des voyants et des messages en jaune. Et le niveau inférieur, qui ne nécessite aucune action du pilote, se résume à un simple message jaune à l'écran, une hiérarchie rigoureuse qui permet aux pilotes de savoir à quoi prêter attention.

Définissez des seuils d'alerte élevés

Outre sa capacité à indiquer clairement la priorité dans ses alertes, l'industrie aéronautique comprend parfaitement ce qui nécessite ou pas une alerte.

Le niveau de priorité supérieur est réservé aux pires situations d'urgence, c'est-à-dire au genre d'urgence où l'avion s'écrasera si le pilote ne prend pas de mesure immédiate et définitive.

La deuxième série de problèmes prioritaires, appelés avertissements, nécessite également une intervention immédiate du pilote, mais ils ne risquent pas de provoquer instantanément un écrasement de l'avion. Entre autres, les problèmes comme une dépressurisation de la cabine ou un quasi-accident qui expose l'avion à un risque de collision.

Le troisième niveau est une mise en garde : le pilote doit être attentif, mais ne pas réagir instantanément. C'est ici que la priorisation rigoureuse de l'aviation apparaît clairement. Parce qu'un moteur en feu ou une panne d'un seul moteur peuvent ne mériter qu'un avertissement.

Cette approche sans compromis de l'établissement des priorités a permis à l'aviation de lutter contre la fatigue d'alerte et d'assurer la sécurité des passagers.

Gardez des playbooks et des checklists à portée de main

Lorsqu'une alerte retentit et que le pilote apprend que l'unité de climatisation est en panne (ce qui peut entraîner une dépressurisation de la cabine) ou que l'un des moteurs risque une défaillance, l'industrie aéronautique ne se fie pas à la formation de ce pilote pour résoudre l'incident.

Parce que bien que la formation du pilote entrera en jeu, il est plus sûr (et plus rapide) de communiquer directement les prochaines étapes. C'est pourquoi les alertes dans le poste de pilotage sont associées à une checklist des étapes suivantes, conçue pour correspondre à l'alerte spécifique. Bien qu'il ne s'agisse pas exactement d'automatisation, cette approche présente un avantage similaire. Au lieu de s'appuyer entièrement sur la formation d'un individu, le système précise les solutions les plus probables pour résoudre un problème.

La volonté de l'aviation d'optimiser les pratiques de gestion des incidents (IM) démontre comment d'autres secteurs (dont la technologie) peuvent continuellement affiner leur réponse aux incidents et leur gestion de ces derniers.

Découvrez comment Jira Service Management peut aider les équipes à répondre aux incidents, à les résoudre et à s'améliorer continuellement après un incident.