Close

La voie vers une meilleure gestion des incidents
débute ici

Bonnes pratiques en matière de communication sur les incidents

Incidents have always been a fact of life for people in IT and Ops. Today, it’s also DevOps and customer support teams getting a crash course in incident communication.

La communication sur les incidents est le processus qui consiste à alerter les utilisateurs lorsqu'un service est touché par une panne ou des performances dégradées. Ceci s'avère particulièrement important pour les services web et logiciels censés être disponibles 24 h/24 et 7 j/7.

À l'échelle du Web, la communication sur les incidents est plus complexe que le simple envoi d'un e-mail groupé. Il y a différents publics à prendre en compte. Différents seuils pour les messages et les réponses attendues.

Comme certains temps d'arrêt sont inévitables, il est préférable d'anticiper et de vous assurer que votre équipe est prête.

Voici notre guide de bonnes pratiques pour la communication sur les incidents. Nous couvrirons les sujets suivants :

  • L'importance de la communication sur les incidents
  • Comment se préparer à la communication sur les incidents
  • Comment les professionnels gèrent la tâche
  • Pourquoi la communication sur les incidents ne se termine pas après l'incident
Diagramme de communication sur les incidents

Communication sur les incidents : qui s'y intéresse ?

Vos clients s'y intéressent. Vos collègues s'y intéressent. Vous devriez vous y intéresser. Un temps d'arrêt mal géré peut être une très mauvaise expérience pour vos clients et vos équipes, et affecter vos résultats. Certains de vos clients peuvent craindre que cette expérience ne soit pas un cas isolé et se tourner vers un concurrent. Vous perdrez de futurs clients en raison du manque de confiance. Le moral de l'équipe peut en pâtir et entraîner une baisse de productivité. Et vous pouvez dire adieu à la bonne publicité par le bouche-à-oreille.

Heureusement, les temps d'arrêt non planifiés ne doivent pas nécessairement virer au cauchemar pour le service client. Il s'avère que si vous communiquez avec les clients sur ce qu'il se passe et ce que vous faites pour résoudre le problème, ils comprendront et auront une réaction beaucoup moins négative à la situation.

Préparation pour la communication sur les incidents

Une bonne préparation permet d'éviter une dégradation des performances. Si la formule est pertinente avant de partir au combat, elle l'est tout autant pour votre stratégie de communication sur les incidents. En cas d'incident, lorsque vous serez dans le feu de l'action, vous vous féliciterez d'avoir consacré du temps à la communication.

Définissez ce que vous considérez comme un incident

Avant de pouvoir communiquer sur les incidents, nous devons déterminer ce qui constitue un incident. De nombreuses SSII s'appuient sur un système standardisé de définition de la gravité à quatre niveaux. Voici un excellent guide sur les définitions de gravité tiré de notre propre manuel de gestion des incidents.

Quels que soient vos seuils de gravité des incidents, il est important de fixer une limite claire (idéalement axée sur une métrique mesurable). Si vous désignez un incident comme étant de gravité 1, il est important que tout membre de votre équipe puisse savoir exactement ce que cela signifie.

Un système de gravité est également utile pour éliminer les doutes et incertitudes inhérents aux temps d'arrêt.

Quel que soit le système que vous choisissez, nous recommandons un plan de communication à tolérance zéro pour tout incident lié à des problèmes de sécurité ou à une perte de données.

Choisissez à l'avance vos solutions, vos canaux et vos modèles de messages pour communiquer

Les équipes de support professionnelles et les ingénieurs chargés de la fiabilité du site ne choisissent pas des canaux de communication de façon impromptue. Ils créent un plan à l'avance.

Il existe six grands canaux pour la communication sur les incidents :

  • Page d'état dédiée
  • État intégré
  • E-mail
  • Outil de chat professionnel
  • Réseaux sociaux
  • SMS

Page d'état dédiée

Nous recommandons aux équipes d'utiliser une page d'état dédiée comme principale solution de communication en cas d'incident. Que vous la développiez vous-même ou que vous utilisiez une solution hébergée comme Statuspage, il est important de fournir à vos clients et collègues une source de référence claire en cas d'incident. Statuspage offre également à vos utilisateurs la possibilité de s'abonner pour recevoir des mises à jour dès leur publication. Vos équipes sont ainsi libérées d'une tâche de support et peuvent se concentrer sur la résolution du problème.

État intégré

Chez Statuspage, nous facilitons l'intégration des informations d'état directement sur n'importe quel site web de nos clients. Nous savons que la plupart des visiteurs sont susceptibles de consulter la page d'accueil ou la page de support d'un fournisseur avant de rechercher une page d'état. Le widget intégré (en voici un exemple) permet facilement d'informer ces visiteurs qu'un incident est en cours. Les visiteurs peuvent également cliquer sur le widget pour accéder à la page d'état.

E-mail

Comme nous venons de le mentionner, un bon outil de page d'état donnera à votre public la possibilité de s'abonner aux mises à jour par e-mail. Même si vous utilisez directement votre outil de messagerie (et non une page d'état pour déclencher les envois d'e-mails), c'est un bon canal pour la communication sur les incidents.

Outils de chat

Ces dernières années, les outils de chat comme Slack se sont imposés dans le milieu professionnel. De nombreuses équipes ont mis en place une salle de crise dédiée aux communications sur les incidents ou créent une salle pour chaque incident. Découvrez nos intégrations avec les outils de chat ici.

Réseaux sociaux

De nombreuses équipes utilisent les réseaux sociaux comme Twitter comme moyen de communication lors d'un incident. Il est bon de les intégrer à votre stratégie, mais ne comptez pas sur eux comme seul moyen de communication.

Aucun de ces canaux n'est une solution miracle pour la communication sur les incidents. Chacun présente des avantages, mais c'est utilisés ensemble qu'ils révèlent leur plein potentiel. Par exemple, nous publions des messages sur les incidents sur une page d'état, mais nous les diffusons également sur Twitter. Ils sont également intégrés à notre app web. Ces messages redirigent ensuite l'utilisateur vers la page d'état où il trouvera plus d'informations sur l'incident. Nous vous recommandons d'identifier un canal de communication principal et de renvoyer les utilisateurs des autres canaux vers celui-ci.

SMS

Les SMS, ou messages texte, constituent souvent le moyen le plus direct de contacter quelqu'un, et une préférence pour beaucoup de personnes lorsqu'il s'agit d'alertes entrantes critiques comme une annonce de temps d'arrêt. C'est également un canal où la fatigue peut rapidement se faire sentir et où les gens se désabonneront s'ils reçoivent trop de messages qui ne sont pas pertinents pour eux.

Définissez des modèles pour la communication sur les incidents et les pannes

Dans l'urgence d'un incident, la dernière chose dont vous voulez vous préoccuper est la formulation d'une annonce d'incident. Une erreur à ce niveau offre une cible parfaite aux gestionnaires non techniques en quête d'une raison quelconque pour critiquer le processus de réponse de votre équipe.

Choisissez à l'avance un langage commun, faites-le approuver par vos managers et enregistrez-le dans un modèle. Vous pourrez facilement y ajouter des informations pertinentes et l'utiliser en cas d'incident.

Voici deux des modèles d'incident que nous utilisons pour notre propre page d'état :

  • La charge du site est actuellement supérieure à la normale, ce qui peut entraîner des ralentissements ou une absence de réponse de certaines pages. Nous étudions la cause et vous fournirons une mise à jour dès que possible.
  • Notre fournisseur de stockage pour les données de métriques publiques rencontre actuellement des problèmes d'infrastructure. Des mises à jour seront disponibles au fur et à mesure que la situation évolue ou lorsque nous recevrons plus d'informations.

Découvrez d'autres exemples dans notre bibliothèque de modèles d'incident.

Gérez la communication comme un pro

Le cycle de vie d'un incident impliquera probablement plusieurs points de contact. Lorsqu'il est bien conçu, il s'articule autour de trois volets pour chaque incident : premier contact, mise à jour pendant l'incident, résolution et post-mortem.

Volet 1 : Premier contact

La mise à jour initiale est la plus importante. Tout, de ce que vous dites à la façon dont vous le dites et au moment où vous le dites, se répercute sur la façon dont votre réponse sera perçue. C'est dans ces moments qu'il est vraiment utile de disposer d'un modèle défini à l'avance.

Votre objectif devrait être de prendre rapidement connaissance du problème, de résumer brièvement l'impact connu, de promettre d'autres mises à jour et, si vous êtes en mesure de le faire, d'atténuer les préoccupations relatives à la sécurité ou à la perte de données. Il est important de reconnaître qu'il y a un problème, même si vous ne connaissez pas encore les détails exacts.

Volet 2 : Mises à jour régulières pendant l'incident

La communication en cours d'incident est essentielle.

Les équipes SRE de Google considèrent la supervision du rôle de responsable des communications comme essentielle lors d'un incident.

Extrait du livre « Site Reliability Engineering » de Google sur le rôle de responsable des communications :

« Cette personne représente notre groupe de travail de réponse aux incidents auprès du public. Ses tâches comprennent la communication de mises à jour périodiques à l'équipe de réponse aux incidents et aux parties prenantes (généralement par e-mail), ainsi que le maintien de l'exactitude et la mise à jour du document d'incident. »

« Cette personne sera également chargée de continuer à mettre à jour la page d'état ou de publier des mises à jour sur d'autres canaux au fur et à mesure de l'évolution de la situation. Une simple mise à jour indiquant : "Nous travaillons toujours à la résolution du problème, rien de nouveau à signaler" est préférable à ne rien dire. Les gens laissés dans l'ignorance tendent à s'imaginer le pire. »

Volet 3 : Résolution, post-mortem, prochaines étapes

En 2010, Facebook a subi sa plus importante panne à ce jour. Pendant environ 2 heures et demie, le réseau social n'a pas été disponible pour plusieurs millions de son demi-milliard d'utilisateurs.

Le timing n'aurait pas pu être pire pour le géant technologique en plein essor, dont la croissance explosive n'en était encore qu'à ses balbutiements et qui peinait encore à prouver au monde des affaires que son service était à la hauteur du battage médiatique qui l'entourait.

Quand la situation s'est calmée, un ingénieur de Facebook a posté un résumé de 395 mots au sujet de l'incident sur le blog d'ingénierie de l'entreprise.

Extrait du blog :

« Tôt aujourd'hui, Facebook a rencontré une panne et était inaccessible pour beaucoup d'entre vous pendant environ 2,5 heures. Cette panne est la pire que nous ayons eue à déplorer depuis plus de quatre ans, et nous tenions d'abord à nous en excuser. Nous souhaitions également vous fournir plus de détails techniques sur ce qui s'est passé et partager avec vous une grande leçon que nous en avons tiré. »

Le plan du post-mortem est simple :

  • Reconnaître le problème, faire preuve d'empathie avec les personnes touchées et présenter des excuses
  • Expliquer ce qui a mal tourné et pourquoi
  • Expliquer les mesures prises pour corriger l'incident et pour éviter qu'il se reproduise
  • Reconnaître le problème, faire preuve d'empathie et présenter à nouveau des excuses

Pour cette communication, inutile d'utiliser un langage châtié ou d'en faire trop. Restez simple et direct. Par exemple, cet extrait tiré du blog de Facebook :

« Nous nous excusons encore une fois pour cette panne. Sachez que nous prenons la performance et la fiabilité de Facebook très au sérieux. »

Ce type de formulation renforce la confiance de vos clients et collègues qui percevront votre équipe comme réfléchie et vigilante.

En réalité, lorsque vous exploitez des services continus, des pannes peuvent parfois survenir. Communiquer efficacement pendant les temps d'arrêt peut renforcer la confiance à la fois avec les collègues et avec les clients. Bien réagir peut faire toute la différence. Nous avons également créé cet outil simple pour vous aider à écrire rapidement des communications efficaces en cas d'incidents.

Produits concernés
Logo Statuspage

Communiquez facilement l'état en temps réel à vos utilisateurs.