Close

Gestion des incidents pour les équipes haute vélocité

Avantages et inconvénients des différentes approches de gestion des astreintes

Le monde dépend plus que jamais des services disponibles en continu. Une panne peut affecter des millions de personnes, avec un impact réel : les empêcher de payer leurs factures, de réserver un vol, de passer un appel vidéo à leurs amis…

Et que vous rencontriez un bug majeur, des problèmes de capacité ou que votre service soit totalement en panne, les clients qui dépendent de vos services attendent une réponse immédiate. (Il en va de même pour les équipes internes.)

Les incidents peuvent avoir un impact réel, non seulement financier, (ils coûtent 700 milliards de dollars aux entreprises par an rien qu'en Amérique du Nord), mais également sur la réputation de votre entreprise, de votre produit et de votre équipe.

Avec de tels enjeux, les équipes se sont tournées vers la mise en place d'équipes informatiques et de développement d'astreinte afin de s'assurer que l'organisation dispose des bonnes personnes pour corriger un problème lors d'un incident, quel que soit le moment où il se produit.

Associé à un plan d'indemnisation des astreintes, un planning d'astreinte équitable peut même favoriser une culture de responsabilités partagées et aider vos équipes à explorer ce qu'elles doivent faire pour créer des logiciels et des services résilients, améliorer le produit dans son ensemble et réduire les pannes.

Qu'est-ce qu'une astreinte ?

L'astreinte consiste à désigner des personnes spécifiques pour qu'elles soient disponibles à des moments spécifiques afin de répondre dans le cas d'un ticket de service urgent, même si elles ne sont pas formellement à leur poste.

L'astreinte est une responsabilité essentielle au sein de nombreuses équipes informatiques, de développement, de support et opérationnelles qui exécutent des services pour lesquels les clients attendent une disponibilité 24 h/24 et 7 j/7. Les membres de l'équipe se relaient pour assurer une rotation d'astreinte, soit 24 h/24 et 7 j/7, soit uniquement en dehors des heures de bureau. Parallèlement aux solutions de surveillance et d'alertes automatisées, l'ingénieur d'astreinte est en mesure de répondre immédiatement à toute interruption de la disponibilité du service.

Les astreintes sont toujours plus importantes pour les équipes informatiques et de développement

Parfois, le travail d'astreinte a mauvaise réputation. Certains informaticiens ont vécu des scénarios catastrophes dans lesquels des équipes étaient trop sollicitées et n'obtenaient pas le support nécessaire pour répondre correctement aux incidents.

Une grande partie de cette anxiété peut être réduite si le support d'astreinte est mis en place correctement. Grâce à un plan d'astreinte efficace, vous pouvez vous assurer que votre équipe peut évoluer pour s'adapter au développement des services, en fournissant une couverture cohérente pour les fonctions informatiques critiques et une réponse rapide aux incidents.

Les avantages d'un bon plan de gestion des astreintes ne se limitent pas à la gestion des temps d'arrêt. Chaque panne est l'occasion pour les équipes d'acquérir de nouvelles compétences, comme comprendre un peu mieux un service stratégique, découvrir les réactions face à un échec, et apprendre comment concevoir un système pour réduire les défaillances ou améliorer le plan de réponse aux incidents.

De plus, disposer d'un bon programme de gestion des astreintes, reposant sur une culture des responsabilités partagées, peut également conduire à une meilleure ambiance au sein des équipes et à moins de burn-out, ce qui peut se traduire par une rétention accrue des employés.

Être d'astreinte : avantages et inconvénients

Dans les organisations qui appliquent DevOps, les équipes de développement assument de nombreuses responsabilités relatives à la fiabilité et à la disponibilité des services qu'elles développent. Auparavant, cette tâche était réservée aux équipes opérationnelles. Pour bon nombre de ces équipes, l'approche « you build it, you run it » (vous le concevez, vous en êtes responsable) est la nouvelle devise. Étant les personnes qui connaissent le mieux le code, les développeurs sont souvent celles pouvant le mieux dépanner les problèmes dans les plus brefs délais.

De plus, tout au long de ce processus, les développeurs créent de meilleurs logiciels, moins susceptibles d'échouer. Grâce à ce transfert de responsabilité, ils testent leur code de manière plus rigoureuse, car ils peuvent être amenés à intervenir en dehors des heures de travail en cas de problème.

Résultat ? Des systèmes plus résilients et moins de burn-out, puisque davantage de personnes sont disponibles et à même de faire face aux incidents.

Sans un bon programme de gestion des astreintes, les organisations n'obtiendront pas tous les avantages culturels de DevOps, ou ne répondront pas aux exigences d'une infrastructure évolutive. Si une équipe supporte la charge de réponse aux incidents plus qu'une autre, elle n'aura pas la capacité de bien faire son travail quotidien. Les développeurs n'implémenteront pas le feedback tiré des incidents, et les intervenants sur les incidents n'auront pas la capacité de renforcer leurs systèmes.

Si les responsabilités sont inégales, les personnes prévues pour le planning d'astreinte ne sont jamais vraiment capables de se détacher du travail et peuvent facilement sombrer dans un burn-out.

Mais un plan qui prend en compte les véritables exigences de couverture de l'organisation, répartit équitablement les missions entre les développeurs et les équipes informatiques opérationnelles, et capture les données pour l'amélioration continue peut s'avérer bénéfique dans tous les domaines. Non seulement cela permettra d'offrir un meilleur service client, mais cela peut aussi aider les employés à améliorer leurs compétences et leur produit, et à ne pas rechigner devant les heures d'astreinte.

Comment améliorer les rôles des développeurs d'astreinte

Vous n'entendrez jamais un ingénieur dire : « Comme je suis impatient de passer ma soirée à superviser ce déploiement et à répondre à d'éventuelles pannes ! ».

Comme les développeurs sont de plus en plus nombreux à assumer un rôle de maintenance pour les services qu'ils développent, il est important de s'assurer qu'ils sont préparés pour leurs responsabilités d'astreinte. Le bon moment pour évaluer cet aspect ? Pendant le recrutement.

De nos jours, la guerre pour s'offrir les meilleurs ingénieurs fait rage, ce n'est pas un secret. L'argent n'est pas la seule motivation : payer les heures supplémentaires des développeurs peut ne pas être suffisant à la signature du contrat (nous développerons l'indemnisation plus tard). Lors du processus d'entretien, les ingénieurs en développement poseront naturellement des questions pour savoir à quelle fréquence ils devront amputer leur vie personnelle pour apparaître sur le planning d'astreinte.

Montrer que vous disposez d'un plan documenté de gestion des astreintes, qui répartit équitablement les responsabilités au sein d'une équipe de développeurs et de SRE compétents, peut grandement rassurer les nouvelles recrues quant au fait que votre organisation contrôle sa gestion des astreintes. Grâce à un plan documenté, vous pouvez être totalement transparent durant l'entretien et vous assurer que les candidats sont prêts à s'engager à travailler d'astreinte.

Cinq méthodes simples pour adapter davantage les astreintes aux développeurs

  1. Définissez clairement les responsabilités d'astreinte
    Les responsabilités durant les astreintes doivent être clairement définies. Cela permet d'éviter le burn-out, la confusion et la frustration. Nous vous suggérons de documenter votre processus de réponse aux incidents ainsi que les exigences relatives aux astreintes.
  2. Assurez-vous que les alertes sont assignées à la bonne personne
    Ne négligez pas une mise au point efficace de votre outil d'alerte. Vous pouvez vous épargner de nombreux problèmes en vous assurant de disposer de remplacements adéquats et d'un flux d'alertes clair grâce aux bonnes notifications.
  3. Nommez des intervenants principaux et secondaires
    La Terre ne s'arrête pas de tourner parce qu'une personne est d'astreinte. Tout comme une urgence personnelle peut interrompre un développeur pendant sa journée de travail, la même chose peut se produire lorsqu'il est d'astreinte. Limitez les préjudices causés par ce type d'interruption en nommant une personne de remplacement.
  4. Affinez vos plannings
    Les équipes ne sont pas statiques, c'est pourquoi votre planning d'astreinte doit être dynamique. Nous recommandons une culture d'examen, d'ajustement et d'amélioration continue de vos pratiques de gestion des astreintes.
  5. Assurez-vous que les membres de l'équipe aient accès aux outils de diagnostic pertinents et les connaissent bien
    Chaque équipe a ses propres outils pour suivre l'intégrité opérationnelle, les performances applicatives ou encore l'utilisation des ressources. Assurez-vous que vos ingénieurs d'astreinte connaissent les outils utilisés et y un ont un accès approprié.

Comment améliorer les astreintes pour les rôles de support informatique et de service

Les développeurs ne sont pas les seuls à passer plus de temps d'astreinte. L'assistance 24 h/24 et 7 j/7 assurée par les équipes de support et de service informatiques est de plus en plus essentielle pour accompagner la fonction métier.

Ces équipes font face aux mêmes défis que les développeurs d'astreinte : stress, burn-out, manque de clarté quant aux rôles et responsabilités, accès aux outils.

Les équipes informatiques subissent souvent un stress supplémentaire. En effet, elles travaillent fréquemment dans le même bâtiment que leurs clients, qui peuvent les ralentir en les interrompant en permanence (e-mails, Slack, discussions en personne) à propos de l'incident.

Voici quelques stratégies pour que les incidents informatiques restent gérables :

  • Une communication rapide et transparente : une communication proactive sur les incidents informatiques montre que vous y portez de l'intérêt, et que vous êtes aux commandes.
  • Gardez une trace de ce qui compte : la plupart des équipes de service informatiques utilisent un logiciel de centre de services. Il est essentiel de ne pas vous contenter d'utiliser des champs de saisie de données libres pour consigner les informations de chaque ticket.
  • Mettez en place un système de surveillance : traditionnellement, de nombreuses équipes informatiques opérationnelles surveillent personnellement les tableaux de bord des performances pour garder un œil sur les pannes. Faites une faveur à l'équipe, laissez cette tâche aux outils de surveillance et d'alerte.

Indemnisation des astreintes

Un bon plan d'indemnisation des astreintes récompense vos employés pour leur expertise et le temps passé à travailler en dehors des heures de travail. Si les employés se sentent bien encadrés, ils s'intéresseront à leur tour à l'entreprise et contribueront à sa réussite.

Selon la Fair Labor Standard Act (FLSA), une loi fédérale américaine qui fixe les exigences relatives au salaire minimum, aux heures supplémentaires et à l'âge minimum pour les employeurs et les employés, si un employé est d'astreinte mais libre de faire ce qu'il veut de son temps, il est considéré comme « en attente de travail », et donc ne travaille pas.

Si une personne se voit restreinte dans son temps libre et ne peut pas faire ce qu'elle veut de ses heures de repos, selon la FLSA, ce temps d'astreinte peut être considéré comme des « heures travaillées » et être éligible à une indemnisation.

Vos lois locales peuvent varier, assurez-vous donc de consulter un expert. À partir de là, visez un plan d'indemnisation des astreintes compétitif, juste et qui soutient une culture de responsabilités partagées.

Différents types de plans d'indemnisation des astreintes

1. Astreinte avec primes

Les plans d'indemnisation des astreintes basés sur des primes récompensent les employés qui se sont portés volontaires pour effectuer des heures de travail d'astreinte par des jours de congé supplémentaires, des horaires flexibles, une hausse du salaire de base ou d'une combinaison de ces avantages.

L'avantage de cette approche d'indemnisation des astreintes ? Un sens d'appartenance aux services accru, ce qui peut entraîner des systèmes plus résilients.

En outre, accorder suffisamment de temps libre et verser une indemnisation compétitive permet aux employés de savoir que leur travail est valorisé et apprécié, ce qui évite le burn-out et réduit la rotation du personnel.

2. Astreintes rémunérées pour les heures supplémentaires prévues

Dans ce modèle d'indemnisation des astreintes, les employés sont directement indemnisés pour le temps planifié ou passé en astreinte, même s'ils ne reçoivent aucun ticket durant leur service.

L'avantage évident est l'incitation tangible. En sachant que vous êtes payé pour porter un pager (ou, plus probablement, un ordinateur portable et un téléphone cellulaire), il est plus facile de justifier le fardeau que représente le fait d'être d'astreinte et disponible, même si aucun problème ne se produit.

3. Astreintes rémunérées pour le temps passé sur les tickets

Une autre approche de l'indemnisation des astreintes consiste à payer les employés uniquement lorsqu'ils travaillent sur un incident. Voici quelques méthodes de calcul :

  • Montant total rémunéré pour le travail d'astreinte
  • Taux horaire pour le temps passé à travailler sur les alertes/tickets
  • Taux pour le nombre d'alertes et de tickets traités

L'avantage de ce modèle est que les employés sont rémunérés pour le travail supplémentaire qu'ils fournissent en dehors des heures ouvrables classiques. L'inconvénient potentiel est qu'il peut décourager à créer des alertes et des tickets, ce qui peut impacter négativement l'intégrité globale des systèmes.

4. Astreintes rémunérées pour les heures supplémentaires prévues et le temps passé sur les tickets

Il s'agit d'une combinaison des deux modèles précédents. Certaines entreprises rémunèrent les employés qui figurent sur le planning d'astreinte et versent une indemnisation supplémentaire pour les alertes reçues et les tickets traités. L'avantage de ce modèle d'indemnisation des astreintes est que les employés se sentent bien indemnisés pour le temps et les efforts supplémentaires que l'organisation leur demande. Et si un employé se retrouve coincé avec un ticket particulièrement complexe qui empiète sur son temps personnel, il sera alors compensé financièrement pour le sacrifice. Mais encore une fois, demandez-vous si cela fait sens dans votre culture d'entreprise de créer une récompense indirecte pour les bugs logiciels.

Autres éléments à prendre en compte

Nous venons de voir les modèles classiques pour les plans d'indemnisation des astreintes. Voici d'autres éléments à prendre en compte, le cas échéant :

  • Le nombre d'alertes reçues pendant et en dehors des heures de bureau

Ce nombre est essentiel pour déterminer si vous avez besoin d'un planning d'astreinte couvrant également les heures en dehors des heures ouvrables, ou d'une équipe d'astreinte spéciale pendant les heures ouvrables.

  • Le temps passé à travailler sur les incidents

La complexité et l'importance des incidents au sein de votre organisation peuvent varier. Un ingénieur d'astreinte peut passer quelques minutes sur un ticket ou toute la nuit à lutter contre un incident. Le temps et les efforts déployés lors d'un service d'astreinte classique doivent être pris en considération et entrer dans le calcul pour une indemnisation juste.

  • Temps moyen d'accusé de réception ou durée moyenne de résolution

Prévu dans les politiques de remontée, le temps d'accusé de réception est essentiel à une résolution rapide. Calculer le temps moyen d'accusé de réception et la durée moyenne de résolution sur un laps de temps aide les responsables à déterminer des primes supplémentaires.

Conclusion

Si vous disposez des bons outils, vous pouvez fluidifier les politiques d'astreinte. Il est possible de gérer les plannings d'astreinte, de surveiller les alertes et d'assurer à la fois la satisfaction et la santé des employés grâce à des solutions optimisées de gestion des incidents. Les fonctionnalités d'alerte de Jira Service Management permettent aux équipes de centraliser et de filtrer les alertes dans tous les outils de surveillance, de journalisation et de CI/CD de sorte à assurer des réponses rapides tout en évitant la fatigue d'alerte.