Les fonctionnalités d’alerte et de gestion des astreintes d’Opsgenie sont désormais intégrées à Jira Service Management et Compass. Migrez les données et les configurations Opsgenie existantes avant le 5 avril 2027 à l'aide de notre outil de migration automatisé.

Qu'est-ce qu'un budget d'erreur, et pourquoi est-ce important ?

Toutes les équipes de développement, opérationnelles et informatiques savent que des incidents peuvent survenir.

Télécharger gratuitement

Même les plus grandes entreprises aux plus grands talents et à la réputation de bénéficier d'un temps d'activité frôlant les 100 % sont parfois frustrées de voir leurs systèmes tomber en panne. Il suffit de regarder Apple, Delta ou Facebook : toutes ces entreprises ont perdu des dizaines de millions en raison d'incidents au cours des cinq dernières années.

Compte tenu de ce constat, les accords de niveau de service (SLA) ne devraient jamais promettre des temps d'activité de 100 %. En effet, aucune entreprise ne peut tenir cette promesse.

Cela signifie aussi que si votre entreprise sait parfaitement comment éviter ou résoudre les incidents, vous pourrez systématiquement atteindre vos objectifs de temps d'activité. Peut-être avez-vous promis un temps d'activité de 99 % et atteignez en réalité 99,5 %. Peut-être avez-vous promis un temps d'activité de 99,5 % qui se rapproche en réalité de 99,99 % sur un mois classique.

Dans ce cas, les experts du secteur recommandent qu'au lieu de rehausser les attentes des utilisateurs à force de dépasser constamment vos engagements, vous considériez ce 0,99 % supplémentaire comme un budget d'erreur, c'est-à-dire un temps que votre équipe peut mettre à profit pour prendre des risques.

Utiliser un modèle gratuit d'erreurs connues ITSM

Qu'est-ce qu'un budget d'erreur ?

Un budget d'erreur désigne la durée maximale pendant laquelle un système technique peut échouer sans conséquences juridiques.

Par exemple, si votre accord de niveau de service (SLA) spécifie que l'entreprise n'aura à indemniser les clients en cas de panne que si les systèmes fonctionnent moins de 99,99 % du temps, cela signifie que votre budget d'erreur (ou la durée pendant laquelle vos systèmes peuvent tomber en panne sans conséquence) est de 52 minutes et 35 secondes par an.

Si votre SLA promet une disponibilité de 99,95 %, votre budget d'erreur est de 4 heures, 22 minutes et 48 secondes. Et avec un SLA d'activité de 99,9 % garantie, votre budget d'erreur est de 8 heures, 46 minutes et 12 secondes.

Pourquoi les équipes techniques ont-elles besoin de budgets d'erreur ?

À première vue, les budgets d'erreur ne semblent pas si importants. Ce n'est qu'une autre métrique que les équipes informatiques et DevOps doivent suivre pour s'assurer que tout fonctionne bien, n'est-ce pas ?

Fort heureusement, non. Les budgets d'erreur ne sont pas seulement un moyen pratique de vous assurer que vous respectez les engagements contractuels. Ils permettent également aux équipes de développement d'innover et de prendre des risques.

Comme nous l'expliquons dans notre article sur l'ingénierie de la fiabilité des sites (SRE),

« L'équipe de développement peut en quelque sorte utiliser ce budget d'erreur comme elle le souhaite. Si le produit fonctionne actuellement sans problème, avec peu ou pas d'erreurs, elle peut lancer ce qu'elle veut, quand elle le souhaite. À l'inverse, si elle a atteint ou dépassé le budget d'erreur et respecte tout juste le SLA défini, tous les lancements sont gelés jusqu'à ce qu'elle réduise le nombre d'erreurs à un niveau permettant de procéder au lancement. »

L'avantage de cette approche ? Elle encourage les équipes à minimiser les incidents réels et à maximiser l'innovation en prenant des risques dans des limites acceptables. Elle permet également de combler le fossé entre les équipes de développement, dont les objectifs sont l'innovation et l'agilité, et les équipes opérationnelles, qui sont préoccupées par la stabilité et la sécurité. Tant que les temps d'arrêt restent faibles, les développeurs peuvent rester agiles et pusher des changements sans subir de frictions de la part des équipes opérationnelles.

Comment utiliser un budget d'erreur

Tout d'abord, vous devrez consulter vos SLA et SLO. Quels objectifs avez-vous déjà définis pour le temps d'activité ou les demandes système réussies ? Quelles promesses votre entreprise a-t-elle faites aux clients ? Cela dictera votre budget d'erreur.

Budgets d'erreur basés sur le temps d'activité

La plupart des équipes surveillent le temps d'activité tous les mois. Si la disponibilité est supérieure au SLA/SLO auquel vous vous êtes engagé, l'équipe peut livrer de nouvelles fonctionnalités et prendre des risques. Si elle est inférieure à l'objectif, les livraisons sont interrompues jusqu'à ce que les chiffres cible soient conformes aux attentes.

Pour utiliser cette méthode efficacement, vous devez traduire votre SLO cible (généralement un pourcentage) en chiffres réels sur lesquels vos développeurs peuvent travailler. Cela signifie qu'il faut calculer à combien d'heures et de minutes correspondent les 1 %, 0,5 % ou 0,1 % de temps d'arrêt autorisé. Les objectifs courants sont les suivants :

Objectif SLA	Temps d'arrêt annuel autorisé	Temps d'arrêt mensuel autorisé
Disponibilité de 99,99 %	52 minutes et 35 secondes	4 minutes et 23 secondes
Disponibilité de 99,95 %	4 heures, 22 minutes et 48 secondes	21 minutes et 54 secondes
Disponibilité de 99,9 %	8 heures, 45 minutes et 57 secondes	43 minutes et 50 secondes
Disponibilité de 99,5 %	43 heures, 49 minutes et 45 secondes	3 heures et 39 minutes
Disponibilité de 99 %	87 heures et 39 minutes	7 heures et 18 minutes

Budgets d'erreurs basés sur les demandes réussies

Les SLO sont plus appréciés que les SLA, mais peuvent susciter autant de problèmes s'ils sont vagues, trop compliqués ou impossibles à mesurer. Pour éviter que les ingénieurs s'arrachent les cheveux, il est essentiel que les SLO soient à la fois simples et clairs. Seuls les indicateurs les plus importants sont admissibles au statut de SLO. Les objectifs doivent être formulés dans un langage clair, et, à l'instar des SLA, doivent toujours prendre en compte d'éventuels problèmes comme les retards côté client.

Maîtrisez les SLA pour résoudre les demandes en fonction des priorités et utilisez des règles de remontée automatisées pour avertir les membres de l'équipe concernés et éviter toute violation des SLA grâce à Jira Service Management.

Essayer Jira Service Management gratuitement

Recommandé pour vous

tutoriel

Découvrez la communication sur les incidents grâce à Statuspage

Dans ce tutoriel, nous allons vous montrer comment utiliser des modèles d'incident pour communiquer efficacement pendant les pannes. Vous pouvez les adapter à de nombreux types d'interruption de service.

Lire ce tutoriel

En quoi un processus de post-mortem d'incident est-il important ?

Un post-mortem d'incident, également appelé revue post-incident, est le meilleur moyen de travailler sur ce qui s'est passé lors d'un incident et de consigner les leçons apprises.

Lire cet article

Découvrez-en plus sur la gestion des incidents

Trouvez d'autres guides et ressources sur la gestion des incidents dans ce hub.

Apps recommandées

Collections Atlassian

Rovo

Par cas d'usage

Par équipe

Par taille

Par secteur

Rovo

Support

Ressources

Apps recommandées

Jira

Confluence

Jira Service Management

Collections Atlassian

Rovo

Rovo

Rovo

Rovo

Rovo

Rovo

Par cas d'usage

Par équipe

Par taille

Par secteur

Rovo

Jira

Confluence

Jira Service Management

Par cas d'usage

Par équipe

Par taille

Par secteur

Rovo

Qu'est-ce qu'un budget d'erreur, et pourquoi est-ce important ?

Qu'est-ce qu'un budget d'erreur ?

Pourquoi les équipes techniques ont-elles besoin de budgets d'erreur ?

Comment utiliser un budget d'erreur

Budgets d'erreur basés sur le temps d'activité

Budgets d'erreurs basés sur les demandes réussies

Recommandé pour vous

Découvrez la communication sur les incidents grâce à Statuspage

En quoi un processus de post-mortem d'incident est-il important ?

Découvrez-en plus sur la gestion des incidents