Die Warnmeldungs- und Bereitschaftsfunktionen von Opsgenie sind jetzt in Jira Service Management und Compass verfügbar. Migriere deine bestehenden Opsgenie-Daten und -Konfigurationen vor dem 5. April 2027 mit unserem automatisierten Migrationstool.Weitere Informationen

Was ist ein Fehlerbudget, und warum ist es wichtig?

Jedes Entwicklungs-, Operations- und IT-Team weiß, dass es manchmal zu Vorfällen kommt.

Kostenlos starten

Selbst die größten Unternehmen mit den fähigsten Mitarbeitern und dem Ruf, eine fast 100%ige Verfügbarkeit zu gewährleisten, müssen manchmal machtlos dabei zusehen, wie ihre Systeme ausfallen. Schau dir nur Apple, Delta oder Facebook an: Sie alle haben in den letzten fünf Jahren durch Vorfälle mehrere zehn Millionen an Verlusten hinnehmen müssen.

Das bedeutet, dass Service Level Agreements (SLAs) niemals eine Verfügbarkeit von 100 % versprechen sollten. Denn dieses Versprechen kann kein Unternehmen einhalten.

Wenn dein Unternehmen aber sehr gut darin ist, Vorfälle zu vermeiden oder zu beheben, wird es seine Verfügbarkeitsziele regelmäßig überbieten. Vielleicht versprichst du eine Verfügbarkeit von 99 %, erreichst tatsächlich aber fast 99,5 %. Oder du versprichst eine Verfügbarkeit von 99,5 % und erreichst tatsächlich 99,99 % in einem normalen Monat.

In solchen Fällen empfehlen Branchenexperten, Benutzererwartungen nicht zu hoch zu stecken, indem du deine Versprechen ständig übertriffst. Stattdessen solltest du die zusätzlichen 0,99 % als Fehlerbudget betrachten. Das ist Zeit, die dein Team nutzen kann, um Risiken einzugehen.

Kostenlose ITSM-Vorlage für bekannte Fehler verwenden

Was ist ein Fehlerbudget?

Ein Fehlerbudget ist die maximale Zeit, die ein technisches System ausfallen darf, ohne dass dies vertragliche Konsequenzen hätte.

Ein Beispiel: Dein Service Level Agreement (SLA) besagt, dass Systeme beispielsweise 99,99 % der Zeit funktionieren müssen, bevor das Unternehmen Kunden für Ausfälle entschädigen muss. Das heißt, dein Fehlerbudget (oder die Zeit, in der deine Systeme ohne Folgen ausfallen dürfen) beträgt pro Jahr 52 Minuten und 35 Sekunden.

Wenn dein Service Level Agreement (SLA) eine Verfügbarkeit von 99,95 % verspricht, beträgt dein Fehlerbudget vier Stunden, 22 Minuten und 48 Sekunden. Und mit einem SLA, das eine Verfügbarkeit von 99,9 % zusagt, beträgt dein Fehlerbudget acht Stunden, 46 Minuten und 12 Sekunden.

Warum brauchen technische Teams Fehlerbudgets?

Auf den ersten Blick scheinen Fehlerbudgets nicht so wichtig zu sein. Sie sind nur eine weitere Metrik, die IT- und DevOps-Teams nachverfolgen müssen, um sicherzustellen, dass alles reibungslos läuft. Oder nicht?

Die Antwort lautet zum Glück "Nein". Fehlerbudgets sind nicht nur eine praktische Möglichkeit, um sicherzustellen, dass du vertragliche Versprechen einhältst. Sie bieten Entwicklerteams auch die Möglichkeit, innovativ zu sein und Risiken einzugehen.

Wir erklären es in unserem SRE-Artikel so:

"Das Entwicklerteam kann dieses Fehlerbudget beliebig "investieren". Wenn das Produkt derzeit einwandfrei und mit wenigen oder keinen Fehlern läuft, kann das Team jederzeit ein beliebiges neues Produkt auf den Markt bringen. Wenn es das Fehlerbudget jedoch ausgereizt oder überzogen hat und das definierte Service Level Agreement (SLA) gerade noch oder nicht mehr einhält, werden alle Einführungen auf Eis gelegt, bis die Anzahl der Fehler auf ein Niveau reduziert sind, das weitere Einführungen erlaubt."

Der Vorteil dieses Ansatzes: Teams werden dazu ermutigt, echte Vorfälle zu minimieren und Innovationen zu maximieren, indem sie Risiken innerhalb zulässiger Grenzen eingehen. Er schließt zudem die Lücke zwischen Entwicklerteams, deren Ziele Innovation und Agilität sind, und Operations-Teams, die sich um die Stabilität und Sicherheit kümmern. Solange die Ausfallzeiten niedrig bleiben, können Entwickler agil handeln und Änderungen vorantreiben, ohne von der Operations-Abteilung daran gehindert zu werden.

So nutzt du ein Fehlerbudget

Zuerst musst du dir deine SLAs und SLOs näher betrachten. Welche Ziele hast du bereits für die Verfügbarkeit oder für erfolgreiche Systemanfragen festgelegt? Welche Versprechen hat dein Unternehmen Kunden gegeben? Von diesen Aspekten wird dein Fehlerbudget bestimmt.

Fehlerbudgets auf Basis der Verfügbarkeit

Die meisten Teams überwachen die Verfügbarkeit monatlich. Wenn die Verfügbarkeit über dem vom SLA/SLO versprochenen Prozentsatz liegt, kann das Team neue Funktionen veröffentlichen und Risiken eingehen. Wenn sie das Ziel nicht erfüllt, werden weitere Einführungen gestoppt, bis der Zielwert wieder erreicht ist.

Um diese Methode effektiv nutzen zu können, musst du dein SLO-Ziel (normalerweise einen Prozentsatz) in reale Zahlen umwandeln, mit denen deine Entwickler arbeiten können. Du musst beispielsweise berechnen, wie viele Stunden und Minuten deine zulässigen Ausfälle von 1 %, 0,5 % oder 0,1 % eigentlich sind. Hier einige typische Zielwerte:

SLA-Ziel	Erlaubter Ausfall pro Jahr	Erlaubter Ausfall pro Monat
99,99 % Verfügbarkeit	52 Minuten 35 Sekunden	4 Minuten 23 Sekunden
99,95 % Verfügbarkeit	4 Stunden 22 Minuten 48 Sekunden	21 Minuten 54 Sekunden
99,9 % Verfügbarkeit	8 Stunden 45 Minuten 57 Sekunden	43 Minuten 50 Sekunden
99,5 % Verfügbarkeit	43 Stunden 49 Minuten 45 Sekunden	3 Stunden 39 Minuten
99 % Verfügbarkeit	87 Stunden 39 Minuten	7 Stunden 18 Minuten

Fehlerbudgets auf Basis erfolgreicher Anfragen

Die Abneigung gegenüber SLOs ist geringer als gegenüber SLAs, sie können aber genauso viele Probleme verursachen, wenn sie vage, übermäßig kompliziert oder unmöglich zu messen sind. Einfachheit und Klarheit sind unerlässlich, um SLOs zu erstellen, mit denen die Techniker im Unternehmen gut zurechtkommen. Nur die wichtigsten Metriken sollten in die SLOs aufgenommen werden. Außerdem sollten die Ziele immer in einfacher Sprache abgefasst sein, und wie bei den SLAs sollten Probleme wie Verzögerungen auf Kundenseite berücksichtigt werden.

Behalte mit Jira Service Management den Überblick über SLAs, um Anfragen basierend auf Prioritäten zu lösen, und verwende automatisierte Eskalationsregeln, um die richtigen Teammitglieder zu benachrichtigen und SLA-Verstöße zu verhindern.

Jira Service Management kostenlos testen

Für dich empfohlen

Tutorial

Mit Statuspage bei Vorfällen besser kommunizieren

In diesem Tutorial zeigen wir dir, wie du mithilfe von Vorfallvorlagen bei Ausfällen effektiv kommunizierst. Sie sind an viele Arten von Serviceunterbrechungen anpassbar.

Dieses Tutorial ansehen

Warum Post-Mortem-Analysen von Vorfällen so wichtig sind

Die Post-Mortem-Analyse eines Vorfalls, auch als Post-Incident Review bekannt, ist die beste Methode, einen Vorfall aufzuarbeiten und die daraus gezogenen Lehren zu dokumentieren.

Artikel lesen

Weitere Informationen zum Vorfallmanagement

In diesem Hub findest du weitere Anleitungen und Ressourcen zum Vorfallmanagement.

Vorgestellte Apps

Atlassian-Sammlungen

Nach Anwendungsfall

Nach Team

Nach Größe

Nach Branche

Support

Ressourcen

Jira

Confluence

Jira Service Management

Nach Anwendungsfall

Nach Team

Nach Größe

Nach Branche

Jira

Confluence

Jira Service Management

Nach Anwendungsfall

Nach Team

Nach Größe

Nach Branche

Was ist ein Fehlerbudget, und warum ist es wichtig?

Was ist ein Fehlerbudget?

Warum brauchen technische Teams Fehlerbudgets?

So nutzt du ein Fehlerbudget

Fehlerbudgets auf Basis der Verfügbarkeit

Fehlerbudgets auf Basis erfolgreicher Anfragen

Für dich empfohlen

Mit Statuspage bei Vorfällen besser kommunizieren

Warum Post-Mortem-Analysen von Vorfällen so wichtig sind

Weitere Informationen zum Vorfallmanagement