Wie YBIYRI Always-on-Dienste ermöglicht

Wie Unternehmen eine DevOps-Kultur aufbauen können, die ständig verfügbare Services unterstützt

Teste Compass kostenlos

Als Unterstützung beim Entwickeln, zum Katalogisieren von Diensten und zum Optimieren des Softwarezustands.

Ständig verfügbare Services erfordern kontinuierliche Reaktionen von Agile- und DevOps-Teams. Diese Teams müssen über die Reaktion auf einen einzelnen Vorfall hinausdenken und die Teamstruktur, Werte und Tools aufeinander abstimmen, um sicherzustellen, dass der optimale Betrieb zu einer Kernkompetenz wird.

Herausforderungen von ständig verfügbaren Services

YBIYRI wurde vor 14 Jahren zum ersten Mal ins Gespräch gebracht und es ist trotzdem für moderne Entwicklerteams immer noch eine Herausforderung, die Lösungszeiten zu beschleunigen und betriebliche Best Practices zu skalieren, wie darin versprochen. Leider formieren viele Teams ihre Fähigkeiten, Zeitpläne und Prozesse immer noch als Reaktion auf einen Vorfall und nicht als Grundlage für langfristigen Erfolg.

Teams stellen oft ohne angemessene Vorbereitung auf eine YBIYRI-Kultur um. Nicht selten wird der erste größere Vorfall zum Weckruf. Meist werden nun Stimmen laut, dass Vorfälle nicht wieder vorkommen dürfen. Um dies zu erreichen, werden Safety Gates, Checkpoints und andere aufwändige Prozeduren eingeführt. Außerdem werden Change Review Boards und wöchentliche Release-Reviews zu Teamritualen. Jede Änderung wird sorgfältig geprüft, um Ausfälle zu vermeiden. Dies führt zwar oft dazu, dass die Anzahl der Vorfälle reduziert wird, verlangsamt aber unter Umständen die Entwicklungsgeschwindigkeit und die Produktdynamik. Das kann zu einem Wettbewerbsnachteil werden, da flexiblere Wettbewerber viel schnellere Fortschritte machen.

Best Practices für ständig verfügbare Services

Betriebsbereitschaft

Eine der entscheidenden Veränderungen für YBIYRI-Teams besteht darin, die Betriebsbereitschaft als Teil der Sprint-Planungs- und Ausführungszyklen einzubeziehen. Die Betriebsbereitschaft kann beinhalten:

Integration geeigneter, hochwertiger Warnungen in den Code während des Entwicklungsprozesses, um die mittlere Zeit bis zur Erkennung (MTTD) und die mittlere Isolationszeit (MTTI) zu minimieren
Überwachung – gegebenenfalls einschließlich synthetischer Überwachung – um sicherzustellen, dass abhängige Services erwartungsgemäß funktionieren
Reservierte Zeit für die Erstellung erforderlicher Dashboards und die Schulung aller Teammitglieder in deren Verwendung
Keine Zuweisung von anderen Entwicklungsverpflichtungen des Sprints an Teammitglieder im Bereitschaftsdienst
Erprobung des Ernstfalls für den Service, um sicherzustellen, dass Rollbacks erwartungsgemäß funktionieren
Planung der Bandbreite in Sprints auf Basis der Reviews früherer Vorfälle
Behebung von Sicherheitsproblemen (Upgrades/Patches/Rolling Credentials) und betrieblichen Problemen im Rahmen von Sprint-Zyklen

All dies setzt voraus, dass Produktinhaber die Service Level Objectives (SLO) genau kennen und zusammen mit den geschäftlichen Verpflichtungen in Bezug auf Feature-Entwicklung und Funktionalität entsprechend priorisieren.

Einführung von Vorfallswerten

Die Einführung von Vorfallswerten auf Teamebene kann im Team eine solide Grundlage für die Entwicklung der YBIYRI-Kultur schaffen. Vorfallswerte geben deinem Team Orientierung bei der Incident Response. Diese Werte stellen sicher, dass eine solide Grundlage für eine nachhaltige Kultur beim Aufbau und Betrieb eines ständig verfügbaren Service vorhanden ist. Vorfallswerte dienen folgenden Zwecken:

Sie liefern Anhaltspunkte für die eigenständige Entscheidungsfindung der Teams bei Vorfällen und bei Post-Mortem-Analyse.
Sie unterstützen den Aufbau einer konsistenten Teamkultur, die auch beinhaltet, wie Vorfälle identifiziert, verwaltet werden und wie daraus gelernt werden kann.
Sie geben den Teams einheitliche Hinweise auf die Haltung, die sie bei der Identifizierung, Lösung und rückwirkenden Betrachtung von Vorfällen einnehmen sollten.

Ein Vorfallswerte-Playbook ist ein hervorragender Leitfaden zur Identifikation von Teamwerten während der Incident Response und zur Erstellung eines Plans, um diese Werte konsistent in die Tat umzusetzen. Es kann hilfreich sein, wenn dein Team in eurem Gesundheitscheck Schwierigkeiten mit Kundenorientierung, Teamzusammenhalt, gemeinsamem Verständnis, Service-Levels oder Servicemandaten hat.

Bei Atlassian gelten die folgenden Vorfallswerte auf Teamebene:

Atlassian-Wert	Phase und Vorfallswert	Begründung
Entwicklung mit Herz und Verstand	Erkennen Atlassian weiß Bescheid, bevor Kunden den Vorfall bemerken.	Bei einem ausgewogenen Service sind effektive Überwachungs- und Benachrichtigungsfunktionen implementiert, um Vorfälle zu erkennen, bevor unsere Kunden sie bemerken. Im Optimalfall werden wir im Rahmen der Überwachung schon benachrichtigt, bevor ein Problem zu einem Vorfall führt.
Arbeite als Team	Reagieren Eskalation ist alles.	Es macht uns nichts aus, wegen eines Vorfalls nachts geweckt zu werden, auch wenn wir nicht gebraucht werden. Aber es macht uns etwas aus, wenn wir nicht aufgeweckt wurden, wenn wir wach hätten sein sollen. Niemand kann alles wissen – zögere daher nicht, einen Vorfall zu eskalieren.
Versuche nicht, den Kunden hinters Licht zu führen	Beheben Manchmal läuft einfach etwas schief. Bringe es schnell wieder in Ordnung.	Unseren Kunden ist es egal, weshalb ein Service ausgefallen ist. Sie erwarten nur, dass wir ihn so schnell wie möglich wiederherstellen. Bemühe dich daher immer, einen Vorfall schnell zu erledigen, um die Beeinträchtigung für unsere Kunden zu minimieren.
Offenes Unternehmen – kein Bullsh**	Lernen Keine Schuldzuweisungen!	Vorfälle sind beim Betreiben von Services nicht zu vermeiden. Wir verbessern unsere Services, indem wir unsere Teams zur Verantwortung ziehen, dabei aber niemandem die Schuld geben.
Sei du selbst die Veränderung, die du dir wünschst	Optimieren Lasse nicht zu, dass derselbe Vorfall zweimal passiert.	Ermittle die grundlegende Ursache des Vorfalls, um Vorfälle dieser Art künftig zu verhindern. Verpflichte dich auf Fristen zur Umsetzung bestimmter Änderungen.

Tools für ein durchgehend verfügbares Unternehmen

Neben soliden Praktiken und einer starken Kultur benötigen Unternehmen, die durchgehend verfügbare Services anbieten, die richtigen Tools. Teams mit ausgereiften DevOps-Praktiken verwenden Tools, um agile Projektplanung und Sprints, CI/CD, Automatisierung und erweiterte Überwachungs- und Warnfunktionen zu ermöglichen.

Ein modernes Vorfallmanagementtool wie Opsgenie stellt sicher, dass du wichtige Benachrichtigungen mit den niedrigsten Latenzen in deinen bevorzugten Benachrichtigungskanälen erhältst. Dazu gehört auch die Möglichkeit, Warnungen zu gruppieren, um sie zu filtern, falls eine Vielzahl an Warnungen aufgrund eines einzelnen Fehlers generiert wird. Ein Tool für das Warnmeldungsmanagement muss nahtlos in die Tools deines Teams (z. B. Protokollmanagement, Crash-Reporting) integrierbar sein, damit es sich ganz natürlich in den Entwicklungs- und Betriebsrhythmus deines Teams einfügt.

Jedes Team hat seine eigenen Workflows, Richtlinien und Stakeholder. Das Warnmeldungsmanagementtool muss in der Lage sein, Bereitschaftspläne und Weiterleitungsegeln anzupassen, um Warnungen auf Basis ihrer Quelle und Nutzlast zu verarbeiten. Oft rechtfertigen die Warnungen eine Eskalation zu einem Vorfall. Das Tool sollte einen Vorfall ohne Ablenkungen verwalten, indem es automatisch einen Vorfallmanager erstellt. Auf diese Weise kannst du den Vorfall wie aus einer Kommandozentrale, in der alle Informationen griffbereit sind und die über Integrationen mit Tools für Kommunikation und Zusammenarbeit verfügt, verwalten. Zu guter Letzt muss das Tool auch erweiterte Berichte und Analysen bereitstellen, um Einblicke in Erfolge zu erhalten und Verbesserungsmöglichkeiten zu identifizieren. Es sollte die Quellen von Warnungen, die Leistung des Teams bei der Reaktion auf Vorfälle und die Verteilung der Bereitschafts-Workloads aufzeigen.

Fazit

Der Wunsch des modernen Verbrauchers nach ständig verfügbaren Services ist inzwischen nicht mehr nur eine attraktive Option, sondern geradezu eine Notwendigkeit. Viele Unternehmen führen eine YBIYRI-Kultur ein, um die Flexibilität zu erzielen, die erforderlich ist, um diese Anforderungen zu erfüllen. Die Herausforderung besteht darin, dass viele Unternehmen nicht mit den entsprechenden Tools und notwendigen Teamstrukturen/-praktiken ausgestattet sind, um diese Velocity aufrechtzuerhalten.

Wenn du dein Team auf eine YBIYRI-DevOps-Kultur umstellen möchtest, solltest du u. a. diese Maßnahmen ergreifen:

Bereite dein Team darauf vor, für alle Phasen der Entwicklung und des Betriebs der Anwendung oder des Service verantwortlich zu sein.
Stelle die Koordinierung der Produktinhaber sicher, damit SLOs bei der Sprint-Planung priorisiert werden.
Führe Vorfallswerte ein, an denen sich das Verhalten deines Team bei der Reaktion auf Vorfälle ausrichtet.
Unterstütze dein Team mit einem modernen Warnmeldungs- und Vorfallmanagementtool wie Opsgenie, das zuverlässig, schnell und flexibel ist.

Lade unser kostenloses Handbuch zum Vorfallmanagement herunter und nutze Opsgenie kostenlos.

Für dich empfohlen

Vorgestellte Apps

Atlassian-Sammlungen

Nach Anwendungsfall

Nach Team

Nach Größe

Nach Branche

Support

Ressourcen

Jira

Confluence

Jira Service Management

Nach Anwendungsfall

Nach Team

Nach Größe

Nach Branche

Jira

Confluence

Jira Service Management

Nach Anwendungsfall

Nach Team

Nach Größe

Nach Branche

Wie YBIYRI Always-on-Dienste ermöglicht

Herausforderungen von ständig verfügbaren Services

Best Practices für ständig verfügbare Services

Betriebsbereitschaft

Einführung von Vorfallswerten

Tools für ein durchgehend verfügbares Unternehmen

Fazit

Für dich empfohlen

DevOps-Community

DevOps-Lernpfad

Kostenlos loslegen