Close

Damit ständig verfügbare Services auch wirklich immer verfügbar sind

Wie Unternehmen eine DevOps-Kultur aufbauen können, die ständig verfügbare Services unterstützt

Porträtfoto von Krishna Sai
Krishna Sai

Head of Engineering, IT Solutions


Ständig verfügbare Services erfordern kontinuierliche Reaktionen von Agile- und DevOps-Teams. Diese Teams müssen über die Reaktion auf einen einzelnen Vorfall hinausdenken und die Teamstruktur, Werte und Tools aufeinander abstimmen, um sicherzustellen, dass der optimale Betrieb zu einer Kernkompetenz wird.

Herausforderungen von ständig verfügbaren Services


YBIYRI wurde vor 14 Jahren zum ersten Mal ins Gespräch gebracht und es ist trotzdem für moderne Entwicklerteams immer noch eine Herausforderung, die Lösungszeiten zu beschleunigen und betriebliche Best Practices zu skalieren, wie darin versprochen. Leider formieren viele Teams ihre Fähigkeiten, Zeitpläne und Prozesse immer noch als Reaktion auf einen Vorfall und nicht als Grundlage für langfristigen Erfolg.

Teams stellen oft ohne angemessene Vorbereitung auf eine YBIYRI-Kultur um. Nicht selten wird der erste größere Vorfall zum Weckruf. Meist werden nun Stimmen laut, dass Vorfälle nicht wieder vorkommen dürfen. Um dies zu erreichen, werden Safety Gates, Checkpoints und andere aufwändige Prozeduren eingeführt. Außerdem werden Change Review Boards und wöchentliche Release-Reviews zu Teamritualen. Jede Änderung wird sorgfältig geprüft, um Ausfälle zu vermeiden. Dies führt zwar oft dazu, dass die Anzahl der Vorfälle reduziert wird, verlangsamt aber unter Umständen die Entwicklungsgeschwindigkeit und die Produktdynamik. Das kann zu einem Wettbewerbsnachteil werden, da flexiblere Wettbewerber viel schnellere Fortschritte machen.

Best Practices für ständig verfügbare Services


Unternehmenslogo
Zugehöriges Material

Kostenlos loslegen

Symbol für Trophäe
Lösung anzeigen

Optimiere Vorfallmanagement und Incident Response

Betriebsbereitschaft

Eine der entscheidenden Veränderungen für YBIYRI-Teams besteht darin, die Betriebsbereitschaft als Teil der Sprint-Planungs- und Ausführungszyklen einzubeziehen. Die Betriebsbereitschaft kann beinhalten:

  • Integration geeigneter, hochwertiger Warnungen in den Code während des Entwicklungsprozesses, um die mittlere Zeit bis zur Erkennung (MTTD) und die mittlere Isolationszeit (MTTI) zu minimieren
  • Überwachung – gegebenenfalls einschließlich synthetischer Überwachung – um sicherzustellen, dass abhängige Services erwartungsgemäß funktionieren
  • Reservierte Zeit für die Erstellung erforderlicher Dashboards und die Schulung aller Teammitglieder in deren Verwendung
  • Keine Zuweisung von anderen Entwicklungsverpflichtungen des Sprints an Teammitglieder im Bereitschaftsdienst
  • Erprobung des Ernstfalls für den Service, um sicherzustellen, dass Rollbacks erwartungsgemäß funktionieren
  • Planung der Bandbreite in Sprints auf Basis der Reviews früherer Vorfälle
  • Behebung von Sicherheitsproblemen (Upgrades/Patches/Rolling Credentials) und betrieblichen Problemen im Rahmen von Sprint-Zyklen

All dies setzt voraus, dass Produktinhaber die Service Level Objectives (SLO) genau kennen und zusammen mit den geschäftlichen Verpflichtungen in Bezug auf Feature-Entwicklung und Funktionalität entsprechend priorisieren.

Einführung von Vorfallswerten

Die Einführung von Vorfallswerten auf Teamebene kann im Team eine solide Grundlage für die Entwicklung der YBIYRI-Kultur schaffen. Vorfallswerte geben deinem Team Orientierung bei der Incident Response. Diese Werte stellen sicher, dass eine solide Grundlage für eine nachhaltige Kultur beim Aufbau und Betrieb eines ständig verfügbaren Service vorhanden ist. Vorfallswerte dienen folgenden Zwecken:

  • Sie liefern Anhaltspunkte für die eigenständige Entscheidungsfindung der Teams bei Vorfällen und bei Post-Mortem-Analyse.
  • Sie unterstützen den Aufbau einer konsistenten Teamkultur, die auch beinhaltet, wie Vorfälle identifiziert, verwaltet werden und wie daraus gelernt werden kann.
  • Sie geben den Teams einheitliche Hinweise auf die Haltung, die sie bei der Identifizierung, Lösung und rückwirkenden Betrachtung von Vorfällen einnehmen sollten.

Ein Vorfallswerte-Playbook ist ein hervorragender Leitfaden zur Identifikation von Teamwerten während der Incident Response und zur Erstellung eines Plans, um diese Werte konsistent in die Tat umzusetzen. Es kann hilfreich sein, wenn dein Team in eurem Gesundheitscheck Schwierigkeiten mit Kundenorientierung, Teamzusammenhalt, gemeinsamem Verständnis, Service-Levels oder Servicemandaten hat.

Bei Atlassian gelten die folgenden Vorfallswerte auf Teamebene:

Atlassian-Wert

Phase und Vorfallswert

Begründung

Grafik: Waage mit Herzen

Entwicklung mit Herz und Verstand

Erkennen
Atlassian weiß Bescheid, bevor Kunden den Vorfall bemerken.

Bei einem ausgewogenen Service sind effektive Überwachungs- und Benachrichtigungsfunktionen implementiert, um Vorfälle zu erkennen, bevor unsere Kunden sie bemerken. Im Optimalfall werden wir im Rahmen der Überwachung schon benachrichtigt, bevor ein Problem zu einem Vorfall führt.

Grafik: Atlassian-Trikot

Arbeite als Team

Reagieren
Eskalation ist alles.

Es macht uns nichts aus, wegen eines Vorfalls nachts geweckt zu werden, auch wenn wir nicht gebraucht werden. Aber es macht uns etwas aus, wenn wir nicht aufgeweckt wurden, wenn wir wach hätten sein sollen. Niemand kann alles wissen – zögere daher nicht, einen Vorfall zu eskalieren.

Grafik: Atlassian-Wert

Versuche nicht, den Kunden hinters Licht zu führen

Wiederherstellen
Manchmal läuft einfach etwas schief. Bringe es schnell wieder in Ordnung.

Unseren Kunden ist es egal, weshalb ein Service ausgefallen ist. Sie erwarten nur, dass wir ihn so schnell wie möglich wiederherstellen. Bemühe dich daher immer, einen Vorfall schnell zu erledigen, um die Beeinträchtigung für unsere Kunden zu minimieren.

Logo: No Bull

Offenes Unternehmen – kein Bullsh**

Lernen
Ohne Schuldzuweisungen!

Vorfälle sind beim Betreiben von Services nicht zu vermeiden. Wir verbessern unsere Services, indem wir unsere Teams zur Verantwortung ziehen, dabei aber niemandem die Schuld geben.

Grafik: Wegzeiger zur Verbesserung

Sei du selbst die Veränderung, die du dir wünschst

Verbessern
Lasse nicht zu, dass derselbe Vorfall zweimal passiert.

Ermittle die grundlegende Ursache des Vorfalls, um Vorfälle dieser Art künftig zu verhindern. Verpflichte dich auf Fristen zur Umsetzung bestimmter Änderungen.

Tools für ein durchgehend verfügbares Unternehmen


Neben soliden Praktiken und einer starken Kultur benötigen Unternehmen, die durchgehend verfügbare Services anbieten, die richtigen Tools. Teams mit ausgereiften DevOps-Praktiken verwenden Tools, um agile Projektplanung und Sprints, CI/CD, Automatisierung und erweiterte Überwachungs- und Warnfunktionen zu ermöglichen.

Ein modernes Vorfallmanagementtool wie Opsgenie stellt sicher, dass du wichtige Benachrichtigungen mit den niedrigsten Latenzen in deinen bevorzugten Benachrichtigungskanälen erhältst. Dazu gehört auch die Möglichkeit, Warnungen zu gruppieren, um sie zu filtern, falls eine Vielzahl an Warnungen aufgrund eines einzelnen Fehlers generiert wird. Ein Tool für das Warnmeldungsmanagement muss nahtlos in die Tools deines Teams (z. B. Protokollmanagement, Crash-Reporting) integrierbar sein, damit es sich ganz natürlich in den Entwicklungs- und Betriebsrhythmus deines Teams einfügt.

Jedes Team hat seine eigenen Workflows, Richtlinien und Stakeholder. Das Warnmeldungsmanagementtool muss in der Lage sein, Bereitschaftspläne und Weiterleitungsegeln anzupassen, um Warnungen auf Basis ihrer Quelle und Nutzlast zu verarbeiten. Oft rechtfertigen die Warnungen eine Eskalation zu einem Vorfall. Das Tool sollte einen Vorfall ohne Ablenkungen verwalten, indem es automatisch einen Vorfallmanager erstellt. Auf diese Weise kannst du den Vorfall wie aus einer Kommandozentrale, in der alle Informationen griffbereit sind und die über Integrationen mit Tools für Kommunikation und Zusammenarbeit verfügt, verwalten. Zu guter Letzt muss das Tool auch erweiterte Berichte und Analysen bereitstellen, um Einblicke in Erfolge zu erhalten und Verbesserungsmöglichkeiten zu identifizieren. Es sollte die Quellen von Warnungen, die Leistung des Teams bei der Reaktion auf Vorfälle und die Verteilung der Bereitschafts-Workloads aufzeigen.

Fazit


Der Wunsch des modernen Verbrauchers nach ständig verfügbaren Services ist inzwischen nicht mehr nur eine attraktive Option, sondern geradezu eine Notwendigkeit. Viele Unternehmen führen eine YBIYRI-Kultur ein, um die Flexibilität zu erzielen, die erforderlich ist, um diese Anforderungen zu erfüllen. Die Herausforderung besteht darin, dass viele Unternehmen nicht mit den entsprechenden Tools und notwendigen Teamstrukturen/-praktiken ausgestattet sind, um diese Velocity aufrechtzuerhalten.

Wenn du dein Team auf eine YBIYRI-DevOps-Kultur umstellen möchtest, solltest du u. a. diese Maßnahmen ergreifen:

  • Bereite dein Team darauf vor, für alle Phasen der Entwicklung und des Betriebs der Anwendung oder des Service verantwortlich zu sein.
  • Stelle die Koordinierung der Produktinhaber sicher, damit SLOs bei der Sprint-Planung priorisiert werden.
  • Führe Vorfallswerte ein, an denen sich das Verhalten deines Team bei der Reaktion auf Vorfälle ausrichtet.
  • Unterstütze dein Team mit einem modernen Warnmeldungs- und Vorfallmanagementtool wie Opsgenie, das zuverlässig, schnell und flexibel ist.

Lade unser kostenloses Handbuch zum Vorfallmanagement herunter und nutze Opsgenie kostenlos.

Krishna Sai
Krishna Sai

Krishna Sai ist Head of Engineering, IT Solutions bei Atlassian. Seit mehr als 20 Jahren arbeitet er in Führungspositionen in den Bereichen Engineering/Technologie bei verschiedenen Start-ups und Unternehmen wie Atlassian, Groupon und Polycom. Er lebt in Bengaluru, Indien, und seine Leidenschaft ist die Entwicklung von Produkten, die die Teamarbeit revolutionieren.


Diesen Artikel teilen
Nächstes Thema

Lesenswert

Füge diese Ressourcen deinen Lesezeichen hinzu, um mehr über DevOps-Teams und fortlaufende Updates zu DevOps bei Atlassian zu erfahren.

Abbildung: DevOps

DevOps-Community

Abbildung: DevOps

Simulations-Workshop

Abbildung: Karte

Kostenlos loslegen

Melde dich für unseren DevOps-Newsletter an

Thank you for signing up