Close

Always-on services altijd beschikbaar houden

Hoe organisaties een DevOps-cultuur kunnen bouwen die always-on services ondersteunt

Headshot of Krishna Sai
Krishna Sai

Hoofd Engineering, IT-oplossingen


De aard van always-on services vereist continue respons van agile- en DevOps-teams. Deze teams moeten verder denken dan reageren op één incident en de teamstructuur, waarden en tools op elkaar afstemmen om ervoor te zorgen dat operationele uitmuntendheid een kerncompetentie wordt.

Uitdagingen van always-on services


Sinds het 14 jaar geleden voor het eerst werd besproken, daagt YBIYRI moderne development teams nog steeds uit hun belofte waar te maken om de time-to-resolution te versnellen en operationele best practices op te schalen. Helaas richten veel teams hun vaardigheden, schema's en processen nog steeds in als reactie op een incident, in plaats van als een basis voor succes op de lange termijn.

Teams stappen vaak onvoldoende voorbereid over op een YBIYRI-cultuur en het eerste grote incident is dan vaak een wake-up call. De reactie wordt echter vaak veroorzaakt door het gevoel, “we kunnen incidenten niet nog een keer laten gebeuren”. In een poging dit te bereiken, worden beveiligingspoorten, controlepunten en andere procedurele overhead geïntroduceerd. Ook worden change review boards en wekelijkse release-reviews onderdeel van de vaste teamrituelen. Elke verandering wordt zorgvuldig onder de loep genomen in een poging om uitval te voorkomen. Hoewel dit vaak resulteert in minder incidenten, kan het de ontwikkelingssnelheid en het momentum van het product vertragen. Dit kan een competitieve zwakte worden, omdat flexibelere concurrenten veel sneller kunnen schakelen.

Team best practices for always-on services


logo van organisatie
gerelateerd materiaal

Gratis aan de slag

Pictogram wedstrijdbeker
oplossing bekijken

Stroomlijn incidentmanagement en -respons

Operationele gereedheid

Eén van de meest cruciale veranderingen voor YBIYRI-teams is operationele gereedheid toevoegen als onderdeel van de sprintplanning- en uitvoeringscycli. Operationele gereedheid kan bestaan uit:

  • Tijdens de ontwikkeling geschikte, hoogwaardige waarschuwingen in de code inbouwen die de mean time to detect (MTTD) en de mean time to isolate (MTTI) minimaliseren
  • Monitoring inbouwen -- inclusief, indien van toepassing, synthetische monitoring -- om ervoor te zorgen dat afhankelijke services zoals verwacht werken
  • Tijd reserveren om vereiste dashboards te bouwen en alle teamleden te trainen om ze te gebruiken
  • Ervoor zorgen dat teamleden op afroep tijdens een sprint geen andere ontwikkelingsverplichtingen hebben
  • 'War games' plannen voor de service om ervoor te zorgen dat rollbacks zoals verwacht werken
  • Bandbreedte plannen in sprints om acties van eerdere incidentbeoordelingen te sluiten
  • Beveiliging (upgrades/patches/lopende aanmeldgegevens) en operationele problemen behandelen als onderdeel van sprintcycli

Dit vereist allemaal dat producteigenaren de service level objectives (SLO) begrijpen en deze op de juiste manier prioriteren, samen met zakelijke verplichtingen met betrekking tot de ontwikkeling en functionaliteit van functies.

Omarm incidentwaarden

Het omarmen van incidentwaarden op teamniveau kan een sterke basis vormen voor het YBIYRI-traject van een team. De waarden van incidenten begeleiden je team bij incidentrespons. Deze waarden zorgen ervoor dat er een sterke basis is voor een duurzame cultuur rond het bouwen en beheren van een always-on service. Incidentwaarden zijn bedoeld om:

  • Autonome besluitvorming door mensen en teams te bereiken tijdens incidenten en postmortems
  • Een consistente teamcultuur op te bouwen waarin je incidenten kunt identificeren, beheren en ervan kunt leren
  • Teams af te stemmen in welke houding ze aan moeten nemen voor ieder gedeelte van het identificeren, oplossen en terugkijken op incidenten

Een draaiboek voor incidentwaarden is een uitstekend hulpmiddel om teamwaarden te identificeren tijdens incidentrespons en een plan op te stellen om die waarden consequent na te leven. Het kan helpen als je team moeite heeft met klantgerichtheid, teamcohesie, gezamenlijk begrip, serviceniveaus of service-opdrachten op je Health Monitor.

Bij Atlassian omarmen we de volgende incidentwaarden op teamniveau:

Atlassian-waarde

Waarde voor fase en incident

Onderbouwing

Afbeelding van weegschaal met hartjes

Bouw met je hart en in balans

Detecteren
Atlassian is eerder op de hoogte dan klanten

Een uitgebalanceerde service bevat effectieve monitoring en waarschuwingen om incidenten te detecteren voordat onze klanten dit doen. De beste monitoring waarschuwt ons voor problemen voordat dit incidenten worden.

Afbeelding van Atlassian-trui

Speel als een team

Reageren
Escaleren, escaleren, escaleren

We vinden het niet erg op een incident gewezen te worden, ook al zijn we niet nodig. Maar we vinden het wel erg als we er niet op worden gewezen als dat wel had gemoeten. We hebben misschien niet altijd een antwoord, dus 'aarzel niet om te escaleren'.

Afbeelding van Atlassian-waarde

Houd de klant niet voor de gek

Herstellen
Als er problemen optreden, los je ze snel op

Het maakt onze klanten niet uit waarom een service niet kan worden geleverd, ze willen gewoon dat we de service zo snel mogelijk herstellen. Herstel een incident altijd snel, zodat we de impact voor onze klanten kunnen beperken.

Logo No Bull

Open bedrijf, geen flauwekul

Leren
Altijd zonder een schuldige aan te wijzen

Incidenten zijn onderdeel van always-on services. We verbeteren services door teams ter verantwoording te roepen, niet door schuldigen aan te wijzen.

Afbeelding van verbetering signaleren

Wees de verandering waar je naar op zoek bent

Verbeteren
Een incident mag nooit opnieuw voorkomen

Achterhaal de oorzaak, zodat we kunnen voorkomen dat het incident zich opnieuw voordoet. Doe je best om specifieke wijzigingen op specifieke datums te leveren.

Tools for an always-on enterprise


In addition to strong practices and culture, companies running always-on services need the right tools. Teams with mature DevOps practices use tools to facilitate agile project planning and sprintsCI/CDautomation, and advanced monitoring and alerting capabilities. 

A modern incident management tool like Opsgenie ensures you receive important alerts delivered to your preferred notification channel(s) with the lowest latencies. It also includes the ability to group alerts to filter numerous alerts, especially when several alerts are generated from a single error or failure. An alert management tool must seamlessly integrate with your team’s tools (e.g., log management, crash reporting) so that it naturally fits into your team’s development and operational rhythm.

Each team is different in terms of workflows, policies, and stakeholders. The alert management tool must be able to customize on-call schedules and routing rules to handle alerts based on their source and payload. Often the alerts may warrant an escalation to an incident. The tool should manage an incident without distractions by automatically creating an incident manager. This allows you to manage the incident like a war room with all the information handy, with integrations to communication and collaboration tools. Finally, the tool must provide advanced reporting and analytics to gain insight into areas of success and identify opportunities for improvement. It should reveal the sources of alerts, the team’s performance in responding, and how on-call workloads are distributed.

In conclusion...


The modern consumer's desire for always-on services has become less of a want and more of a need. Many companies adopt a YBIYRI culture to develop the agility required to satisfy these demands. The challenge is that many companies aren’t equipped with the appropriate tools and necessary team structures/practices to sustain this velocity.

If you are planning to shift to a YBIYRI DevOps culture for your team, here are some steps to take: 

  • Prepare your team to own all phases of development and operation of the application or service
  • Ensure alignment with product owners so that SLOs are prioritized in sprint planning
  • Embrace a set of incident values that guide the behavior of your team in response to an incident
  • Empower your team with a modern alert and incident management tool like Opsgenie, which is reliable, fast, and flexible

Download our free incident management handbook and get started with Opsgenie for free

Krishna Sai
Krishna Sai

Krishna Sai is Head of Engineering, IT Solutions bij Atlassian. Hij heeft meer dan twintig jaar leiderschapservaring in engineering/technologie bij verschillende startups en bedrijven, waaronder Atlassian, Groupon en Polycom. Hij woont in Bengaluru in India en werkt het liefst aan producten waardoor teams nog beter kunnen samenwerken.


Deel dit artikel
Volgend onderwerp

Aanbevolen artikelen

Bookmark deze resources voor meer informatie over soorten DevOps-teams of voor voortdurende updates over DevOps bij Atlassian.

Toelichting DevOps

DevOps-community

Toelichting DevOps

Simulatieworkshop

Afbeelding van kaart

Gratis aan de slag

Meld je aan voor onze DevOps-nieuwsbrief

Thank you for signing up