Close

Incidentmanagement voor razendsnelle teams

Een handleiding voor managers om op afroep te verbeteren

Net zoals spoedeisende hulp op afroep-roosters nodig hebben voor artsen om noodsituaties in de gezondheidszorg af te handelen, hebben DevOps-teams deze nodig om efficiënt te reageren op software- en systeemproblemen die van invloed zijn op prestaties, implementatie en beschikbaarheid.

Maar het ontwikkelen van een op afroep-werkwijze is gemakkelijker gezegd dan gedaan. Op afroep zijn kan een ontmoedigende en ontwrichtende ervaring zijn voor werknemers. Het vinden van de juiste balans tussen dekking, schaalbaarheid en kwaliteit van leven voor het team is een voortdurende uitdaging.

Naarmate best practices veranderen en bedrijven groeien, implementeren de meest flexibele, snelle teams nieuwe benaderingen en zijn deze ook succesvol.

Je bouwt het, je onderhoudt het

Nog maar tien jaar geleden was het reageren op IT-incidenten de primaire taak van operationele teams. Organisaties hadden doorgaans een gelaagde teamstructuur (d.w.z. Niveau 1, Niveau 2, Niveau 3, met hogere vaardigheidsniveaus - en loonniveaus - op de hogere niveaus).

Het doel bij het implementeren van deze structuur was om de operationele kosten te verlagen. Gewoonlijk zou Niveau 1 betrekking hebben op onervaren werknemers. Als Niveau 1 een probleem niet kon oplossen, escaleerden deze het naar Niveau 2, bestaande uit meer senior (en dus duurdere) mensen. En dit proces ging door totdat het probleem was opgelost.

Maar met de opkomst van 'always-on'-services namen ook de onderlinge afhankelijkheden tussen systemen en de verwachtingen van klanten voor uptime toe. Tegenwoordig kan een trage reactie het bedrijf meer kosten (aan reputatie, klanttevredenheid en verloren inkomsten) dan ontwikkelaars op senior-niveau eerder bij incidenten betrekken.

Het resultaat van dit veranderende technologielandschap is dat de structuur van responsteams moest veranderen. Maak kennis met de DevOps-beweging en het concept van 'je bouwt het, je onderhoudt het'.

Het idee hier is eenvoudig: de ontwikkelaar die het meest bekend is met de code is de beste persoon om gerelateerde problemen het snelst op te lossen. Dankzij DevOps is het nu gebruikelijk dat ontwikkelaars op afroep zijn, zodat de code goed werkt en de MTTA en MTTR van incidenten worden verlaagd.

Het extra voordeel van deze aanpak is strengere tests vóór de implementatie. Nu de ontwikkelaar die verantwoordelijk is voor de code buiten kantooruren kan worden gewaarschuwd, is er een groter gevoel van eigendom, een extra drijfveer om de code dubbel en drievoudig te controleren. Het resultaat dat steeds meer bedrijven vinden, is betrouwbaardere en veerkrachtigere systemen.

Een op afroep-werkwijze bouwen die teams niet zullen haten

Op afroep krijgt een slechte reputatie en dit is soms met goede reden. Onevenwichtige op afroep-programma's kunnen een negatief effect hebben op de balans tussen werk en privé, gezondheid en slaap. Werknemers met slechte op afroep-ervaringen of geen op afroep-ervaring kunnen zich voorstellen dat hun sociale leven en de balans tussen werk en privé voor hun ogen verdwijnt.

Maar de waarheid is dat op afroep geen sombere mars hoeft te zijn naar een lagere kwaliteit van leven. Door op afroep-taken in evenwicht te brengen, rekening te houden met teamvoorkeuren en robuuste systemen op te zetten om incidenten en op afroep-waarschuwingen waar mogelijk te voorkomen en te verminderen, kun je een werkwijze creëren die de last minimaliseert en over je teams verdeelt.

Om hierin te slagen, moet het management vooraf transparant zijn naar teams, voldoende training geven, eerlijke verwachtingen stellen voor op afroep- en ontwikkeltaken, robuuste processen ontwikkelen en voortdurend controleren en verbeteren met de inbreng en inzet van de teams zelf.

Transparant zijn naar je teams

Transparantie is de sleutel tot succesvolle communicatie. Het verduidelijken van de verwachtingen rond beschikbaarheid is een vereiste bij het uitrollen van een op afroep-systeem of een wijziging van een bestaand op afroep-systeem. Zorg ervoor dat je goed nadenkt en duidelijk antwoord geeft op veelgestelde vragen van werknemers, zoals:

  • Zullen engineers 's nachts op afroep zijn?
  • Als je 's nachts op afroep bent, is er dan flexibiliteit om de volgende dag vanuit huis te werken? Kan een op afroep-werknemer de volgende dag later beginnen als deze slaap moet inhalen?
  • Zijn ontwikkelaars verantwoordelijk voor het uitvoeren van ontwikkelingswerk tijdens de op afroep-dienst?
  • Hoeveel keer per maand is een ontwikkelaar op afroep? Wat is het maximale aantal keren dat één persoon op afroep is?
  • Hoe compenseer je op afroep-werknemers?

Verzorgen van goede training

Best practices voor het trainen van op afroep-teams zijn onder meer:

  • Ontwikkeling van een trainingsprogramma dat zowel proces- als veelvoorkomende problemen aanpakt
  • Het leveren van up-to-date runbooks
  • Nieuwe werknemers laten meelopen met engineers die op afroep zijn
  • Werknemers toegang geven tot eerdere incidentrapporten zodat ze kunnen zien hoe incidenten in het verleden, vergelijkbaar met het incident waarmee ze te maken hebben, met succes zijn afgesloten

Het is ook een goed idee om meerdere escalatiekanalen te hebben. De typische best practice is om junior engineers in de primaire op afroep-roulatie te hebben en senior engineers te plannen als back-up of in de secundaire roulatie. Hierdoor kunnen junior engineers de vereiste op afroep-vaardigheden ontwikkelen en tegelijkertijd paniek voorkomen wanneer er een kwestie is dat hun expertise te boven gaat.

Houd op afroep- en ontwikkelingstaken gescheiden

Ontwikkelingstaken hebben tijdens op afroep betekent meestal veel contextwisseling en onderbrekingen, vooral voor bedrijven met frequente incidenten en op afroep-vereisten.

Dit alles betekent meestal minder ontwikkelingsefficiëntie en meer stress voor de op afroep-engineers en kan leiden tot burn-out, waarschuwingsmoeheid en ontevredenheid over het werk. Het kan ook een negatief effect hebben op ontwikkelingssprints, omdat het lastig in te schatten is hoeveel een persoon op afroep kan en zal bijdragen aan een bepaalde sprint.

Daarom raden we als best practice aan om op afroep-taken en ontwikkelingstaken gescheiden te houden. Wanneer op afroep-werknemers vrije tijd hebben, kunnen ze werken aan het verbeteren van op afroep-gerelateerde documentatie en automatisering om uiteindelijk de duurzaamheid van systemen en diensten te verbeteren.

Verfijn je op afroep-proces

Een gezond op afroepsysteem kan alleen bestaan als het voortdurend wordt verbeterd door processen en systemen te verfijnen. Pas opafroepschema's, routeringsregels en escalatiebeleid aan met een oplossing voor incidentmanagement zoals Jira Service Management om waarschuwingen efficiënt af te handelen. Om dit doel te bereiken, raden we aan:

  • Het evalueren van de prioriteit en urgentie van waarschuwingen en het instellen van systemen op basis daarvan. Waarschuwingen met lage urgentie kunnen tot de ochtend wachten, waardoor werknemers die op afroep zijn wat broodnodige slaap kunnen krijgen.
  • Het verminderen van valse positieven door waarschuwingen te classificeren op basis van factoren zoals hoofdoorzaak, oorspronkelijk systeem, bericht, drempels, enz. Dit helpt om actiegerichte waarschuwingen te onderscheiden van de rest.
  • Dedupliceren van gerelateerde waarschuwingen om waarschuwingsmoeheid te voorkomen.
  • Het ontwerpen van uitgebreide waarschuwingen die een probleem duidelijk beschrijven en de op afroep-engineers in staat stellen effectieve beslissingen te nemen en de kennis die is vastgelegd in runbooks toe te passen.
  • Het verstrekken van waarschuwingsrapporten en -statistieken aan op afroep-teams, zodat zwakke gebieden in systemen kunnen worden geïdentificeerd en verbeterd. (Met andere woorden: laat op afroep-teams niet keer op keer vastlopen op dezelfde problemen.)

Bekijk op afroep-rapporten en pas deze indien nodig aan

Om de zaken eerlijk te houden en burn-out bij werknemers te voorkomen, moeten managers de rapporten met betrekking tot op afroep bekijken om te zien:

  • Hoe vaak elk teamlid wordt opgeroepen of wakker gemaakt
  • Hoe lang elk teamlid op afroep is
  • De verdeling per uur en dag van op afroep-diensten voor elke persoon
  • Pas de roosters zo nodig aan om het werk eerlijk te verdelen.

Luister naar je werknemers

Het management moet regelmatig vergaderingen met de op afroep-engineers organiseren om problemen, klachten en zwakke punten te bespreken - en vervolgens actie te ondernemen om de problemen op te lossen.

Op afroep-systemen, tools, processen, mensen, documentatie en training zijn geen statische dingen die je instelt en vergeet. Naarmate het bedrijf groeit, teams leren en veranderen, en incidenten in de loop van de tijd veranderen, moet het management hun op afroep-programma's continu opnieuw evalueren en verbeteren.

De mensen die het best uitgerust zijn om je te vertellen wat wel en niet werkt, zijn de op afroep-engineers. Luister naar ze. Voer wijzigingen door. En belangrijker nog: zorg ervoor dat het management niet de enige beslisser is als het gaat om organisatie en protocol voor op afroep. Hoe meer je teams in staat stelt om hun eigen processen en praktijken te verbeteren, hoe meer ze op afroep omarmen.

Ontwikkeling van een vriendelijke op afroep-cultuur

Op afroep-engineers dragen een enorme verantwoordelijkheid voor het succes van bedrijven. Het is dus geen verrassing dat stress en spanning veelvoorkomende problemen zijn, vooral bij grote problemen met onbekende oorzaken.

De op afroep-cultuur van senior op afroep-engineers en managementteams bepaalt hoe mensen omgaan met die stress en spanning en wat ze ervan vinden om op afroep te zijn.

In het belang van zowel de op afroep-engineers als de op afroep-cultuur van het bedrijf moeten managementteams aandacht besteden aan het ontwikkelen van een vriendelijke op afroep-cultuur en duidelijk maken dat het doel altijd moet zijn om de problemen, risico's en zwakke punten in systemen te vinden en deze op te lossen.

Bij Atlassian betekent dit niet alleen het voortdurend verbeteren van onze op afroep-systemen, maar ook het uitvoeren van onberispelijke postmortems waarbij de focus ligt op verbetering en niet op het vinden van de schuldige.

Ontdek Jira Service Management, een oplossing die een positieve op afroepcultuur ondersteunt en waarmee een systeem kan worden opgezet met verbeterde communicatiemogelijkheden, gecentraliseerde waarschuwingen, flexibele automatisering en geavanceerde rapportage om incidentrespons naar een hoger niveau te tillen.