Close

Incidentmanagement voor razendsnelle teams

Incidentmanagement in de tijd van DevOps

Principes voor open, communicatie zonder schuldvraag gebruiken bij incidentmanagementteams

Je kunt niet opnieuw nadenken over hoe je software bouwt, implementeert en gebruikt zonder na te denken over hoe je op incidenten reageert.

In hun baanbrekende lezing '10+ Deploys Per Day: Dev and Ops Cooperation op Flickr', uit 2009, schetsten John Allspaw en Paul Hammond een visie op een wereld waarin ontwikkelaars en IT Ops-teams samenwerken en vaak nieuwe releases uitrollen. In het volgende decennium kreeg die visie vorm als de DevOps-beweging.

De aard van DevOps berust op nieuwe manieren om op incidenten te reageren. Het is niet verwonderlijk dat incidentmanagement zoveel aandacht kreeg in de toespraak van Allspaw en Hammond.

"Het belangrijkste om te beseffen is dat er fouten zullen plaatsvinden", zei Hammond. "Het is niet de vraag of, maar wanneer dat gebeurt."

In tegenstelling tot frameworks zoals ITIL is er geen 'officieel' document met beproefde methoden voor een DevOps-team. Maar we zijn het er over het algemeen over eens dat DevOps in de kern draait om het leveren van bedrijfswaarde aan een organisatie door organisatorische silo's af te breken, de transparantie te vergroten en open communicatie tussen ontwikkelaars en IT-operatieteams te bevorderen.

Diezelfde cultuur van transparantie, zichtbaarheid en snel leren strekt zich uit tot incidentmanagement.

Waarom? Omdat de eerste en meest cruciale stappen bij incidentmanagement draaien om het verkrijgen van inzicht in wat er mis is gegaan, het inschakelen van de juiste mensen en het bevorderen van een cultuur waarin de schuldvraag niet centraal staat.

DevOps-incidentmanagement vraagt om een cultuur van open communicatie zonder vingerwijzen tussen ontwikkelaars en IT-teams. En om lichtgewicht processen die de betrouwbaarheid van IT-services verbeteren, de klanttevredenheid verhogen en de bedrijfswaarde verhogen. Een DevOps-engineer kan helpen om de DevOps-cultuur en -methoden te implementeren.

ITIL is bijvoorbeeld een vaststaande set van 26 processen, procedures, taken en checklists die zijn ontworpen om specifieke methoden in IT-servicemanagement te verbeteren. ITIL richt zich op servicekwaliteit en consistentie, en op het verbeteren van de veerkracht van systemen.

Een van de voordelen van ITIL is dat organisaties die ITSM willen verbeteren, kunnen beginnen met beproefde methoden. Ze hoeven dus niet helemaal opnieuw te beginnen. En hoewel sommigen geloven dat ITIL het meest geschikt is voor grote ondernemingen, is het framework flexibel genoeg zodat kleinere bedrijven de processen kunnen kiezen die zinvol zijn voor hun bedrijf en daar hun winst mee kunnen doen.

Een nadeel van ITIL, als je snel wijzigingen in je incidentresponsproces aan wilt brengen, is dat het formeel verandermanagement en een deskundige consultant kan omvatten, waardoor verbeteringen kunnen worden vertraagd.

Teams die meteen aan de slag willen, hebben baat bij de DevOps-incidentmanagement aanpak: die helpt hen op weg om onmiddellijk voordelen te realiseren.

Het DevOps-proces voor incidentmanagement

De DevOps-aanpak voor het beheren van incidenten verschilt niet heel erg van de traditionele stappen van effectief incidentmanagement. DevOps-incidentbeheer omvat een expliciete nadruk op het betrekken van ontwikkelteams vanaf het begin, waaronder bij opafroepdiensten, en het toewijzen van werk op basis van expertise, niet op functietitels.

1. Detectie
In plaats van te hopen dat incidenten nooit plaatsvinden (omdat ze dat ongetwijfeld zullen doen), hechten DevOps-incidentresponsteams veel waarde aan paraatheid. Ze werken samen om hun reacties op mogelijke incidenten voor te bereiden door zwakke punten in systemen te identificeren. Ze zetten monitoringtools, waarschuwingssystemen en draaiboeken op die iedereen informeren over met wie ze contact moeten opnemen wanneer een incident wordt gedetecteerd en over wat ze daarna moeten doen.

2. Reactie
In plaats van één enkele engineer op afroep te hebben die verantwoordelijk is voor het reageren op alle incidenten, wijzen DevOps-incidentmanagementteams meerdere teamleden aan die beschikbaar zijn voor escalaties. Als de aangewezen engineer een incident niet zelfstandig kan oplossen, staat er een runbook klaar dat als handleiding fungeert. De engineer kan de juiste mensen inschakelen om de impact en het ernstniveau van het probleem te beoordelen en het escaleren naar de juiste responders.

3. Oplossing
Wanneer het tijd is om op een incident te reageren, kunnen DevOps-incidentmanagementteams vaak snel tot een oplossing komen. Dit komt omdat ze samen meer vertrouwd zijn met de toepassing of systeemcode. Ze hebben die immers zelf geschreven! En dankzij uitgebreide voorbereiding en goede communicatiesystemen kunnen ze samen het incident oplossen, waardoor ze sneller tot een oplossing komen dan een reactieteam van derden dat voor het eerst naar de code kijkt.

4. Analyse
DevOps-incidentmanagementteams sluiten een incident af met een postmortemproces waarin het niet draait om schuld. Ze komen samen om informatie, statistieken en geleerde lessen te delen, met als doel de veerkracht van hun systemen voortdurend te verbeteren en toekomstige incidenten snel en efficiënt op te lossen.

5. Gereedheid
Zodra een incident is afgesloten, alle herstelstappen zijn voltooid en het systeem is hersteld, doen DevOps-incidentmanagementteams een stap terug om te beoordelen of ze klaar zijn voor het volgende incident. Ze nemen wat ze in hun postmortemproces hebben geleerd mee en werken hun runbooks bij. Ook brengen ze de nodige aanpassingen aan in monitoringtools en waarschuwingssystemen. De focus van DevOps op continue verbetering geldt niet alleen voor de technologie, maar ook voor de mensen en het team. Na een incident is elk teamlid beter voorbereid op het volgende incident.

Beproefde methoden voor effectieve DevOps IM-teams

Een DevOps-benadering voor incidentrespons kan tot verbeterde communicatie tussen ontwikkelingsteams en operationele IT-teams, een snellere respons en herstel van incidenten, en een veerkrachtiger systeem leiden.

Automatiseer processen en workflows
Integreer je servicedesk, monitoring, ticketverkoop, CMDB/assetbeheer en chattools om IT-incidentwaarschuwingen en workflows te stroomlijnen, zodat de juiste mensen de informatie krijgen die ze nodig hebben om aan de slag te gaan met een oplossing. Maak runbooks met vooraf gedefinieerde workflows, zodat werknemers meteen aan de slag kunnen zodra een incident toeslaat.

Communiceren tussen teams
Zorg ervoor dat leden van je teams in de hele organisatie kunnen communiceren via realtime chattools. Gebruik tools die een record van het incident maken, zodat iedereen op elk moment kan instappen en op de hoogte kan blijven van wat er is gebeurd en wat er wordt gedaan.

Hanteer een aanpak zonder schuldvraag
Nadat je het incident hebt afgesloten, kom je als team samen in een postmortemsessie om te bekijken wat er is gebeurd, zonder dat je een schuldvraag stelt. Vermijd vingerwijzen en concentreer je op het delen van informatie die iedereen helpt zijn werk beter te doen en die bijdraagt aan een betrouwbaarder systeem.

Identificeer en focus op de bedrijfsresultaten
DevOps-incidentrespons is meer dan een middel voor betere communicatie: het is een manier om ervoor te zorgen dat ontwikkelaars en operationele afdelingen samenwerken om echte waarde te realiseren. Houd statistieken bij, zoals de gemiddelde tijd tot detectie (MTTD), de gemiddelde reparatietijd (MTTR) en de gemiddelde tijd tussen storingen (MTBF) om inzicht te krijgen in het verbeteringspercentage van je team.

Maak gebruik van planning op afroep om ontwikkelaars en systeembeheerders als SRE's in te stellen
In DevOps-teams beginnen de grenzen tussen ontwikkelaar en systeembeheerder te vervagen. Degenen die op het incident reageren, worden vaak Site Reliability Engineers (SRE). Toch zullen sommige personen waarschijnlijk gespecialiseerde kennis hebben, of dat nu gaat om de code van de toepassing of om de code van de infrastructuur. Stel je opafroeprooster zo op dat je over de juiste mix van expertise beschikt om op incidenten te reageren.

Meer informatie over hoe Jira Service Management een DevOps-benadering voor incidentmanagement kan ondersteunen.

Up Next
SRE