Incidentmanagement voor razendsnelle teams
Een draaiboek voor incidentrespons maken
Neem een pagina uit ons (hand) boek.
De missie van Atlassian is het potentieel van elk team te benutten. Eén ding waarvan we weten we dat geweldige teams er altijd mee werken? Ze gebruiken draaiboeken om de vele processen te beheren die zijn ontwikkeld om hun organisatie soepel te laten werken.
Dit artikel behandelt 5 cruciale stappen om een effectief draaiboek voor incidentrespons samen te stellen. We gebruiken ons eigen Atlassian Handboek incidentmanagement als sjabloon om een incidentresponsplan te ontwikkelen.
Waarom agile teams een incidentdraaiboek nodig hebben
Met een draaiboek voor incidentrespons beschikken teams over standaardprocedures en stappen om in realtime te reageren op incidenten en deze op te lossen. Draaiboeken kunnen ook trainingen en oefeningen voor rustiger tijden bevatten, die het team voorbereiden op het volgende incident.
Bij Atlassian trainen, verfijnen, testen en verbeteren onze incidentteams voortdurend ons incidentmanagementproces. We hebben ons draaiboek voor incidentrespons ontwikkeld om:
- Autonome besluitvorming door mensen en teams te bereiken tijdens incidenten en postmortems.
- Een consistente cultuur op te bouwen tussen teams voor hoe we incidenten identificeren, managen en ervan leren.
- Teams dezelfde houding aan te laten nemen voor elk aspect van het herkennen, oplossen en terugkijken op incidenten.
Wat staat er in een draaiboek voor incidentrespons?
Draaiboeken zijn een belangrijk onderdeel van DevOps en IT Ops-incidentmanagement, evenals cyberbeveiliging. Ze bepalen het beleid en de praktijken van de organisatie om te reageren op ongeplande uitval, helpen teams orde te scheppen in chaos en zorgen ervoor dat iedereen consequent reageert op incidenten en beveiligingsbedreigingen.
Een handboek voor incidentmanagement biedt je team een reeks processen om op alle incidenten te reageren, ze op te lossen en ervan te leren, of het nu gaat om een beveiligingsprobleem of een andere nieuwe kwetsbaarheid. De inhoud kan alles bevatten, van runbooks en checklists tot sjablonen, trainingsoefeningen, scenario's voor beveiligingsaanvallen en simulatieoefeningen.
Een draaiboek voor incidentrespons samenstellen
Bij het maken van ons eigen Atlassian Handboek incidentmanagement hebben we 5 best practices geïdentificeerd om incidenten te beheren. Deze stappen kunnen worden vertaald naar verschillende DevOps- en IT Ops-teams en dragen bij aan het proces om een effectief draaiboek voor incidentrespons samen te stellen.
1. Definieer incidenten voor je organisatie
Wat op te nemen: Een specifieke definitie van wat een incident is
Waarom: Je kunt een incident niet effectief oplossen als je niet weet wanneer het gebeurt. Verschillende teams definiëren incidenten op verschillende manieren. Als er iets misgaat, is elke seconde belangrijk, en heb je geen collega's nodig die kibbelen over woorden.
Voorbeeld:
De definitie van een incident zoals opgenomen in het Atlassian Handboek incidentmanagement:
Wat is een incident?
We definiëren een incident als een gebeurtenis die een service verstoort of de kwaliteit vermindert van een service, waar onmiddellijk op gereageerd moet worden. Teams die ITIL- of ITSM-processen volgen, gebruiken mogelijk de term 'groot incident'.
Een incident is opgelost als de desbetreffende service weer normaal functioneert. Dit omvat alleen die taken die nodig zijn om de volledige functionaliteit te herstellen en sluit vervolgtaken uit, zoals identificatie en inperking van de hoofdoorzaak, die deel uitmaken van de postmortem.
Het incident-postmortem vindt na het incident plaats om de belangrijkste oorzaak te achterhalen en acties toe te wijzen om ervoor te zorgen dat de oorzaak van het incident wordt aangepakt voordat het zich kan herhalen.
2. Stel vooraf aangewezen rollen vast
Wat op te nemen: Incidentrollen en verantwoordelijkheden
Waarom: Een goed draaiboek voor incidentrespons geeft duidelijke rollen en verantwoordelijkheden aan. Personen in het incidentresponsteam zijn bekend met elke rol en weten waarvoor ze verantwoordelijk zijn tijdens een incident.
Voorbeeld:
De rollen die we bij Atlassian gebruiken, zijn bedoeld om ervoor te zorgen dat alle noodzakelijke stappen worden doorlopen, er geen dubbel werk plaatsvindt en de communicatie soepel en effectief verloopt.
- Incidentmanager, heeft de algemene verantwoordelijkheid en autoriteit voor het incident. Bevoegd om alle maatregelen te nemen die nodig zijn om het incident op te lossen. Dit betreft onder andere het oproepen van extra responders in de organisatie en ervoor zorgen dat degenen die bij een incident betrokken zijn, erop op gericht blijven de service zo snel mogelijk te herstellen.
- Tech lead, een senior technisch responder. Verantwoordelijk voor het ontwikkelen van theorieën over wat er defect is en waarom, het nemen van beslissen over wijzigingen en het leiden van het technische team. Werkt nauw samen met de incidentmanager.
- Communicatiemanager, een persoon die bekend is met openbare communicatie, mogelijk van het klantenserviceteam of public relations. Verantwoordelijk voor het schrijven en verzenden van interne en externe communicatie.
3. Leg een consistent proces op
Wat op te nemen: Processtappen en workflows
Waarom: Geen twee incidenten zijn precies hetzelfde. Maar dat betekent niet dat je hulpverleners geen consistente workflow kunnen introduceren om op incidenten te reageren.
Maak een overzicht van de belangrijkste stappen en fasen en zorg ervoor dat het voor teamleden duidelijk is wat er tijdens elke fase wordt verwacht en wat er daarna komt. Atlassian splitst bijvoorbeeld de incidentresponsflow van zeven stappen op in drie fasen om het incident van detectie naar oplossing te brengen.
Voorbeeld:
Wanneer er een nieuw incident wordt gedetecteerd, begint de incidentmanager de interne communicatie op te starten en de respons te organiseren. Het team kan dan beginnen te werken aan het fixen van de oorzaak van het incident en het vinden van een oplossing. Een sterke organisatie in deze fase vergemakkelijkt actie, wat wordt bevorderd door frequente communicatie. Naleving van een consistent proces leidt tot een snellere oplossing, inclusief een postmortemoefening die we hieronder behandelen.
4. Maak snelle respons mogelijk
Wat op te nemen: Sjablonen en checklists
Waarom: Draaiboeken voor incidenten moeten in tijden van stress door teams eenvoudig te volgen zijn. Ons eigen proces omvat een 'spiekbriefje' voor grootschalig incidentmanagement. Hierin worden op één pagina belangrijke stappen beschreven, zoals beoordeling, escalatie en delegatie.
Het volgen van een vooraf bepaald proces voor incidentrespons betekent niet dat er geen ruimte is om te improviseren. Je moet flexibel zijn en weten wanneer je je moet aanpassen aan een veranderende situatie. Incidenten zijn per definitie scenario's waarbij dingen niet volgens plan verlopen, maar dat betekent niet dat je er niet voor kunt plannen. De teams die met een serie spellen trainen en oefenen, zijn meestal de succesvolle teams.
Gebruik dit:
Probeer een spel met incidentresponswaarden uit te voeren. om de samenhang van het team te verbeteren en eventuele misverstanden voorafgaand aan een incident uit te werken. Gebruik ons hulpmiddel, het Atlassian Team Playbook, om het proces van je team beter te begrijpen en een dynamisch draaiboek samen te stellen.
5. Faciliteer uitgebreide postmortems
Wat op te nemen: Overzicht van het postmortemproces en probleemgebieden
Waarom: Met een postmortem probeer je de waarde van een incident te maximaliseren door alle bijdragende oorzaken te begrijpen, het incident te documenteren voor toekomstige referentie en patroonontdekking, en effectieve preventieve acties uit te voeren om de waarschijnlijkheid of impact van herhaling te verminderen.
Als je een incident ziet als een ongeplande investering in de betrouwbaarheid van je systeem, dan is de postmortem de manier waarop je het rendement van die investering maximaliseert.
Probeer dit eens:
Postmortems zijn effectief als ze het voor teams eenvoudiger maken om oorzaken te identificeren en incidenten op te lossen. De exacte methoden die je gebruikt, zijn afhankelijk van je teamcultuur. Bij Atlassian hebben we een combinatie van methoden gevonden die werken voor onze postmortemteams:
- Fysieke meetings helpen de juiste analyse te achterhalen en het team op één lijn te krijgen over wat er opgelost moet worden.
- Goedkeuringen van postmortems door managers van het leverings- en operationsteam stimuleren teams om ze correct uit te voeren.
- Wijs prioritaire acties aan met toegewezen Service Level Objectives (SLO) met herinneringen en rapporten om te waarborgen dat ze worden voltooid.
Een stapsgewijs overzicht van het Atlassian-postmortemsysteem voor incidentrespons vind je op pagina 46 van ons Handboek incidentmanagement.
Uiteindelijk moet een draaiboek voor incidentrespons worden gebruikt om teams aan te zetten tot effectieve samenwerking om incidenten zo snel mogelijk op te lossen. Wanneer er zich een incident voordoet, heeft niemand tijd om over best practices te debatteren en schuldigen aan te wijzen. Met grondige, goed samengestelde draaiboeken kunnen teams hun werk optimaal doen. De Atlassian-richtlijnen voor al deze spellen worden gedetailleerd beschreven in ons Handboek incidentmanagement.
Een op afroep-rooster opstellen met Opsgenie
In deze tutorial leer je hoe je een op afroep-rooster instelt, overschrijfregels toepast, op afroep-meldingen configureert en meer, allemaal binnen Opsgenie.
Lees deze tutorialDe voor- en nadelen van verschillende benaderingen van op afroep-beheer
Op afroep-teams evolueren snel. Ontdek de voor- en nadelen van verschillende benaderingen van op afroep-beheer.
Lees dit artikel