De waarschuwings- en op afroep-functies van Opsgenie zijn nu beschikbaar in Jira Service Management en Compass. Migreer bestaande Opsgenie-gegevens en -configuraties vóór 5 april 2027 met behulp van onze geautomatiseerde migratietool.

Een draaiboek voor incidentrespons maken

Neem een pagina uit ons (hand)boek.

Probeer het gratis

De missie van Atlassian is om het potentieel van elk team te benutten. Eén ding waarvan we weten dat geweldige teams er altijd mee werken? Ze gebruiken draaiboeken om de vele processen te beheren die zijn ontwikkeld om hun organisatie soepel te laten werken.

Dit artikel behandelt 5 cruciale stappen om een effectief draaiboek voor incidentrespons samen te stellen. We gebruiken ons eigen Atlassian Handboek voor incidentmanagement als sjabloon om een incidentresponsplan te ontwikkelen.

Waarom agile teams een incidentdraaiboek nodig hebben

Met een draaiboek voor incidentrespons beschikken teams over standaardprocedures en stappen om in realtime te reageren op incidenten en deze op te lossen. Draaiboeken kunnen ook trainingen en oefeningen voor rustigere tijden bevatten, die het team voorbereiden op het volgende incident.

Bij Atlassian trainen, verfijnen, testen en verbeteren onze incidentteams voortdurend ons incidentmanagementproces. We hebben ons draaiboek voor incidentrespons ontwikkeld om:

Autonome besluitvorming door mensen en teams te bereiken tijdens incidenten en postmortems.
Een consistente cultuur op te bouwen tussen teams voor hoe we incidenten identificeren, beheren en ervan leren.
Teams dezelfde houding aan te laten nemen voor elk aspect van het herkennen, oplossen en terugkijken op incidenten.

Wat staat er in een draaiboek voor incidentrespons?

Draaiboeken zijn een belangrijk onderdeel van DevOps en IT Ops-incidentmanagement, evenals cyberbeveiliging. Ze bepalen het beleid en de praktijken van de organisatie om te reageren op ongeplande uitval, helpen teams orde te scheppen in chaos en zorgen ervoor dat iedereen consequent reageert op incidenten en beveiligingsbedreigingen.

Een handboek voor incidentmanagement biedt je team een reeks processen om op alle incidenten te reageren, ze op te lossen en ervan te leren, of het nu gaat om een beveiligingsprobleem of een andere nieuwe kwetsbaarheid. De inhoud kan alles bevatten, van runbooks en checklists tot sjablonen, trainingsoefeningen, scenario's voor beveiligingsaanvallen en simulatieoefeningen.

Een draaiboek voor incidentrespons samenstellen

Bij het maken van ons eigen Atlassian Handboek voor incidentmanagement hebben we 5 aanbevolen werkwijzen geïdentificeerd om incidenten te beheren. Deze stappen kunnen worden vertaald naar verschillende DevOps- en IT Ops-teams en dragen bij aan het proces om een effectief draaiboek voor incidentrespons samen te stellen.

1. Definieer incidenten voor je organisatie

Wat op te nemen: een specifieke definitie van wat een incident is

Waarom: je kunt een incident niet effectief oplossen als je niet weet wanneer het gebeurt. Verschillende teams definiëren incidenten op verschillende manieren. Als er iets misgaat, is elke seconde belangrijk, en is het laatste wat je wilt dat je collega's alleen maar kibbelen over verwoording.

Voorbeeld:

De definitie van een incident zoals opgenomen in het Atlassian Handboek voor incidentmanagement:

Wat is een incident?

We definiëren een incident als een gebeurtenis die een service verstoort of de kwaliteit vermindert van een service, waar onmiddellijk op gereageerd moet worden. Teams die ITIL- of ITSM-processen volgen, gebruiken mogelijk de term 'groot incident'.

Een incident is opgelost als de desbetreffende service weer normaal functioneert. Dit omvat alleen die taken die nodig zijn om de volledige functionaliteit te herstellen en sluit vervolgtaken uit, zoals identificatie en inperking van de hoofdoorzaak, die deel uitmaken van de postmortem.

Het incident-postmortem vindt na het incident plaats om de belangrijkste oorzaak te achterhalen en acties toe te wijzen om ervoor te zorgen dat de oorzaak van het incident wordt aangepakt voordat het zich kan herhalen.

2. Stel vooraf aangewezen rollen vast

Wat op te nemen: incidentrollen en verantwoordelijkheden

Waarom: een goed draaiboek voor incidentrespons geeft duidelijke rollen en verantwoordelijkheden aan. Personen in het incidentresponsteam zijn bekend met elke rol en weten waarvoor ze verantwoordelijk zijn tijdens een incident.

Voorbeeld:

De rollen die we bij Atlassian gebruiken, zijn bedoeld om ervoor te zorgen dat alle noodzakelijke stappen worden doorlopen, er geen dubbel werk plaatsvindt en de communicatie soepel en effectief verloopt.

Incidentmanager, heeft de algemene verantwoordelijkheid en autoriteit voor het incident. Bevoegd om alle maatregelen te nemen die nodig zijn om het incident op te lossen. Dit betreft onder andere het oproepen van extra responders in de organisatie en ervoor zorgen dat degenen die bij een incident betrokken zijn, erop gericht blijven de service zo snel mogelijk te herstellen.
Tech lead, een senior technisch responder. Verantwoordelijk voor het ontwikkelen van theorieën over wat er defect is en waarom, het nemen van beslissingen over wijzigingen en het leiden van het technische team. Werkt nauw samen met de incidentmanager.
Communicatiemanager, een persoon die bekend is met openbare communicatie, mogelijk van het klantenserviceteam of public relations. Verantwoordelijk voor het schrijven en verzenden van interne en externe communicatie.

3. Leg een consistent proces op

Wat op te nemen: processtappen en workflows

Waarom: geen twee incidenten zijn precies hetzelfde. Dat betekent echter niet dat je respondenten geen consistente workflow kunnen introduceren om op incidenten te reageren.

Maak een overzicht van de belangrijkste stappen en fasen en zorg ervoor dat het voor teamleden duidelijk is wat er tijdens elke fase wordt verwacht en wat er daarna komt. Atlassian splitst bijvoorbeeld de incidentresponsflow van zeven stappen op in drie fasen om het incident van detectie naar oplossing te brengen.

Voorbeeld:

Wanneer er een nieuw incident wordt gedetecteerd, begint de incidentmanager de interne communicatie op te starten en de respons te organiseren. Het team kan dan beginnen te werken aan het fixen van de oorzaak van het incident en het vinden van een oplossing. Een sterke organisatie in deze fase vergemakkelijkt actie, wat wordt bevorderd door frequente communicatie. Naleving van een consistent proces leidt tot een snellere oplossing, inclusief een postmortemoefening die we hieronder behandelen.

4. Maak snelle respons mogelijk

Wat op te nemen: sjablonen en checklists

Waarom: draaiboeken voor incidenten moeten in tijden van stress door teams eenvoudig te volgen zijn. Ons eigen proces omvat een 'spiekbriefje' voor grootschalig incidentmanagement. Hierin worden op één pagina belangrijke stappen beschreven, zoals beoordeling, escalatie en delegatie.

Het volgen van een vooraf bepaald proces voor incidentrespons betekent niet dat er geen ruimte is om te improviseren. Je moet flexibel zijn en weten wanneer je je moet aanpassen aan een veranderende situatie. Incidenten zijn per definitie scenario's waarbij dingen niet volgens plan verlopen, maar dat betekent niet dat je er niet voor kunt plannen. De teams die met een serie spellen trainen en oefenen, zijn meestal de succesvolle teams.

Gebruik dit:

Probeer een incidentresponswaarden-spel uit te voeren. om de samenhang van het team te verbeteren en eventuele misverstanden voorafgaand aan een incident uit te werken. Gebruik ons hulpmiddel, het Atlassian-teamdraaiboek, om het proces van je team beter te begrijpen en een dynamisch draaiboek samen te stellen.

5. Faciliteer uitgebreide postmortems

Wat op te nemen: overzicht van het postmortem-proces en probleemgebieden

Waarom: met een postmortem probeer je de waarde van een incident te maximaliseren door alle bijdragende oorzaken te begrijpen, het incident te documenteren voor toekomstige referentie en patroonontdekking, en effectieve preventieve acties uit te voeren om de kans op of impact van herhaling te verminderen.

Als je een incident ziet als een ongeplande investering in de betrouwbaarheid van je systeem, dan is de postmortem de manier waarop je het rendement van die investering maximaliseert.

Probeer dit eens:

Postmortems zijn effectief als ze het voor teams eenvoudiger maken om oorzaken te identificeren en incidenten op te lossen. De exacte methoden die je gebruikt, zijn afhankelijk van je teamcultuur. Bij Atlassian hebben we een combinatie van methoden gevonden die werken voor onze postmortem-teams:

Fysieke vergaderingen helpen de juiste analyse te achterhalen en het team op één lijn te krijgen over wat er opgelost moet worden.
Goedkeuringen van postmortems door managers van het leverings- en operationele team stimuleren teams om ze correct uit te voeren.
Wijs prioritaire acties aan met toegewezen Service Level Objectives (SLO) met herinneringen en rapporten om te waarborgen dat ze worden voltooid.

Een stapsgewijs overzicht van de Atlassian-postmortem voor incidentrespons vind je op pagina 46 van ons Handboek voor incidentmanagement.

Uiteindelijk moet een draaiboek voor incidentrespons worden gebruikt om teams aan te zetten tot effectieve samenwerking om incidenten zo snel mogelijk op te lossen. Wanneer er zich een incident voordoet, heeft niemand tijd om over best practices te debatteren en schuldigen aan te wijzen. Met grondige, goed samengestelde draaiboeken kunnen teams hun werk optimaal uitvoeren. De Atlassian-richtlijnen voor al deze draaiboeken worden gedetailleerd beschreven in ons Handboek voor incidentmanagement.

Download het handboek

Voor jou aanbevolen

Tutorial

Een op afroep-rooster opstellen met Opsgenie

In deze tutorial leer je hoe je een op afroep-rooster instelt, overschrijfregels toepast, op afroep-meldingen configureert en meer, allemaal binnen Opsgenie.

Lees deze tutorial

De voor- en nadelen van verschillende benaderingen van op afroep-beheer

Op afroep-teams evolueren snel. Ontdek de voor- en nadelen van verschillende benaderingen van op afroep-beheer.

Lees dit artikel

Meer informatie over incidentmanagement

Vind meer handleidingen en bronnen voor incidentmanagement in deze hub.

Lees meer

Uitgelichte apps

Atlassian Collections

Rovo

Per gebruikersscenario

Per team

Op maat

Per sector

Rovo

Ondersteuning

Bronnen

Uitgelichte apps

Jira

Confluence

Jira Service Management

Atlassian Collections

Rovo

Rovo

Rovo

Rovo

Rovo

Rovo

Per gebruikersscenario

Per team

Op maat

Per sector

Rovo

Jira

Confluence

Jira Service Management

Per gebruikersscenario

Per team

Op maat

Per sector

Rovo

Een draaiboek voor incidentrespons maken

Waarom agile teams een incidentdraaiboek nodig hebben

Wat staat er in een draaiboek voor incidentrespons?

Een draaiboek voor incidentrespons samenstellen

1. Definieer incidenten voor je organisatie

2. Stel vooraf aangewezen rollen vast

3. Leg een consistent proces op

4. Maak snelle respons mogelijk

5. Faciliteer uitgebreide postmortems

Voor jou aanbevolen

Een op afroep-rooster opstellen met Opsgenie

De voor- en nadelen van verschillende benaderingen van op afroep-beheer

Meer informatie over incidentmanagement