Close

Incidentmanagement voor razendsnelle teams

Atlassian incidenthandboek

Teams die in deze tijd technische services verlenen, worden geacht 24/7 beschikbaar te zijn.

Als er iets misgaat, of dit nu een stroomstoring of een kapotte functie is, moeten teamleden onmiddellijk reageren en de service herstellen. Dit proces noemen we incidentmanagement, en het is een voortdurende, complexe uitdaging voor grote en kleine bedrijven.

We willen teams overal ter wereld helpen hun incidentmanagement te verbeteren. We zijn geïnspireerd door Google, en hebben dit handboek samengesteld als samenvatting van het incidentmanagementproces van Atlassian. Dit zijn de lessen die we hebben geleerd in de ruim tien jaar dat we op incidenten reageren. Het is gebaseerd op onze unieke ervaringen en we hopen dat je ze aan kunt passen om toe te spitsen op de behoeften van je eigen team.

Handboek incidentmanagement

Krijg ons handboek fysiek of in pdf

We hebben een beperkt aanbod van gedrukte versies van het Handboek incidentmanagement die we gratis verzenden. Of download een pdf-versie.

We willen teams overal ter wereld helpen hun incidentmanagement te verbeteren. We zijn geïnspireerd door Google, en hebben dit handboek samengesteld als samenvatting van het incidentmanagementproces van Atlassian. Dit zijn de lessen die we hebben geleerd in de ruim tien jaar dat we op incidenten reageren. Het is gebaseerd op onze unieke ervaringen en we hopen dat je ze aan kunt passen om toe te spitsen op de behoeften van je eigen team.


Voor wie is deze handleiding bedoeld?

Als je onderdeel uitmaakt van een ontwikkelings- of operationsteam dat internetservices verleent aan klanten die 24/7 beschikbaarheid vereisen, dan is dit het handboek voor jou.


Wat is een incident?

We definiëren een incident als een gebeurtenis die een service verstoort of de kwaliteit vermindert van een service, waar onmiddellijk op gereageerd moet worden. Teams die ITIL- of ITSM-processen volgen, gebruiken mogelijk de term groot incident .

Een incident is opgelost als de desbetreffende service weer normaal functioneert. Dit omvat alleen de taken die vereist zijn om volledige functionaliteit te herstellen.

Het incident-postmortem vindt na het incident plaats om de belangrijkste oorzaak te achterhalen en acties toe te wijzen om ervoor te zorgen dat de oorzaak van het incident wordt aangepakt voordat het zich kan herhalen.


Onze incidentwaarden

Een proces voor het beheren van incidenten kan niet alle mogelijke situaties dekken, dus bieden we ons team algemene richtlijnen in de vorm van waarden. Net zoals de bedrijfswaarden van Atlassian, zijn onze incidentwaarden bedoeld om:

  • Autonome besluitvorming door mensen en teams te bereiken tijdens incidenten en postmortems.
  • Een consistente cultuur op te bouwen tussen teams voor hoe we incidenten identificeren, managen en ervan leren.
  • Teams op dezelfde manier zich laten opstellen wat betreft ieder gedeelte van het herkennen, oplossen en reflecteren van incidenten.
Fase Incidentwaarde Gerelateerde Atlassian-waarde Onderbouwing
1. Detecteer Atlassian is eerder op de hoogte dan klanten

Bouw met je hart en in balans

Een uitgebalanceerde service bevat voldoende monitoring en waarschuwingen om incidenten te detecteren voordat onze klanten dit doen.

De beste monitoring waarschuwt ons voor problemen voordat dit incidenten worden.

2. Reageer Escaleren, escaleren, escaleren

Werk samen als een team

Niemand vindt het leuk om wakker te worden en wij nemen die verantwoordelijkheid zeer serieus. Maar medewerkers begrijpen ook dat ze af en toe wakker worden gemaakt voor een incident waarbij blijkt dat ze niet nodig zijn. Wat meestal moeilijker is, is wakker worden na een ernstig incident en ontzettend achterlopen, terwijl je eerder had moeten worden gewaarschuwd.

We hebben niet altijd overal antwoord op, dus 'escaleren kun je leren'.

3. Herstel Er worden fouten gemaakt, maar herstel ze tijdig Houd de klant niet voor de gek

Het maakt onze klanten niet uit waarom de service niet kan worden geleverd, ze willen gewoon dat we de service zo snel mogelijk herstellen.

Twijfel nooit om een incident snel te herstellen, zodat we de impact voor onze klanten zo goed mogelijk kunnen beperken.

4. Leer Altijd zonder een schuldige Open bedrijf, geen flauwekul Incidenten zijn onderdeel van lopende services. We verbeteren services door teams ter verantwoording te roepen, niet door schuldigen aan te wijzen.
5. Verbeter Een incident mag nooit nog een keer voorkomen Wees de verandering die je wenst

Achterhaal de belangrijkste reden en voer de wijzigingen door die voorkomen dat dit specifieke incident nog een keer plaatsvindt.

Zet je in voor het leveren van specifieke wijzigingen op specifieke datums.


Benodigde tools

Het hier beschreven proces voor incidentmanagement gebruikt verschillende tools specifiek voor Atlassian die indien nodig vervangen kunnen worden:

  • Incidenten volgen: ieder incident wordt gevolgd als een Jira-issue, met een aangemaakte vervolgissue om de voltooiing van postmortems te volgen (Atlassian gebruikt hiervoor een aangepaste versie van Jira Software).
  • Chatruimte: een realtime kanaal voor communicatie via tekst is van fundamenteel belang om het incident als team te diagnosticeren en op te lossen.
  • Videochat: voor veel incidenten kunnen videochats voor teams, zoals Blue Jeans, helpen om benaderingen te bespreken en het er over eens te worden.
  • Waarschuwingssysteem: een tool zoals OpsGenie beheert onverwachte veranderingen en escalaties.
  • Documentatietool: we gebruiken Confluence voor onze incidentstatusdocumenten en voor het delen van postmortems via blogs.
  • Statuspage: het communiceren van de status aan zowel interne belanghebbenden als klanten via Statuspage zorgt ervoor dat iedereen op de hoogte blijft.

Incidenten volgen

Ieder incident wordt gevolgd als een Jira-issue en er wordt een vervolgissue van gemaakt om de voltooiing van postmortems te volgen. Het proces in dit handboek refereert vaak aan onze aangepaste versie van Jira Software.

Incidentissues worden meestal aangemaakt door een ondersteunend technicus als reactie op een klantticket of door een ontwikkelaar die een monitoringsmelding herkent als incident. We dringen er bij mensen op aan een issue aan te maken als ze zich ergens zorgen over maken, in plaats van te wachten tot het wordt geëscaleerd.

Jira heeft een eenvoudig proces voor het volgen van incidenten tijdens de oplossingsfase en om alle belangrijke genomen acties tijdens de reactie op het incident op te slaan.


Incidentmanager

Ieder incident wordt gemanaged door de incidentmanager (IM), die verantwoordelijk is voor en de leiding heeft over het aanpakken van het incident. Deze persoon staat weergegeven als de uitvoerder voor de incidentissue. De incidentmanager is gemachtigd om alle nodige maatregelen te nemen om het incident op te lossen, waaronder iedereen binnen de organisatie op de hoogte brengen en de aandacht van mensen die betrokken zijn bij een incident gericht houden op het zo snel mogelijk herstellen van de service.

De incidentmanager is een rol en niet een individu die het incident aanpakt. Het voordeel van rollen definiëren tijdens een incident is dat mensen inwisselbaar worden. Zolang iemand weet hoe hij of zij een bepaalde rol moet invullen, kan hij of zij die rollen voor een incident invullen.


Have ideas or suggestions for this guide?