Incidentmanagement voor razendsnelle teams
Reageren op een incident
In het volgende gedeelte wordt het proces voor het reageren op incidenten van Atlassian beschreven. De incidentmanager (IM) volgt deze stappen om het incident van detectie naar oplossing te brengen.
Jira-veld | Type | Helptekst |
Samenvatting | Tekst | Wat is er aan de hand? |
Beschrijving | Tekst | Welke impact heeft het op klanten? Vul je contactgegevens in zodat respondenten je kunnen bereiken |
Niveau | Eén selecteren | (Hyperlink naar een Confluence-pagina met onze schaalverdeling) Als je voor niveau 2 of 1 kiest, betekent dit dat het probleem meteen moet worden opgelost - er worden mensen op de hoogte gebracht. |
Foutieve service | Eén selecteren | De service met de fout die het incident veroorzaakt. Doe een gok als je het niet zeker weet. Selecteer 'Onbekend' als je geen idee hebt. |
Betrokken producten | Selectievakjes | Welke producten hebben last van dit incident? Selecteer alle producten die van toepassing zijn. |
Als het incident is aangemaakt, wordt de issue-sleutel ervan gebruikt in alle interne communicatie over het incident.
Klanten openen vaak support cases over een incident waar ze mee te maken hebben. Als onze klantondersteuningsteams bepalen dat deze cases allemaal bij een incident horen, labelen ze die cases met de issue-sleutel van het incident om de impact op de klanten te volgen en eenvoudiger contact op te kunnen nemen met betrokken klanten als het incident is opgelost.
Niveau | Beschrijving | Voorbeelden |
1 | Een kritiek incident met erg veel impact |
|
2 | Een groot incident met significante impact |
|
3 | Een klein incident met weinig impact |
|
Als je de impact van het incident eenmaal hebt achterhaald, wijzig of bevestig je de ernst van de incident-issue en communiceer je de ernst naar het team. We hebben ontdekt dat een cijfer voor het niveau erg handig is om de ernst duidelijk te communiceren.
Bij Atlassian worden incidenten van niveau 3 doorgegeven aan de leveringsteams om tijdens werktijd op te lossen, terwijl voor incidenten van niveau 1 en 2 teamleden opgepiept moeten worden voor een onmiddellijke oplossing. Het verschil in respons tussen niveau 1 en 2 is genuanceerder en afhankelijk van desbetreffende service.
De matrix met niveaus moet gedocumenteerd worden en alle teams moeten er overeenstemming over bereiken voor een consistente respons gebaseerd op impact op de klant.
Interne statuspagina | Externe statuspagina | |
Naam incident | | Issues onderzoeken met |
Bericht | We zijn een incident aan het onderzoeken met betrekking tot | We zijn problemen aan het onderzoeken met |
Naast het aanmaken van een Statuspage-incident, sturen we een e-mail naar een distributielijst met incidentcommunicaties met onze engineering manager, grote incidentmanagers en overige betrokken medewerkers. Deze e-mail heeft dezelfde inhoud als als het interne Statuspage-incident. Medewerkers kunnen via e-mail reageren en vragen stellen, terwijl Statuspage meer eenzijdige communicatie is.
We voegen altijd de Jira-issuesleutel toe aan alle interne communicatie over het incident, zodat medewerkers weten welke chatruimte ze moeten bezoeken als ze nog vragen hebben.
Een op afroep-rooster opstellen met Opsgenie
In deze tutorial leer je hoe je een op afroep-rooster instelt, overschrijfregels toepast, op afroep-meldingen configureert en meer, allemaal binnen Opsgenie.
Lees deze tutorialHoe we incident-postmortems doen
Postmortems zonder schuldige aan te wijzen helpen ons de belangrijkste reden voor incidenten te begrijpen en op te lossen. Ontdek in ons handboek hoe Atlassian incident-postmortems afhandelt.
Lees dit artikel