Close

ITSM voor razendsnelle teams

Wat is continuïteitsbeheer voor IT-diensten?

Continuïteitsbeheer van IT-diensten (ITSCM) is een belangrijke component van de levering van ITIL-diensten. Het concept richt zich op de planning voor het voorkomen, voorspellen en beheren van incidenten, met als doel de beschikbaarheid en prestaties van de service voor, tijdens en na een incident op rampniveau op het hoogst mogelijke niveau te houden.

Het doel van ITSCM is om de uitval, kosten en zakelijke gevolgen van incidenten te verminderen door effectieve, gestandaardiseerde processen in te voeren voor het geval dergelijke incidenten zich onvermijdelijk voordoen.

Zonder een plan zijn er immers veel factoren die het herstel van een incident kunnen vertragen of stoppen. Je dienstdoend expert zou om 3 uur 's ochtends met nauwelijks open ogen kunnen reageren. Misschien is de voeling met de code verdwenen nadat hij weken of maanden aan iets anders heeft gewerkt. Of hij raakt in paniek vanwege de omvang van het incident. Misschien ook is de expert het nieuwste lid van het disaster recovery-team – en heeft hij weinig ervaring met het oplossen van problemen.

Met een goed gedocumenteerd, duidelijk plan voor het beheer van de continuïteit van de service kunnen vertragingen als gevolg van leercurven, verminderde voeling met de code, een paniekaanval of waarschuwingen om middernacht tot een minimum worden beperkt.

ITSCM en ITIL 4

In ITIL 4 is servicecontinuïteitsbeheer een proces dat is bedoeld om het beheer van de bedrijfscontinuïteit (BCM) te ondersteunen. Het proces moet ervoor zorgen dat de diensten na grote onderbrekingen van de service weer binnen de overeengekomen zakelijke termijnen operationeel zijn.

ITSCM versus incidentmanagement

ITIL 4 maakt onderscheid tussen incidentenmanagement, dat incidenten op verschillende impactniveaus behandelt, en ITSCM, dat betrekking heeft op de voorbereiding op grootschalige rampen.

Wat is nu precies een ramp? Het antwoord kan per bedrijf verschillen, maar het Business Continuity Institute definieert het als 'een plotselinge, ongeplande gebeurtenis die grote schade of ernstig verlies toebrengt aan een organisatie. Het heeft tot gevolg dat een organisatie gedurende een vooraf bepaalde minimumperiode niet in staat is essentiële zakelijke functies te verlenen'.

Elk bedrijf moet zelf de omvang van wat wij een ramp noemen, de vooraf bepaalde minimumtijd en de definitie van kritieke bedrijfsfuncties definiëren en documenteren.

ITSCM en bedrijfscontinuïteitsbeheer (BCM)

Bedrijfscontinuïteitsbeheer is een proces dat buiten de IT wordt beheerd. Het stelt risico's voor het bedrijf vast en werkt eraan om deze risico's te beperken. Sommige risico's kunnen verband houden met de IT, waaronder incidenten op rampniveau. Andere risico's kunnen buiten de controle van de IT-afdeling liggen, zoals natuurrampen of branden in gebouwen.

Aangezien BCM zowel ITSCM als andere risicobeperkende processen omvat, is het logisch dat IT-teams nauw met het BCM-team samenwerken aan ...

  • een bedrijfscontinuïteitsplan (BCP) dat plannen omvat voor preventie en herstel na IT-incidenten op rampniveau;
  • analyses van de bedrijfsimpact (BIA) die de potentiële zakelijke impact van een IT-ramp in kaart brengen.

ITSCM-doelstellingen

Vanuit zakelijk oogpunt is het doel van ITSCM om de uitval, kosten en zakelijke gevolgen van incidenten op rampniveau te verminderen. Op een meer tactisch niveau omvatten de doelstellingen:

  • Nauwe samenwerking met BCM om de algehele bedrijfscontinuïteit te waarborgen;
  • Plannen opstellen en beheren voor continuïteit van IT-diensten en herstel in geval van een ramp;
  • Samenwerking met leveranciers om de impact van eventuele uitval van hun producten en diensten tot een minimum te beperken, voor zover dat betrekking heeft op het bedrijf;
  • Analyse van risico's en impact en plannen in de loop van de tijd dienovereenkomstig herzien.

Het ITSCM-proces

Bij Atlassian is ons eigen continuïteitsplan gebaseerd op de veronderstelling dat het proces van voorbereiding op rampen continu plaatsvindt, wordt aangestuurd door leiderschap en grondig wordt getest. We zijn vastbesloten om onze klanten niet aan hun lot over te laten. Ons proces omvat planning, communicatie, duidelijke verantwoordelijkheden, tests en continue verbetering.

Planning

Het planningsproces begint met het stellen van vragen op hoofdlijnen. Daarna wordt een plan opgesteld op basis van je antwoorden. De eerste vragen zouden het volgende moeten omvatten:

  • Wat is onze incidentrespons?
  • Welke waarden volgen we?
  • Op welke soorten rampen moeten we ons voorbereiden? Welke risico's en bedreigingen zijn inherent aan ons bedrijf?
  • Welke systemen moeten we ondersteunen? Welke zijn cruciaal?
  • Hoe reageren we in geval van elke ramp?
  • Waar is de informatie die we nodig hebben om kritieke systemen te ondersteunen en herstellen?
  • Hoe kunnen we die informatie centraliseren en herstelprocessen vereenvoudigen?
  • Werken de informatie- en procesdocumentatie samen en kunnen deze worden beoordeeld door de teams die de documentatie gaan beheren?

Als je eenmaal antwoord op deze vragen hebt, moet je die antwoorden gebruiken om de volgende zaken te bepalen:

  • Beleid voor disaster recovery;
  • Omvang van IT-verantwoordelijkheden;
  • Omvang van de bedrijfseffecten van elk risico;
  • Plannen en processen voor elk risicoscenario;
  • Personeels- en documentatievereisten.

De sleutel tot een succesvolle ITSCM-planning is documenteren en sjablonen maken van het uiteindelijke plan zodat het duidelijk en herhaalbaar is. Middelen zoals een draaiboek voor incidentrespons of andere runbooks kunnen een bron van waarheid zijn en een leidraad voor respondenten bij belangrijke scenario's.

In de geest van ITSCM maakt een oplossing met toegang tot een geïntegreerde kennisdatabase, zoals Jira Service Management (powered by Confluence), continue documentatie mogelijk die kan worden gereviseerd, geoptimaliseerd en waaraan samen kan worden gewerkt. Op die manier hebben respondenten toegang tot eerdere resolutiedocumentatie en up-to-date resources.

Duidelijke verantwoordelijkheden

Wie is er verantwoordelijk bij rampen? Wie is er verantwoordelijk voor plannen, processen en documentatie onderhouden en bijwerken? Bij ITSCM moet het altijd duidelijk zijn wie welke rol en verantwoordelijkheden heeft en niet alleen voor rampen, maar ook voor voortdurende bewaking en verbetering. Met behulp van Jira Service Management kunnen respondenten de juiste partij of persoon taggen bij issues, zodat verantwoordelijkheden juist worden gedelegeerd en om cross-functionele samenwerking te faciliteren.

Bij Atlassian bestaat een deel van onze aanpak uit regelmatige vergaderingen voor disaster recovery met onze technici die verantwoordelijk zijn voor de betrouwbaarheid van de locatie en met ons risico- en nalevingsteam. Ze bespreken hiaten in disaster recovery en stellen vast waar aanvullende plannen, verbeteringen, evaluaties of wijzigingen moeten worden gemaakt.

Communicatie

Openheid is een kernwaarde bij Atlassian. Wij geloven dan ook dat hoe beter je organisatie op de hoogte is van je ITSCM-plannen, hoe effectiever die plannen zullen zijn.

Door flexibele communicatiekanalen te bieden tijdens incidentresponsprocessen kunnen teams in contact blijven op de manier van hun voorkeur. In Jira Service Management zijn meerdere communicatiekanalen geïntegreerd om downtime te minimaliseren, zoals insluitbare statuswidgets, een speciale statuspagina, e-mail, chattools, social media en sms.

Communicatie zorgt er niet alleen voor dat belanghebbenden betrokken blijven en dat de C-suite paniek tijdens incidenten op rampniveau kan voorkomen, maar ook dat teams andere teams om hulp kunnen vragen indien nodig en het risico op frustratie kunnen verminderen bij organisatorische verwarring.

Testen

Hoe weet je of je plannen werken als je ze niet test? Dit is een fundamentele vraag voor ITSCM en de reden dat testen en oefeningen voor incidentmanagement essentieel zijn voor het succes in de praktijk.

Testen kunnen je helpen zwakke punten in je proces vast te stellen, onvoorziene problemen in kaart te brengen en te ontdekken waar teams mogelijk bijscholing of betere documentatie nodig hebben.

Evalueren en verbeteren

ITSCM is geen eenmalig proces. Het vereist een doordachte planning vooraf en voortdurende training, beoordeling en verbetering. Daarom houden we regelmatig bijeenkomsten voor disaster recovery. Daarom testen we ook back-ups van het systeem en proberen we uit wat er gebeurt tijdens een storing in een datacenter of een uitval in de AWS-regio. En daarom wordt elk ITSCM-plan dat de moeite waard is voortdurend gecontroleerd en veranderd.

De meeste bedrijven presenteren het ITSCM-proces in een reeks stappen. Wij denken echter dat het proces meer op een cirkel lijkt. Planning moet tot gedefinieerde rollen en verantwoordelijkheden leiden. Van daaruit moet het team in de hele organisatie communiceren, testen en opnieuw testen, beoordelen, monitoren en verbeteren en, wat betreft die verbeteringen, doorgaan met het updaten van het plan, de rollen nader definiëren en doorgaan met communiceren.

Nogmaals, dit is waar een ingebouwde, samenwerkingsgerichte kennisdatabase in beeld komt. Kennisdatabase-artikelen zijn een waardevolle resource bij beoordeling en documentatie. Postmortemrapporten van incidenten zijn cruciaal voor revisie en oplossing na een incident, maar kunnen ook dienen als blijvende resource voor potentiële toekomstige problemen. Jira Service Management (powered by Confluence) biedt een krachtig samenwerkingsplatform voor beoordelingen en verbeteroplossingen.

ITSCM-rollen en -verantwoordelijkheden

Om ITSCM-praktijken in de hele organisatie effectief te plannen en toe te passen, stellen veel bedrijven een Service Continuity Manager en een Service Continuity Recovery Team aan.

Service Continuity Manager (SCM)

Zoals de naam al doet vermoeden, is de Service Continuity Manager verantwoordelijk voor het toezicht op de continuïteit van de dienstverlening. Deze persoon is doorgaans eigenaar van het gehele proces, geeft leiding aan de ontwikkeling van plannen, beheert de lopende monitoring- en beoordelingsactiviteiten en houdt toezicht op de plannen in actie in geval van een ramp.

De persoon is vaak een ervaren professional op het gebied van technische support op hoog niveau, maar heeft mogelijk een leidinggevende functie en is niet rechtstreeks betrokken bij de dagelijkse technische ondersteuning.

Team voor herstel van continuïteit van de service

Onder leiding van de SCM is dit team verantwoordelijk voor het uitvoeren van tests en incidentoefeningen en het voortdurend verbeteren van ITSCM. Het team bestaat vaak uit technisch personeel, QA-professionals of gebruikers voor tests, en vertegenwoordigers van afdelingen in de hele organisatie die verantwoordelijk zijn voor het open houden van de communicatielijnen tussen ITSCM en hun teams.

Waarom is ITSCM belangrijk?

Organisaties met duidelijke plannen voor disaster recovery zullen sneller en vollediger herstellen in geval van een ramp.

ITSCM gaat niet over de voorbereiding op alledaagse storingen. Het gaat om scenario's voor de ergste gevallen en voor de zorg die het leven van klanten en werknemers zo min mogelijk verstoren als ze zich voordoen.

Hier zijn drie duidelijke voordelen van een goede ITSCM-praktijk:

  • Als zich een ramp voordoet, zorgt een goed ITSCM-plan ervoor dat essentiële diensten snel weer operationeel zijn;
  • De organisatie is altijd voorbereid op een grote ramp en kan snel en adequaat reageren;
  • Iedereen in het bedrijf begrijpt wat er gebeurt in geval van een ramp en hoe lang systemen naar verwachting niet beschikbaar zijn.

Ontdek hoe ITSCM de kwaliteit van klantenservice verbetert en organisatorische downtime vermindert met Jira Service Management.