Close

Incidentmanagement voor razendsnelle teams

Wat kunnen incidentmanagementteams leren van de luchtvaart?

Het is een bekend feit dat vliegen de veiligste manier van reizen is en dat de luchtvaart haar incidentmanagement al tientallen jaren agressief verbetert. In 1959 waren er voor elke miljoen vluchten 40 dodelijke ongevallen. Tien jaar later was dat aantal gedaald tot twee. Vandaag is dat 0,1.

Over het algemeen gesproken kan de inzet hoger zijn in de luchtvaart dan in software (we zullen waarschijnlijk minder snel sterven aan een uitval in e-commerce dan een storing in vliegtuigapparatuur), maar de dagelijkse praktijk van incidentpreventie en -management verschilt niet veel. Beide sectoren beheren risico's, geven waarschuwingen af en moeten waarschuwingsmoeheid tegengaan. Beide sectoren hebben planningen nodig die 24 uur per dag aan dringende behoeften voldoen. Beide sectoren hebben incidenten met verschillende ernstniveaus. Beide volgen KPI's strikt. En beide worden verantwoordelijk gehouden door het publiek en hun klanten.

Daarom kan de techsector waarschijnlijk het een en ander leren van de compromisloze aanpak van de luchtvaart om hun incidentbeheer en -preventie te verbeteren. Hier zijn vijf werkwijzen die je team kan stelen van grote luchtvaartmaatschappijen:

Ontwerp en lancering met het oog op incidentmanagement

In zowel de luchtvaart als de technologie kan ontwerpen met incidenten in het achterhoofd een grote impact hebben op de uiteindelijke kosten van die incidenten met zich mee brengen.

In de luchtvaart zorgde de introductie van 16G-stoelen in 1988 voor extra bescherming tegen hoofd- en borstletsel en de mogelijkheid om vast te komen zitten in een stoel als deze tijdens een crash vervormt. Het geschatte voordeel van deze stoelen, in geredde levens en voorkomen verwondingen, bedroeg over 25 jaar $ 78,9 miljoen. En dat allemaal vanwege het ontwerp dat rekening houdt met de mogelijkheid op incidenten.

In de technische wereld halen we een vergelijkbaar voordeel uit de opkomst van 'je bouwt het, je voert het uit' waarbij de verantwoordelijkheden van ontwikkeling en incidentmanagement worden samengevoegd. Een van de positieve resultaten van deze aanpak is dat de teams die belast zijn met het bouwen van de technologie zich meer bewust zijn van incidentrisico's en eerder zullen proberen deze te voorkomen en de impact van incidenten te minimaliseren.

Automatiseren om de kans op fouten te verkleinen

'Pilot error' wordt vermeld als de meest voorkomende oorzaak van luchtvaartrampen. Voor software- en IT-incidenten krijgen mensen vaak de schuld. Automatisering kan in beide kampen helpen en het is, in veel sectoren, bewezen dat het fouten aanzienlijk vermindert. En dus is het volkomen logisch dat de luchtvaart elk jaar steeds meer overgaat op automatisering. De automatische piloot doet al ongeveer 90% van het vliegwerk en volledig geautomatiseerde opties worden getest.

Doordat menselijke fouten zo vaak voorkomen stellen we ons bij Atlassian de volgende belangrijke vraag in onze postmortems: is er iets dat we kunnen automatiseren om te voorkomen dat dit opnieuw gebeurt? Omdat een probleem vaak kan worden vermeden met een eenvoudige technische oplossing.

Een paar jaar geleden gebeurde er bij Atlassian iets wat hier een goed voorbeeld van is:

"Een ingenieur maakte een grote fout met de syntaxis van een configuratiebestand voor kritieke apparatuur en het hele bedrijf lag 45 minuten lang plat. Als je dat kwantificeert, hebben we het over honderdduizenden dollars ... Mensen maken fouten. Daar kun je niet omheen. De vraag is hoe we menselijke fouten kunnen voorkomen?"

"Uiteindelijk was de eenvoudige, permanente oplossing het uitvoeren van een geautomatiseerde 'start het op'-controle op het configuratiebestand voordat het werd geladen, en uiteindelijk het verwijderen van alle menselijke interactie met de configuratie van het systeem. Het probleem dat de uitval veroorzaakte, wordt nu voorkomen door een snelle technische oplossing."

Prioriteiten duidelijk definiëren en waarschuwingen eromheen ontwerpen

Als er één ding is waar de luchtvaartindustrie in uitblinkt, is het meedogenloos verkleinen van prioriteiten. Want de waarheid is dat zelfs in een noodsituatie sommige kwesties urgenter zijn dan andere. En als een vliegtuig het risico loopt neer te storten, wil je dat je piloot heel duidelijk weet welke noodsituatie zijn aandacht vereist en in welke volgorde.

Dit is de reden waarom, hoewel de computer op elk moment meer dan 10.000 datapunten in een vliegtuig volgt, slechts 10% van alle vluchten zelfs maar één waarschuwing naar de piloot geeft. Moet de piloot weten dat die raamontdooier verandert van een hoge naar een gemiddelde instelling? Moeten ze weten dat de ene hydraulische pomp is uitgevallen en een andere het heeft overgenomen, zonder impact op het vliegtuig of de vliegroute? De antwoorden zijn volgens luchtvaartexperts nee en nee.

Wanneer waarschuwingen nodig zijn, in het geval van een motorstoring of een probleem met de cabinedruk, en in de cockpit verschijnen, zijn hun prioriteitsniveaus heel duidelijk. Ze worden niet alleen visueel aangegeven zoals via tekst en rode lichten, maar ook door audio- en fysieke signalen zoals een trillend stuurmechanisme en gesproken waarschuwing.

Het hoogste waarschuwingsniveau heeft, zoals je zou verwachten, de meeste signalen. Als je vliegtuig op het punt staat een duikvlucht te maken, krijgt de piloot een rood bericht, rode lichten, een spraakwaarschuwing en een schuddend stuurmechanisme.

Een niveau lager omvat alles wat hierboven vermeld is, behalve een schuddend stuurmechanisme. Nog een niveau lager worden lichten en berichten in het geel weergegeven. En weer een niveau lager, hier is geen actie van de piloot vereist, wordt er alleen een eenvoudig geel bericht op het scherm weergegeven. Het is een nauwgezette hiërarchie die het voor piloten eenvoudig maakt om te weten waar ze op moeten letten.

Drempels voor alarmmeldingen hoog instellen

Naast prioriteit duidelijk aangeven in hun waarschuwingen, is de luchtvaartindustrie erg goed in het begrijpen van wat een waarschuwing moet inhouden, en wat absoluut niet.

Het hoogste prioriteitsniveau is gereserveerd voor alleen de ergste noodsituaties: het soort noodsituatie waarbij als de piloot geen onmiddellijke en definitieve actie onderneemt, het vliegtuig naar neerstort.

De tweede reeks prioritaire kwesties, bekend als waarschuwingen, vereist ook onmiddellijke pilootactie, maar ze zijn niet zo erg dat het vliegtuig op dat moment neergaat. Dit omvat zaken als verlies van cabinedruk of een verkeersconflict waardoor een vliegtuig in botsing dreigt te komen.

Het derde niveau is een waarschuwing, waarvoor bewustzijn van de piloot vereist is, maar geen onmiddellijke reactie. En dit is waar de meedogenloze niveau-instellingen van de luchtvaart duidelijk worden. Omdat zelfs een motorbrand of een enkele motorstoring alleen maar een waarschuwing krijgt.

Deze compromisloze benadering van prioritering heeft de luchtvaart geholpen om waarschuwingsmoeheid tegen te gaan en passagiers veiliger te houden.

Draaiboeken en checklists bij de hand houden

Wanneer een waarschuwing klinkt en de piloot ontdekt dat de airconditioningunit is uitgegaan (wat kan leiden tot een daling van de cabinedruk) of een van de motoren in gevaar is, vertrouwt de luchtvaartindustrie niet op de training van die piloot om het incident op te oplossen.

Want hoewel de training van de piloot een rol speelt, is het veiliger (om nog maar te zwijgen van sneller) om de volgende stappen rechtstreeks te communiceren. Daarom worden cockpitwaarschuwingen geleverd met een checklist met de volgende stappen, ontworpen om overeen te komen met de specifieke waarschuwing. Hoewel het niet compleet automatisering is, heeft deze aanpak een vergelijkbaar voordeel. In plaats van volledig te vertrouwen op iemands training, beschrijft het systeem waarmee het probleem het waarschijnlijkst wordt opgelost.

De toewijding van de luchtvaart aan het optimaliseren van IM-werkwijzen werpt licht op hoe andere vakgebieden, waaronder de technologie, hun incidentrespons en -management voortdurend kunnen verbeteren.

Lees meer over hoe Jira Service Management teams kan helpen reageren, oplossen en voortdurend verbeteren nadat zich een incident heeft voorgedaan.