Close

ベロシティの高いチームのためのインシデント管理

アラートによる疲弊を理解して対処する

2013 年、米国屈指の病院の 1 つで 16 歳の少年が適正用量の 3,800% の薬剤を過剰投与されました。

この病院の内蔵アラート システムによって過剰投与の処方が検知されて、医師と薬剤師にアラートが送信されました。しかしそのすぐ後に過剰投与が行われて、少年の生涯にわたる発作、全身のしびれ、苦闘が始まることとなりました。

オンコール ブック PDF プレビュー

オンコール ブックをダウンロードする

このエッセンシャル ガイドで効果的なプログラムを作成して実装する方法を学ぶ

少年の元に薬剤が届く前に安全システムが問題を検知したにもかかわらず、どうしてこのようなことが起こったのでしょうか?

その答えは、アラートによる疲弊です。

医師と薬剤師は両者とも、システムのアラートを無視しました。医師らが毎日扱う何百もの処方のうち約 50% に対して、同じシステムによりアラートが生成されるためです。医師らはこれらのアラートのほとんどが誤検出であることを知っており、対処メカニズムとして、せいぜいアラートにざっと目を通すだけになり始めていました。

そのため、1 錠の錠剤を服用するはずだった少年は 38 錠を服用しました。彼は最終的に命を取り留めましたが、彼の健康に重大な結果をもたらしました。

このような話は病院や航空業界では一般的であり、往々にして人命にかかわる事故につながります。実際に 2013 年の調査では、20 の病院のうち 19 の病院がアラートによる疲弊を最も重要な安全上の懸念事項として位置付けていることが分かりました。

また、リスクは異なりますが、アラートによる疲弊は IT チームや DevOps チームにとってもよくある問題です。これらのチームは、ビジネスを推進する常時稼動テクノロジーを監視しているためです。

アラートによる疲弊とは?

アラームによる疲弊とも呼ばれるアラートによる疲弊は、大量のアラートに対応する担当者の感覚が鈍化して、アラートの見逃しまたは無視、対応の遅れが発生する状態を指します。

ほとんどの場合、主な問題はアラートの数が非常に多いことです。単一のアラートであれば、通常の業務やオンコール対応従業員の自由時間を中断したとしても、簡単に対応できます。しかし、多数のアラートが連続すると、対応が困難になります。この数が増加するほど、従業員が重要な何かを見逃す可能性が高くなります。

この課題は、多くのアラートが誤検出であるという事実によってさらに悪化します。医療業界では、すべての臨床アラームの 72% から 99% が誤報であることが調査によって示されています。セキュリティについては、アラートの 52% が誤報であって 64% が不要であることがある調査によってわかりました。

この多数の誤アラートのために、作業者はほとんどのアラートが誤報であるとみなし、それに応じて行動することに慣れていきます。まさに、前述の医師と薬剤師の両者がシステムの過剰投与のアラートを、別の重要でないアラームだとみなして切ってしまったのと同様です。

アラートによる疲弊の 3 つのステージ
インシデントによる疲弊の 3 つのステージ

アラートによる疲弊の心理学

アラートによる疲弊は、病院の安全に関する懸念事項の上位 10 件の 1 つです。その理由は、頻繁に鳴るアラームを頭の中で切ってしまうことは、大量のアラートに対する典型的な心理的反応であるためです。

この理由は、正常化、鈍感化、または習慣化と呼ばれるもので、これら 3 つの概念は本質的に同じ意味です。何かに晒されるほど、それを許容して正常化し、無視するということです。

これは、仕事と仕事以外の生活の両方に当てはまります。たとえば、極端にしつこい主演男優が登場するロマンチックな映画は、実生活におけるストーカー行為に対する女性の許容性に明らかに影響を与えます。スペース シャトル チャレンジャーの主要な O リングに関する無関心が正常化されたことにより、1986 年のチャレンジャー号の爆発につながりました。アリゾナ州のペトリファイド フォレスト国立公園で、公園の珪化木が盗まれるのを阻止しようと標識を立てた際、標識が裏目に出て、盗難が正常化されて増加する結果となりました

いたずら通話が無限に繰り返されると、番号をブロックしたり電話を切ったりするのと同様に、誤報、不要なアラーム、または重要でないアラームが無限に繰り返されると、多くの場合は無視されるようになります。それが人間の本質です。

またここでは一般的なアラートの正常化だけでなく、職場でのアラートの正常化について説明しています。同じアラートが繰り返されると、アラートによる疲弊はさらに大きくなります。ある研究によると、臨床医がアラートを受け入れる確率は、リマインダーごとに 30% 低下することがわかりました。

アラートによる疲弊のリスク

アラートの見逃し、または無視

前述の不幸な十代の入院患者の例のように、アラートによる疲弊の最も大きなリスクはアラートの見逃しや無視です。アラート システムによって誤報が繰り返されたり、危険なアラート (3,800% の過剰投与など) が軽微なアラート (0.1% の過剰投与など) と区別されなかったりすると、作業者はそれらのアラートにそれほど注意を払わないように自分自身を調整してしまいます。

これにより、DevOps および IT 運用では、より多くのインシデントが発生し、収益、コスト、ブランド評価のすべてにおいて重大な結果となることがあります。

対応の遅れ

またアラートによる疲弊は、対応時間にも影響します。アラートを見逃したり完全に無視されたりしないとしても、一時的に無視する場合があります。結果的に、最後に受信した 10 件のアラートが誤検出だった場合、オンコール担当の従業員は、最初に受け取ったアラートと同様に 11 番目のアラートのために夕食や睡眠を放棄するでしょうか? それとも、先に夕食を終えることを正当化するでしょうか?

燃え尽き症候群

絶え間ないアラート、睡眠の中断、いっぱいになった受信トレイは、従業員が燃え尽き症候群になる原因であり、離職率の上昇、仕事の満足度と生産性の低下につながる可能性があります。

アラートによる疲弊を防止する方法

アラートによる疲弊はさまざまな業界において重大な問題であり、悲惨な結果を招く一因でもあります。では、アラートの見逃し、インシデントへの対応の遅さ、従業員の燃え尽き症候群をどうすれば回避できるでしょうか? 専門家は、アラートのプロセスとポリシー自体を促進するように示唆しています。

インテリジェントなしきい値の設定

オンコールの専門家がアラートに圧倒されないようにする方法の 1 つは、アラートにインテリジェントなしきい値を設定することです。ここで重要な質問は、すべてのアラートに対して即時の対応が必要かということです。すべてのアラートは同等に作成されていますか? 即時にアラートが必要な課題や、通常の勤務時間中に対応できる課題はどれですか?

その答えは、常にバランスを取ることです。アラートの数が少なすぎるとインシデントを見逃している可能性がありますが、多すぎる場合もアラートによる疲弊によってインシデントを見逃す可能性があります。

バランスを取ることは、あらゆるテクノロジー企業にとって簡単ではありません。しかしこのバランスを見つけようとしなければ、システムは通常、アラートの数が多過ぎて失敗する傾向にあり、3,800% の過剰投与となってしまったような状況が生まれてしまいます。

航空業界は、アラートによる疲弊との闘いに先鞭をつけて成功しているように見えます。その理由の一端は、しきい値を高く設定していることにあります。コンピューターは 10,000 を超えるデータ ポイントを追跡できますが、何らかのアラート (軽微なアラートを含む) があるフライトの割合は 10% を下回っています。

「Sully」こと Chesley Sullenberger 機長は、Medium Backchannel の記事で次のように指摘しています。

「現在、コックピットでの警告には優先順位が付けられているため、アラートによる疲弊は生じません。私たちは、誤検出を回避するように懸命に取り組んでいます。というのも、誤検出は、あらゆる警告システムで起こり得る最悪の事態の 1 つだからです。誤検出によって、人々は警告に耳を貸さなくなってしまいます」

階層アラートの優先順位の設定

すべてのアラートが同等に作成されていなければ、アラートが医師の承認フォーム、開発者の受信トレイ、またはパイロットの計器盤に同等に表示されることはありません。アラートの優先順位を設定して、視覚的、可聴的、感覚的な指示を利用して重要性を示すことで、アラートによる疲弊を大幅に軽減できます。

3,800% の過剰投与の場合、その問題の重要な部分としては、システムでのアラートのしきい値が非常に低く、すべてのアラートに同等の優先順位が付けられていたことです。0.1% の過剰投与アラートが、3,800% の過剰投与アラートと同じように見えていました。投薬リクエストの 50% でこれらのアラートが生成されていたため、臨床医はそれらをすべて無視するようになりました。

繰り返します。航空業界では優先順位に階層を積極的に設定するだけでなく、さまざまな視覚的、感覚的な指示を利用して優先順位を明確に示しています。赤色のライト、赤色のテキスト メッセージ、音声警告、操縦桿の振動を伴う赤色のアラートがパイロットの計器盤に表示されるのは、飛行機が失速する危険に晒されて、パイロットが直ちに措置を講じる必要がある場合のみです。このようなアラートが無視されることがないように、これらのアラートは独自の特別なカテゴリに分類されています。

その他のアラート (頻繁に飛行機に乗る搭乗者でも不安になるエンジン火災やキャビン圧力の損失などのアラートでさえも) は、警告 (飛行機の飛行経路に影響を与える事象)、注意 (パイロットが即時に認識する必要があるが、即時の行動は不要な事象)、勧告 (行動は不要だが、パイロットは何かが起きたことを知る必要がある事象) に格下げされます。

アラートの重要性が低下すると、そのアラートに関する視覚的、可聴的、感覚的な指示の重要性も低下します。警告は、赤色のライト、テキスト メッセージ、音声警告に値します (ただし、操縦桿の振動には値しません)。注意では通常、黄色のライトとテキスト メッセージが表示されます。勧告では、黄色のテキスト メッセージだけでライトは表示されません。

パイロットはこれらの指示に基づいて、別の重要なタスクや優先順位付けが必要な一連のアラートを処理している場合に、優先的な注意が必要なアラートと、少しの間なら無視してもよいアラートを瞬時に判断できます。

実用的なアラートの実現

不明瞭なアラートには、特定の実用的なアラートよりも集中し、注力し、時間をかける必要があります。膨大な数のアラートによってすでに疲弊している作業者がそれ以上に集中して注力するように要求されると、生産性が低下してアラートを見逃す原因となります。

これは、航空業界から学び取れるもう 1 つの教訓です。パイロットの計器盤に表示されるアラートの種類ごとに、アラートと一致する実用的なチェックリストも用意されています。

冗長アラートの統合

冗長なアラートは、アラートによる疲弊の主な原因の 1 つです。ある研究によると、同じアラートのリマインダーごとに、アラート受信者の注意力が 30% 低下することがわかりました。別の研究によると、セキュリティ システムの全アラートのうち 60% 以上が冗長であることがわかりました。

これらのアラートを統合してできる限りリマインダーを減らすことで、アラートの量を管理しやすくなるため、作業者の注意力が向上します。

バランスの取れたスケジュールの作成

インテリジェントなしきい値と階層システムがあっても、企業 (特に大企業) では多数のアラートを処理している場合があります。

システムを最適化したら、プロセスとスタッフを確認することも有益です。オンコールの専門家は十分確保していますか? アラートの負担が 1 人または 1 つのチームに重くかかりすぎていませんか? その負担は共有できますか? アラートの頻度はどれくらいですか? アラート対応がより必要である、またはより少なくて済む特定の時間帯はありますか?

情報の統合

一般的な DevOps プロフェッショナルは、少なくとも 5 つのツールを利用してパフォーマンスの課題の根本原因を把握します。つまり、アラートの場所、スタイル、タイプは複数存在するということです。また、重複作業も多数存在します。5 つのシステムのそれぞれに同様のアラートがある場合、アラートのレビューのワークロードは実質的に 500% 増加しています。

アラートと情報をさらに統合できれば、これらのアラートおよび付随する情報を選り分ける際の疲労をさらに軽減できます。

継続的なレビューと改善の優先順位付け

アラートによる疲弊とそれに伴う危険性に対する万能な修正方法はありません。プロセス、アラート、システムを定期的に見直して、適切なバランスが取れていることを確認することが重要です。

アラートは見逃されていますか? 見逃されている場合、それはなぜですか? しきい値の設定が高すぎたり低すぎたりしていませんか? 視覚的な指示が機能していませんか? 作業者はアラートを正常化しており、その設計を変更すると注意力が高まるでしょうか? 上述の質問やこれに類似する他の質問を、定期的に振り返る必要があります。

Jira Service Management と Opsgenie を統合するメリットを確認し、アラートの柔軟性とカスタマイズが実際にどのように機能するかをご覧ください。