Close

ベロシティの高いチームのためのインシデント管理

インシデント管理チームは航空業界から何を学べるでしょうか?

飛行機が最も安全な移動手段であり、航空業界が数十年にわたってインシデント管理を積極的に改善していることはよく知られています。実際に、1959 年には、100 万便ごとに、40 件の致命的な事故がありました。10 年後には、その数字は 2 件にまで減少しました。そして現在は 0.1 件です。

一般的には、航空業界におけるリスクはソフトウェア業界よりも高い可能性があります (E コマースの停止によって死亡する可能性の方が、飛行機の機器の故障よりも低いでしょう)。しかし、インシデントの防止と管理の日常的なプラクティスにはそれほど違いがありません。どちらの業界も、リスクを管理してアラートを発行し、アラートによる疲弊の抑制する必要があります。どちらの業界にも、24 時間体制の緊急のニーズに対応するスケジュールが必要です。どちらの業界にも、重大度レベルが異なるさまざまなインシデントがあります。どちらの業界も、KPI を規則正しく追跡しています。そして、どちらの業界も、社会と顧客に対して説明責任を負っています。

そのため、技術者はまず間違いなく、インシデント管理および防止を改善するための航空業界の妥協のないアプローチから 1 つや 2 つの教訓を学べます。ここでは、チームがトップの航空会社から拝借できる 5 つのプラクティスをご紹介します。

インシデント管理を念頭に置いて設計して発売する

航空とテクノロジー業界の両方において、インシデントを念頭に置いた設計は、インシデントの最終的なコストに大きな影響を与える可能性があります。

航空業界では、1988 年の 16G シートの導入によって、頭部や胸部の怪我や、墜落時の変形によって座席に閉じ込められる可能性に対する対策が強化されました。推定されるこのシートのメリット (生存と怪我の回避) は、25 年間で総額 7,890 万ドルとなりました。そして、これはすべて、インシデントの可能性をこの計算に入れた設計の賜物です。

テクノロジーの世界では、「構築した者が運用する」という考えの高まりから同じようなメリットを得られています。この考えでは、開発とインシデント管理の責任を統合します。このアプローチの有益な結果の 1 つは、テクノロジーの構築を任されたチームが、インシデントのリスクをより強く認識し、リスクを防止してその影響を最小限に抑えるために取り組む可能性が高くなることです。

自動化してエラー発生の可能性を減らす

パイロットのミスは、航空災害の最も一般的な原因として挙げられています。ソフトウェア・インシデントと IT インシデントでは、人間がしばしば非難の的になります。自動化はどちらの業界でも有用であり、さまざまな業界のエラーを大幅に削減することが証明されています。このため、航空業界が毎年自動化を進めつつあることは意義あることであり、すでに自動操縦が操縦の約 90% を占め、完全な自動化オプションもテストされています。

人的ミスは多発しやすいという性質があることも、Atlassian の事後分析「このようなことの再発を防ぐために自動化できることはないか」と自問する理由の 1 つとなっています。これは多くの場合、課題は簡単な技術的修正で回避できるからです。

このことを示す典型的な例が、ここ Atlassian で数年前に起こりました。

「あるエンジニアが重要な機器の構成ファイルの構文について大きな間違いを犯して、会社全体の業務が 45 分間停止しました。数値化すれば、何十万ドルもの損失です。人間は間違いを犯すものであり、それ自体は回避できません。問題は、人的ミスを減らす方法です。

「結局、シンプルで永続的な修正は、ロード前に構成ファイルに対して自動で『開始するかどうか』を確認するメッセージを表示して、最終的にシステムの構成に対する人間による介入を完全に排除することでした。現在、停止の原因となった課題は、迅速な技術的な修正によって防止されています」

優先順位を明確に定義して、それに基づいてアラートを設計する

航空業界が優れていることが 1 つあるとしたら、優先順位を確実に絞り込んでいることです。なぜなら、緊急事態であっても、他の課題よりも緊急性が高い課題が存在することが事実であるからです。飛行機が墜落する危険があるときにパイロットが確実に明確に理解しておくべきことは、どの緊急事態にどのような順序で注目する必要があるか、ということです。

このため、コンピューターはあらゆる時点で飛行機内の 10,000 を超えるデータ ポイントを追跡していますが、1 つのアラートでさえ、パイロットに伝えられるのは、すべてのフライトのうち 10% のみです。窓の氷結防止器が高設定から中設定に変更されたことをパイロットが知る必要があるでしょうか? 油圧ポンプの 1 つが故障したために、飛行機や飛行経路に影響を与えないように別の油圧ポンプが使われていることをパイロットが知る必要があるでしょうか? 航空業界の専門家によると、これらの答えはすべて否です。

エンジンの故障や客室与圧の課題などの場合にアラートが必要で、コックピットに表示された場合、これらの優先順位は非常に明確です。これらは、テキストや赤のライトなどの視覚的な合図だけでなく、操縦桿の振動や音声での警告などの音声や物理的な合図によっても示されます。

ご推察のとおり、最も高いアラート レベルには最も多くの合図が適用されます。飛行機が急降下しようとしているときは、パイロットは赤のテキスト メッセージとライト、音声警告、操縦桿の振動で通知されます。

これより 1 段階低いレベルでは、操縦桿の振動を除いて、上記のすべてが提供されます。もう 1 段階低いレベルでは、ライトとテキスト メッセージが黄で表示されます。さらに 1 段階低いレベルでは、パイロットのアクションは不要で、画面上に単に黄のテキスト メッセージが表示されるだけです。このように、パイロットが何に注目すべきかを簡単に理解できるように厳格な階層が設けられています。

アラートのしきい値を高く設定する

アラートの優先順位を明確に示すことに加えて、航空業界は、アラートにする必要があるのは何か、そして、絶対にアラートにしてはならないものは何かを理解することに非常に優れています。

最優先レベルは、最悪の緊急事態専用として予約されています。これは、パイロットが即座に決定的なアクションをとらなければ、飛行機が墜落する緊急事態です。

警告と呼ばれる第 2 の優先度の課題の場合も、パイロットの即時のアクションが必要ですが、まさにその瞬間に飛行機が墜落するようなことはありません。これには、客室与圧の低下や、飛行機が衝突する危険のある飛行経路の交錯などが含まれます。

第 3 階層は注意です。これをパイロットが認識する必要がありますが、即時の対応は不要です。そして、ここが、航空業界の厳然たる階層設定が明らかになるところです。というのも、エンジン火災や 1 つのエンジンの故障でさえ、単なる注意に該当する場合があるからです

このように、優先順位付けに対する妥協のないアプローチは、航空業界がアラートによる疲弊の抑制に努めるだけでなく、乗客をより安全に保つ上で役立っています。

プレイブックとチェックリストを備えておく

アラートが鳴り、パイロットが空調装置の故障 (これは、客室与圧の低下につながる可能性があります)、あるいはエンジンの 1 つが危険にさらされていることを知った場合、航空業界ではインシデントを解決するためにそのパイロットが受けた訓練に頼るようなことはしません。

パイロットが受けた訓練が効果を発揮し始めるような状況では、次のステップを直接連絡する方が安全です (迅速であることは言うまでもありません)。このため、コックピット アラートには次のステップのチェックリストがあり、特定のアラートと一致するように設計されています。正確には自動ではありませんが、この方法にも同様のメリットがあります。誰かが受けた訓練に完全に依存するのではなく、課題を修正する可能性が最も高いものがパイロットに明確に示されるのです。

航空業界の IM プラクティスの最適化への取り組みにより、テクノロジーを含む他の分野がインシデントの対応と管理を継続的に改善できる方法を明確にしています。

Jira Service Management がインシデント発生後のチームの対応、解決、継続的な改善に役立つ方法についてご確認ください。