Opsgenie のアラート機能とオンコール機能が、Jira Service Management と Compass で利用できるようになりました。当社の自動移行ツールを使用して、2027 年 4 月 5 日までに既存の Opsgenie のデータと構成を移行してください。

インシデント対応のベストプラクティスとヒント

インシデント管理改善への道はここから始まります

ジャーニーを始める

インシデントの影響は、毎分数十、数百、数千ドルの損失によって測れます。組織は非常に多くの危機にさらされているため、インシデント対応のベストプラクティスを急速に進化させています。

インシデント管理プロセスを常に繰り返していないと、誤って管理されたインシデント、不要な遅延、付随するコストのリスクに晒されます。

ここでは、一般的なベストプラクティスとヒントと、それほど一般的ではないものをいくつか紹介します。

1. 常に備えておく

インシデント対応者が「備える」には、チームが最小限の遅延時間でアクセスする必要があるすべての重要な情報が必要です。たいていはデジタルドキュメントですが、インシデント対応者にとっては一元的な開始ポイントとして役立つでしょう。

これにはさまざまなものが含まれます。

インシデント対応計画
連絡先リスト
オンコールスケジュール
エスカレーションポリシー
会議ツールへのリンク
アクセスコード
ポリシードキュメント
テクニカルドキュメントとランブック

2. ランブックに従う

ランブックは、特定のシナリオでどのようなステップを実行すべきかについてのガイダンスを示すものです。システムエキスパートがすぐに対応できない場合にオンコールローテーションに取り組んでいるチームにとっては、ランブックが特に重要です。しっかり整理された一連のランブックがあれば、チームはより迅速に対応できるようになり、インシデント対応プラクティスの共有ナレッジベースを構築できます。

3. カオスを受け入れて安定を促進する

カオスエンジニアリングは、システムをより堅牢に構築する方法を理解するために故意に障害を組み込んで、システムを実験する手法です。その一例が Chaos Monkey です。もともと Netflix で開発された Chaos Monkey は、本番システムを意図的にオフラインにすることでネットワークの復元性をテストするツールです。

4. NOC の枠に囚われずに考える

従来、NOCs (Network Operations Centers) は、大規模な IT システムの監視およびアラートハブとして機能していました。このプロセスは、最新のインシデント管理ツールによって大幅に合理化できます。定義されたアラートタイプ、チームスケジュール、エスカレーションポリシーに基づいてアラート配信ワークフローを自動化することで、人的ミスや遅延の可能性を回避できます。

5. 悪化させるのではなく集約する

複数の監視ツールからアラートの集中砲火を受けるほど最悪の事態はないでしょう。アラートのフローを 1 つのツールで一元化すれば、ノイズをより適切にフィルターできるため、チームは注意を向けるべき課題にすばやく集中できます。

6. 知識は力であることを念頭に置く

基本的なアラートは何か問題があることを伝えてくれますが、必ずしもそれが何であるかを表しているとは限りません。このため、チームが原因を調査して特定する必要があるときに、不要な遅延が生じます。アラートがトリガーされた理由に関する技術的な詳細をアラートと組み合わせることで、修復プロセスをより迅速に開始できるようになります。

7. アラートに関するアラートを用意する

「quis custodiet ipsos custodes (誰が見張り役を見張るのか)」というラテン語の慣用句は、普遍的な問題を突きつけています。IT チームと開発者チームが採用する監視ツールは、保護する対象であるシステムと同じくらいインシデントやダウンタイムに対して脆弱です。総合的なアラートプロセスを採用すると、システムとそれらを監視するツールの両方の正常性を常にチェックできます。

8. 被害を抑える

トリアージを行う医師は、発生する事態をすべて解決しようとして行き詰まってしまうと、さらに大きな危険が生じることを承知しています。このような医師は、救急処置に対応した施設への移動に間に合うだけ患者を安定させる、短期的な措置に焦点を当てています。技術分野では、封じ込め措置は一時的なソリューション (ネットワークの分離、ビルドの回帰、サーバーの再起動など) に重点を置いています。これらのソリューションによって、少なくともインシデントのスコープを限定するか、可能であればシステムをオンラインに戻します。

9. 1 人で進めない

IT チームと DevOps チームにおけるヒーローを崇める文化は、すたれつつあります。システムをオンラインに戻せる唯一の人物であっても、ただ 1 人のエンジニアが夜間と週末の勤務を際限なく続けることは、もはや時代遅れです。代わりに、チームがまさにチームとして働くのです。このチームの鎖全体の強度は最も弱い輪の強度と等しいため、たった 1 人の超人を育成するのではなくチーム全体を育成することに取り組む必要があります。

10. 透明性を高める

ユーザーがサービスの中断に遭うと、このインシデントがただちに公開されることがよくあります。これに先んじて対処するには、チームがインシデントコミュニケーション計画を実施する必要があります。その目標は、中断が発生していることを公表することで顧客の信頼を得て、それを解決するための措置が取られていることを顧客に保証することです。このような情報の配信には、Statuspage などのツールが最適です。

11. 失敗から学ぶ

IT チームと DevOps チームの「重大な機能停止」の見直しにしか時間を割けないという声は、大きくなっています。ここから開始することをお勧めしますが、長引く影響をもたらす可能性のある小さなインシデントが見落とされることが多々あります。すべてのインシデントについて詳細なレポートが必要なわけではありませんが、事後分析は必ず役に立ちます。

12. 根本原因を見つける (根本原因がありません!)

本当に根本原因はあるのでしょうか? インシデントを分析する際は、特定可能な「根本」原因を 1 つ名指しできることは稀です。多くの場合、システムは複雑で相互に依存しすぎているため、インシデントの唯一の根本原因を定義できません。根本原因が明らかな場合でも (たとえば、アプリケーションをクラッシュさせるキーストロークのエラー)、たいていは、アプリケーションのクラッシュを許してしまった (またはそれを妨げなかった) 外部要因を理解することに意味があります。複数の根本原因を探して、インシデントをより深く理解してください。

13. 誰も責めない

インシデントの事後分析の目的は、何がうまくいかなかったか、将来同様のインシデントを避けるために何ができるかを理解することです。重要なのは、このプロセスを使用して誰かに責任をなすりつけるべきではないということです。なぜなら、「何が」ではなく「誰が」に焦点を当てているチームが感情に任せて分析すると、何が起こったのかを真に理解することから分析の対象が離れていってしまうからです。

最後に

最新のインシデント管理環境では、変化のみが常態化しています。つまり、システムは絶え間なく、さまざまな新しい形で継続的にストレスを受けています。このことを理解しているチームは、それ事態が問題なのではなく、システムにいつ障害が発生するかが問題なのだということも理解しています。これらの障害に備えるための措置を講ずることを継続的な成功の重要な要素として認識して、エンジニアリングチームの DNA に組み込む必要があります。

Jira Service Management などのインシデント管理ソリューションは、オンコールスケジュールやアラートの整理からチームをまとめてコラボレーションを向上し、インシデントの事後分析を行うことまで、上記の 13 の各ポイントをサポートします。

Jira Service Management を無料でお試しください

推奨

チュートリアル

Opsgenie を使用したオンコールスケジュールの設定

このチュートリアルでは、オンコールスケジュールの設定、オーバーライドルールの適用、オンコール通知の設定などの方法を学習します。すべて Opsgenie 内で行います。

このチュートリアルを読む

インシデント指揮官のロール

これらのリソースとベストプラクティスを活用して、インシデント指揮官とは何か、なぜ企業にインシデント指揮官が必要なのか、インシデント指揮官は何を行うのか、どうすればインシデント指揮官になれるのかをご確認ください。

この記事を読む

インシデント管理についてもっと学ぶ

その他のインシデント管理ガイドとリソースについては、このハブをご確認ください。

詳細を見る

おすすめのアプリ

Atlassian Collections

Rovo

ユース ケース別

チーム別

サイズ別

業界別

Rovo

サポート

リソース

おすすめのアプリ

Jira

Confluence

Jira Service Management

Atlassian Collections

Rovo

Rovo

Rovo

Rovo

Rovo

Rovo

ユース ケース別

チーム別

サイズ別

業界別

Rovo

Jira

Confluence

Jira Service Management

ユース ケース別

チーム別

サイズ別

業界別

Rovo

インシデント対応のベスト プラクティスとヒント

インシデント管理改善への道はここから始まります

1. 常に備えておく

2. ランブックに従う

3. カオスを受け入れて安定を促進する

4. NOC の枠に囚われずに考える

5. 悪化させるのではなく集約する

6. 知識は力であることを念頭に置く

7. アラートに関するアラートを用意する

8. 被害を抑える

9. 1 人で進めない

10. 透明性を高める

11. 失敗から学ぶ

12. 根本原因を見つける (根本原因がありません!)

13. 誰も責めない

最後に

推奨

Opsgenie を使用したオンコール スケジュールの設定

インシデント指揮官のロール

インシデント管理についてもっと学ぶ

ユースケース別

ユースケース別

ユースケース別

インシデント対応のベストプラクティスとヒント

Opsgenie を使用したオンコールスケジュールの設定