ベロシティの高いチームのためのインシデント管理
優れたインシデント タイムラインの作成 (およびそれが重要な理由)
技術が複雑化するにつれ、インシデント管理も複雑になります。また、インシデント管理が複雑になるにつれ、ドキュメントやコミュニケーションも複雑になります。
インシデント タイムラインを採用する企業が増えているのはそのためです。インシデント タイムラインは、一元化されたインシデント アクティビティ フィードとして、インシデント発生中にチームの認識を揃え、インシデント発生後に根本原因を特定し、将来のパフォーマンスを向上させるためにチームが使用できる記録を提供するように設計されています。
インシデント タイムラインとは何か
インシデント タイムラインは、インシデントの完全なリアルタイムの記録です。多くの場合、手動エントリ (チャット)、ページ、アラート、確認の統合された記録、自動システム更新情報 (誰かがインシデントの重大度を変更したことや解決済みとしてマークしたことの通知など) を含みます。また、チャットや Slack チャネルと同期することもよくあります。
タイムラインによって、チームの認識を常に揃えて新しいチーム メンバーと迅速に情報を共有し、インシデントの事後分析のプロセスを簡素化できます。アトラシアンのインシデント管理ソリューションである Jira Service Management では、カスタマイズ可能なプラットフォームで堅牢なタイムラインを構築して作業を追跡できます。インシデント タイムラインにはインシデント解決のスコープ全体の状況を完全に反映させる必要があります。一元化されたアラート、柔軟な自動化、統合されたチャット ツール、コラボレーティブな作業スペースなどの機能を利用して、チームがシームレスに作業を行いインシデントを解決すると、インシデント タイムラインは自動的に記録されます。
「過去、たとえば 3 日間に加えられたすべての変更のリストを入手してください。正確なタイムラインがなければ、因果関係を明らかにできず、おそらく別の停止を引き起こすでしょう」
— 出典: 「The Phoenix Project」、
Gene Kim、Kevin Behr、George Spaffor
インシデント タイムラインの値
単一のリアルタイム ビュー
インシデントが最も早く制御不能になる原因の 1 つは、チームや関係者間のコミュニケーションの欠如です。インシデント タイムラインは、すべてのユーザーに同じ情報をリアルタイムで単一のビューに表示することで、このリスクを軽減します。つまり、インシデントに取り組んでいる開発者から、ユーザーや経営幹部への通知を担当するコミュニケーション チームまで、すべてのメンバーが電話や複数の途切れとぎれのメール スレッド、チャットなどの複雑な手続きなしで、スピードを維持できます。
また、単一のリアルタイム ビューによって、関係者はインシデントの中心的な問題だけでなく、相互接続されたシステムにおけるリスクや潜在的な問題もより簡単に特定できます。複数のチームがタイムラインにアクセスできるようにすることで、相互接続されたシステムにおける潜在的な問題、原因、またはリスクを特定しやすくなります。
より強固なインシデント事後分析
Atlassian では、インシデントの事後分析はインシデントおよびインシデント管理プロセスの不可欠な部分です。事後分析によって人々を結集して、何が起こったのか、なぜ起こったのか、そしてその防止のために何ができるかを把握します。これらの質問の根本を理解するために、アラートから関係者への通知、最終的な修正に至るまで、インシデント中に発生したすべてのことの詳細な記録が役に立ちます。
多くの企業にとって、インシデント タイムラインはその詳細な記録として機能します。これは、インシデントのリアルタイム コラボレーションのためのツールに留まりません。何が、いつ起こったのか、場合によってはそれが起こった理由を単一のビューで表示できるツールでもあり、事後分析レビュー フェーズでチームの時間を何時間も節約できます。
KPI のより深い検討
インシデント タイムラインは、多くの場合、チームが単一のインシデントの根本を理解するのに役立ちますが、有用性はそれだけではありません。同様のインシデントのタイムラインと一緒に使用して、チームがパターンを特定して重要な KPI でより大きな問題を診断するためにも役立ちます。
インシデントの解決に平均以上の時間がかかった場合、障害点はどこにありましたか? 他の同様のインシデントとどのように一致しますか? プロセスのどの部分を詳しく見る必要がありますか? プロセス、技術、またはチームの設定に大きな課題につながるパターンはありますか? アラートは必要に応じて送信されていますか? それともアラートのしきい値を再検討する必要がありますか? オンコール スケジュールは、インシデントを十分にカバーしていますか? チームは正しい方法で構成されていますか?
タイムラインは、レビュー用の単一のデータ ポイント、または SLA および SLO 課題の調査における多数のデータ ポイントの 1 つとして機能します。
インシデント タイムラインと ChatOps の比較
インシデント タイムラインは通常、Jira Service Management などのインシデント管理システム内で提供されて、すべてのインシデント情報を一元化するために使用されます。
インシデント管理の ChatOps の目標も同じです。唯一の違いは、ChatOps はインシデント管理システムではなく、通常、Slack のようなチャット プログラムでタイムラインを一元管理することです。チャット プログラムは、Opsgenie などのインシデント管理プラットフォームやその他の関連するソースと同期して情報を引き出します。
チーム全体の同じ情報へのアクセス、リアルタイムの会話と通知、コンテキスト切り替えの低減、電話のやり取りの排除、事後分析の組み込み記録など、ChatOps のメリットはインシデント タイムラインによって得られるメリットと同じです。主な違いは場所と情報量だけです。ほとんどのインシデント チームでは、通常、ChatOps フィードには重要な情報を囲む多くのノイズがあります。これは、必要に応じて後で参照できるようにチャット ログを保持しながら、インシデント タイムラインに豊富な詳細情報を取り込む上で便利です。
インシデント解決のための ChatOps や Jira Service Management のインシデント管理機能によってチームがメリットを得る方法の詳細については、以下のボタンをクリックしてご確認ください。
Statuspage でインシデント コミュニケーションを学ぶ
このチュートリアルでは、システム停止時にインシデント テンプレートを使用して効果的にコミュニケーションを取る方法について説明します。さまざまなサービス中断に適応可能です。
このチュートリアルを読むインシデントの事後分析プロセスの重要性
インシデント後レビューとも呼ばれるインシデントの事後分析レビューは、インシデント中に何が起こったかを調査して教訓を取り込むのに最適な方法です。
この記事を読む