ベロシティの高いチームのためのインシデント管理
インシデントへの対応
次のセクションでは、アトラシアンのインシデント対応プロセスを説明します。インシデントマネージャー(IM)は、インシデントの検出から解決まで、この一連のステップを管理します。
Jira フィールド | タイプ | ヘルプテキスト |
概要 | Text | どのような緊急事態が発生しましたか? |
説明 | Text | 顧客への影響は何ですか? 対応者が連絡を取れるように、連絡先の詳細を記入してください。 |
重大度 | 1 つを選択 | (重大度スケールを記載した Confluence ページへのハイパーリンク)重大度 2 または 1 を選択するということは、このインシデントを直ちに解決しなければならないことを意味します。スタッフが呼び出されます。 |
不具合のあるサービス | 1 つを選択 | インシデントの原因となっている不具合のあるサービス。不確かな場合は、できる限りの推測をしてください。見当がつかない場合は「不明」を選択してください。 |
影響を受ける製品 | チェックボックス | どの製品がこのインシデントの影響を受けていますか? 該当するものをすべて選択してください。 |
インシデントが作成されたら、インシデントについてのすべての内部コミュニケーションに課題キーが使われます。
多くの場合、顧客は自分が影響を受けているインシデントに関するサポートケースを開きます。カスタマーサポートチームは、これらのケースがインシデントに関係するか判断します。顧客への影響を追跡したり、インシデントが解決されたときに、顧客へのフォローアップが容易に行えるように、インシデントの課題キーでそれらのケースにラベリングします。
重大度 | 説明 | 例 |
1 | 非常に大きな影響がある重大なインシデント |
|
2 | 重大な影響がある深刻なインシデント |
|
3 | 影響の少ない軽微なインシデント |
|
インシデントの影響を確認したら、インシデント課題の重大度を調整または確定し、チームに重大度を伝えます。重大度レベルを数字で表すことは、重大度を明確に伝えるのに非常に有益です。
アトラシアンでは、重大度 3 のインシデントはデリバリーチームが営業時間内で対応しますが、重大度 1 と 2 では即時の修正が必要なのでチームメンバーを呼び出します。重大度 1 と 2 の対応の違いは微妙で、影響を受けるサービスによって異なります。
インシデントの顧客への影響に基づいて一貫した対応ができるように、重大度マトリックスを文書化し、チーム全体で同意する必要があります。
内部 Statuspage | 外部 Statuspage | |
インシデント名 | <インシデント課題キー> - <重大度> -<インシデントの概要> | <製品> の課題を調査する |
メッセージ | <製品 x >、<製品 y >、<製品 z > に影響を与えているインシデントについて調査中です。間もなくメールと Statuspage で最新情報を提供する予定です。 | <製品 x > の課題を調査しています。間もなくこちらで最新情報を提供する予定です。 |
Statuspage インシデントの作成に加えて、エンジニアリングリーダーシップ、主要なインシデントマネージャー、その他の関連するスタッフを含むインシデントコミュニケーション配布リスト宛にメールを送信します。このメールの内容は、内部向け Statuspage インシデントのコンテンツと同じです。メールでは返信したり質問をしたりできますが、Statuspage は一方向のブロードキャストコミュニケーションに似ています。
すべての内部コミュニケーションでは、そのインシデントの Jira 課題キーが含まれることに注意してください。この課題キーにより、スタッフはどのチャットルームに入室して追加の質問ができるかわかります。
Opsgenie を使用したオンコール スケジュールの設定
このチュートリアルでは、オンコール スケジュールの設定、オーバーライド ルールの適用、オンコール通知の設定などの方法を学習します。すべて Opsgenie 内で行います。
このチュートリアルを読むインシデントの事後分析を行う方法
非難なき事後分析を実施することで、インシデントの根本原因の理解と修正が促されます。アトラシアンがインシデントの事後分析をどのように実行しているかについて、ハンドブックでご説明します。
この記事を読む