リソース
IT 運用、開発、ビジネスの各チームのためのサービス管理

大規模でベロシティの高いサービス管理を提供します。

無料で入手

詳細

エンドツーエンドの IT サービスの提供を管理するには

サービス管理プラクティス向上のためのヒントをご確認ください。

詳細

JSM の設定に必要なすべての情報をご確認ください

これらのガイドでは、基本から詳細なベストプラクティスまですべてを説明しています。

ガイドを表示する

Jira Service Management リソースライブラリ

ホワイトペーパー、ケーススタディ、レポートなどを参照して、必要な情報をすべて入手できます。

ライブラリを表示

リソース
IT 運用、開発、ビジネスの各チームのためのサービス管理

大規模でベロシティの高いサービス管理を提供します。

無料で入手

詳細

エンドツーエンドの IT サービスの提供を管理するには

サービス管理プラクティス向上のためのヒントをご確認ください。

詳細

JSM の設定に必要なすべての情報をご確認ください

これらのガイドでは、基本から詳細なベストプラクティスまですべてを説明しています。

ガイドを表示する

Jira Service Management リソースライブラリ

ホワイトペーパー、ケーススタディ、レポートなどを参照して、必要な情報をすべて入手できます。

ライブラリを表示

ベロシティの高いチームのためのインシデント管理

無料で入手する

詳細を見る

インシデントの事後分析テンプレート

明確なドキュメントは、効果的なインシデントの事後分析プロセスの鍵です。多くのチームは包括的なテンプレートを使用して、各事後分析レビューで一貫した詳細を収集します。

以下に示すのは、Incident Handbook に概説されている事後分析に基づくインシデントの事後分析テンプレートの例です。これを切り取って貼り付けることで、自分の事後分析を文書化できます。

インシデントの概要

インシデントを数行に要約する。起こったこと、それが起こった理由、インシデントの重大度、影響が続いた期間を含めます。

例：

{日付} の {インシデントの時間範囲。15:45 から 16:35 など} に {数} 名のユーザーに {イベントの症状} が発生した。

イベントは、{イベントの原因となった変更の日時} の {変更} によって発生した。

{変更} には、{システムを更新するためのコードの変更などの変更の説明または理由} が含まれていた。

このコードのバグは、{問題の説明} を引き起こした。

このイベントは {監視システム} によって検出された。チームは {解決のために取られた行動} によって、このイベントへの対応を開始した。

この {重大度レベル} のインシデントは {X%} のユーザーに影響した。

このインシデントに関連して {提出されたサポートチケット、ソーシャルメディアでのメンション、アカウントマネージャーへの問い合わせの数など} で指摘されたように、さらなる影響があった。

きっかけ

インシデントを引き起こした状況を説明します。例: 以前の変更で発生したバグが検出されていなかった。

例：

{MM/DD/YY} の {16:00} に ({顧客に影響が出るまでの時間。例: 問題となっているインシデントの発生前 10 日間})、{製品またはサービス} が変更されて、{インシデントにつながった変更の内容} が行われた。

この変更によって、{変更の影響の説明} が発生した。

影響

インシデントが内外のユーザーに与えた影響を説明して、提出されたサポートケースの数を含めます。

例：

{MM/DD/YY} の {XX:XX UTC から XX:XX UTC} の {XX 時間 XX 分}、{インシデントの要約} 当社のユーザーがこのインシデントを経験した。

このインシデントは、経験した {XX} 人の顧客 ({システムまたはサービス} ユーザーの X%) に影響を与えた {症状の説明}。

{XX サポートチケットの数とソーシャルメディア投稿の数} が送信された。

検出

チームがインシデントを検出したのはいつですか? 彼らはそれが起こっていることを、どうやって知りましたか? 検出までの時間を、どのように短縮できますか? 検討事項: そうすれば、その時間を半分に短縮できましたか?

例：

このインシデントは、{アラートのタイプ} がトリガーされて、{チームまたは個人} が呼び出されたときに検出された。

次に、{2 人目} が呼び出された。{1 人目} はディスクへの書き込みサービスを所有していないため、対応が {XX 分/時間} 遅れた。

{改善の説明} は、{改善のチーム所有者} によって設定される。{期待される改善}。

回答

そのインシデントに対応したのは誰ですか? 彼らはいつ対応しましたか? 彼らは何をしましたか? 対応の遅延や障害をメモします。

例：

{XX:XX UTC} で呼び出しを受けた後、{オンコールエンジニア} は {XX:XX UTC } に {インシデント情報がキャプチャされたシステム} でオンラインになった。

このエンジニアは {影響を受けたシステム} に関するスキルがなかった。そのため、{XX:XX UTC} に、2 番目のアラートが、{オンコールエンジニアへのエスカレーション} のために、{XX:XX UTC} に部屋に入った人に送信された。

リカバリ

どのようにしてサービスが復元されて、インシデントが解決したとみなされたかを説明します。どのようにサービスを正常に復元したか、どのようにして復元に必要なステップを把握できたかを詳細に説明します。

シナリオに応じて、次の質問を検討してください。緩和までの時間をどのように改善できますか? どうすればその時間を半分に短縮できましたか?

例：

私たちは、システムの回復に 3 つのアプローチを使用しました。

{課題を緩和したアクション、実行された理由、その結果の説明}

例: BuildEng EC3 ASG の容量を増やして、ワークロードを処理できるノード数を増やす。また、定数を超えたノードのスケジューリングの可能性を減らす。

クラスタの積極的なスケールダウンを防ぐために、Escalator autoscaler を無効にする。
Build Engineering スケジューラーを前のバージョンに戻す。

タイムライン

インシデントのタイムラインを詳述します。タイムゾーンの標準化のために、UTC を使用することをお勧めします。

注目すべきリードアップイベント、アクティビティの開始、最初の既知の影響、およびエスカレーションを含めます。決定や変更があった場合は、インシデントが終了したタイミングと注目すべき影響後のイベントを記録します。

例：

すべての時間は UTC で表示。

11:48 - K8S 1.9 制御プレーンのアップグレード完了

12:46 - V1.9 へのアップグレード完了 (クラスターオートスケーラーと BuildEng スケジューラーインスタンスを含む)

14:20 - Build Engineering が KITT Disturbed へ問題を報告

14:27 - KITT Disturbed が特定の EC2 インスタンス (ip-203-153-8-204) の不具合を調査開始

14:42 - KITT Disturbed がノードを遮断

14:49 - BuildEng が問題が複数のノードに影響を及ぼしていることを報告。問題の 86 のインスタンスが不具合はシステムに関することを示す

15:00 - KITT Disturbed が標準スケジューラーへの切り替えを提案

15:34 - BuildEng が 200 ポッドの不具合を報告

16:00 - BuildEng がすべての不具合のあるビルトを除去して、OutOfCpu レポートを作成

16:13 - 新しいビルドでも不具合が再発するため、一時的な不具合ではないことを BuildEng が報告

16:30 - KITT がこの不具合がインシデントだと認めて、インシデントとして対応

16:36 - KITT が Escalator autoscaler を無効にして、問題を軽減するために autoscaler が計算を削除しないようにする

16:40 - KITT は ASG が安定し、クラスターの負荷は正常で、顧客の影響が解決したことを確認。

テンプレート:

XX:XX UTC - インシデントアクティビティ、実行されたアクション

根本原因の特定: 5 つの Why

5 つの Why は、根本原因を特定するテクニックです。使用方法は次のとおりです。

影響の説明を出発点として、なぜ起こったのかを質問します。
その影響をメモします。
なぜ起こったのか、なぜその影響があったのかを質問します。
根本原因にたどり着くまで、「なぜ」を質問し続けます。

事後分析ドキュメントに、「なぜ」をリストします。

例：

データベースがロックされているため、アプリケーションが停止しました
データベースへの書き込みが多すぎて、データベースがロックされました
エレベーションされた書き込みを想定せずに、サービスへ変更をプッシュしたため
負荷テスト変更のために確立された開発プロセスがなかったため
このレベルに達するまで、負荷テストが必要だと感じたことがなかったため

バックログチェック

エンジニアリングバックログを確認して、このインシデントを防げた、またはその影響を軽減できた可能性のある想定外の作業があったかを確認してください。

バックログの明確な評価によって、過去の優先度とリスクに関する決定が明確になります。

例：

このサービスを改善できた可能性のある特定の項目が、バックログにありません。フロータイピングの改善に関する注意事項があり、これらはワークフローとともに進行中のタスクでした。

統合テストを改善するために提出されたチケットがありますが、これまでのところそれらは成功していません。

教訓

インシデント対応で何がうまくいったのか、何が改善されたか、改善の余地について話し合います。

例：

作業のレートリミッタが適切に維持されていることを確認するために、ユニットテストを実施する必要がある。
通常の操作とは異なる一括操作ワークロードを見直すべきである。
一括操作はゆっくり開始して監視する必要がある。サービス指標が正常であれば増やしていく。

是正措置

今後このクラスのインシデントを防止するために指示された是正措置を、説明してください。誰が責任を持っていつ作業を完了する必要があるのか、その作業が追跡されている場所をメモします。

例：

不具合を制限するため、一時的にオートスケールのレート制限を手動にする。
ユニットテストとジョブのレート制限の再導入をする。
スケーリング効果を導くために、クラスタ全体の分散率情報を収集する二次的メカニズムを導入する。

Tutorial

Statuspage でインシデントコミュニケーションを学ぶ

このチュートリアルでは、システム停止時にインシデントテンプレートを使用して効果的にコミュニケーションを取る方法について説明します。さまざまなサービス中断に適応可能です。

このチュートリアルを読む

次のトピック

インシデントの事後分析プロセスの重要性

インシデント後レビューとも呼ばれるインシデントの事後分析レビューは、インシデント中に何が起こったかを調査して教訓を取り込むのに最適な方法です。

この記事を読む

注目

Jira

Confluence

Jira Service Management

Trello

Rovo 新

Jira Product Discovery NEW

Compass NEW

Guard NEW

Loom NEW

デベロッパー

Jira

Bitbucket

Compass NEW

プロダクトマネージャー

Jira

Confluence

Jira Product Discovery NEW

IT プロフェッショナル

Jira Service Management

Guard NEW

ビジネスチーム

Jira

Confluence

Trello

Loom NEW

リーダーシップチーム

Jira Align

Jira

Confluence

Loom NEW

チーム

ソフトウェア

マーケティング

IT

ソリューション

チーム規模別

業界別

アトラシアンが選ばれる理由

統合

お客様事例

FedRAMP

対応性

プラットフォーム

Trust Center

リソース

カスタマー サポート

パートナーを探す

移行プログラム

University

サポート

学ぶ

Jira Service Management

ITSM

製品ガイド

リソース ライブラリ

IT 運用、開発、ビジネスの各チームのためのサービス管理

エンドツーエンドの IT サービスの提供を管理するには

JSM の設定に必要なすべての情報をご確認ください

Jira Service Management リソース ライブラリ

Jira Service Management

ITSM

製品ガイド

リソース ライブラリ

IT 運用、開発、ビジネスの各チームのためのサービス管理

エンドツーエンドの IT サービスの提供を管理するには

JSM の設定に必要なすべての情報をご確認ください

Jira Service Management リソース ライブラリ

ベロシティの高いチームのためのインシデント管理

インシデントの事後分析テンプレート

インシデントの概要

例：

きっかけ

例：

不具合

例：

影響

例：

検出

例：

カスタマーサポート

リソースライブラリ

Jira Service Management リソースライブラリ

リソースライブラリ

Jira Service Management リソースライブラリ

Statuspage でインシデントコミュニケーションを学ぶ