Close

ベロシティの高いチームのためのインシデント管理

アトラシアンインシデントハンドブック

現在、技術サービスチームは、24 時間 365 日の可用性を維持することを期待されています。

機能停止や故障のような障害が起こったときに、チームはすぐに対応し、サービスを復旧させる必要があります。このプロセスはインシデント管理と呼ばれています。インシデント管理は会社の規模に関わらず、現在進行中の複雑な課題です。

Atlassian は、世界中のチームのインシデント管理の向上を手助けします。Google などのチームから着想を得て、Atlassian のインシデント管理プロセスをまとめたこのハンドブックを作成しました。これらは、Atlassian が 10 年を超えるインシデント対応から学んだ教訓です。このハンドブックは Atlassian 独自の経験に基づいていますが、皆様のチームのニーズに合わせて変更を加えながらご利用いただけます。

インシデント管理ハンドブック

ハンドブックの印刷版または PDF 版を入手する

インシデント管理ハンドブックの印刷版は、数量限定で無料配布しています。または、PDF 版をダウンロードしてください。

Atlassian は、世界中のチームのインシデント管理の向上を手助けします。Google などのチームから着想を得て、Atlassian のインシデント管理プロセスをまとめたこのハンドブックを作成しました。これらは、Atlassian が 10 年を超えるインシデント対応から学んだ教訓です。このハンドブックは Atlassian 独自の経験に基づいていますが、皆様のチームのニーズに合わせて変更を加えながらご利用いただけます。


このガイドの対象者は?

このハンドブックは、24 時間 365 日の可用性を要求する顧客のインターネットサービスを担当している開発または運用チームの所属メンバー向けに作成されています。


インシデントとは?

アトラシアンでは、インシデントをサービスの中断や質の低下を引き起こす、緊急対応が必要なイベントとして定義しています。ITIL または ITSM の実施基準に従うチームでは、「メジャーインシデント」という用語を使用することがあります。

インシデントが解決済みとなるのは、影響を受けたサービスが通常の機能を再開したときです。機能の完全復元に必要なタスクのみが対象となります。

インシデントの事後分析はインシデントの発生後に実施するものであり、その根本原因を特定し、インシデントが再発する前に確実に対処するための行動を割り当てます。


インシデントの価値観

1 つのインシデント管理プロセスでは、すべての起こりうるシチュエーションを取り上げることはできません。そのため、ここでは価値観という形で一般的なガイドラインを示します。アトラシアンの企業としての価値観と同様に、私たちのインシデントの価値観は次のようにデザインされています。

  • スタッフとチームがインシデントと事後分析に自主的な意思決定を行えるように導きます。
  • インシデントを特定および管理し、そこから教訓を得る方法について、チーム間で一貫した文化を構築します。
  • インシデントの特定、解決、反省の各部分に取り組むべき姿勢をチーム間で一致させます。
ステージ インシデントの価値感 関連するアトラシアンの価値観 解釈
1. 検出 顧客より先にインシデントを検出

Build with Heart and Balance

顧客より先にインシデントを検出するための十分な監視とアラート システムを備えているのが、バランスの取れたサービスです。

最高の監視システムは、問題がインシデントになる前に警告してくれます。

2. 応答 躊躇せずエスカレート

チームとして
動く

起こされるのが好きな人はいません、責任を軽く見ているわけではありません。しかし、インシデント対応のために起こされた人が、実際は不要だったという場合があることは理解されています。通常、難しいのは、重大なインシデントが発生したときに目覚めることと、必要なタイミングよりも遅く警告された場合に追いつくことです。

いつもすべての答えがわかるとは限りません。ですから、エスカレートを躊躇しないでください。

3. 復旧 問題が発生した場合に迅速に解決 顧客をないがしろにしない

顧客はサービスが停止した原因は気にしません。気にするのは、私たちがどれだけ早くサービスを復旧させられるかです。

インシデントの早期解決に全力を尽くすことで、顧客への影響を最小化できます。

4. 学ぶ 誰かのせいにしない Open Company, No Bullshit インシデントは、サービス運営の一部です。私たちは、チームに責任を負わせるのではなく、責任を持たせることでサービスを向上します。
5. 改善 同じインシデントを繰り返さない 自分自身が変化の原動力になる

根本原因と、すべてのインシデントクラスの再発を防ぐ変更事項を特定します。

具体的な変更事項を、具体的な日付までに提供することをコミットします。


必要なツール

本書で説明するインシデント管理プロセスでは、アトラシアン固有のいくつかのツールを使います。これらは、必要に応じて別のものに置き換えることができます。

  • インシデントの追跡 - すべてのインシデントは、事後分析の完了を追跡するために作成されたフォローアップ課題と一緒に、Jira 課題として追跡されます (Atlassian はこのために大幅にカスタマイズされた Jira Software を使用しています)。
  • チャットルーム - リアルタイムのテキストコミュニケーションチャンネルは、チームでインシデントを診断して解決するための基盤となります。
  • ビデオチャット - 多くのインシデントで、Blue Jeans のようなチームビデオチャットは、複数のアプローチについて議論し、同意するのに役立ちます。
  • アラートシステム - OpsGenie などのツールを使って待機ローテーションとエスカレーションを管理します。
  • ドキュメント作成ツール - Confluence を使用してインシデント状況のドキュメントを作成し、事後分析をブログで共有します。
  • Statuspage - Statupage を使用して内部の関係者や顧客に状況を伝えれば、すべての人が最新情報を入手できます。

インシデントの追跡

すべてのインシデントは、事後分析の完了を追跡するために作成されたフォローアップ課題と併せて、Jira 課題として追跡されます。本書に記載のプロセスは、大幅にカスタマイズされた Jira Software を参考にしています。

インシデント課題は、通常、カスタマーチケットに応じてサポートエンジニアが作成するか、インシデントのモニタリングアラートに気がついた開発者が作成します。私たちは、問題が大きくなるまで待つのではなく、何か懸念があれば課題を作成するようにスタッフに促しています。

Jira には、インシデントの解決段階まで追跡し、インシデント対応中のすべての重要な行動を記録するためのシンプルなワークフローがあります。


インシデントマネージャー

インシデントごとに、当該インシデントに対する全責任と権限を持つインシデント マネージャー (IM) を配置します。インシデント マネーシャーがインシデント課題の担当者となります。インシデント マネージャーには、インシデントを解決するのに必要な行動を取る権限が与えられています。組織内の任意のスタッフを呼び出して、可能な限り迅速にサービスを復元させることにインシデントに関わるメンバーを集中させる権限も含まれます。

インシデントマネージャーは、インシデントに関わる個人ではなく役割です。インシデント中に役割を明確にするメリットは、スタッフが交換可能になることです。スタッフ全員が特定の役割で何をすべきかを知っていれば、どのようなインシデントでもその役割を担当することができます。


このガイドへのご意見、ご提案