Opsgenie のアラート機能とオンコール機能が、Jira Service Management と Compass で利用できるようになりました。当社の自動移行ツールを使用して、2027 年 4 月 5 日までに既存の Opsgenie のデータと構成を移行してください。詳細を見る

DevOps の時代におけるインシデント管理

オープンで誰も責めないコミュニケーションの原則をインシデント管理チームに適用する

無料で入手する

インシデントへの対応方法を見直さなければ、ソフトウェアの構築、デプロイ、運用方法を再考することはできません。

John Allspaw 氏と Paul Hammond 氏は、2009 年に行われた重要な講演「10+ Deploys Per Day: Dev and Ops Cooperation at Flickr」で、開発者と IT 運用チームが協力することで、リリースの頻度を上げる世界のビジョンを描いています。その後の 10 年間で、このビジョンは DevOps ムーブメントとして具体化されました。

DevOps の本質は、インシデントに対応する新しい方法に依存しています。Allspaw 氏と Hammond 氏の講演でインシデント管理がこれほど注目されたのは驚くべきことではありません。「重要なのは、失敗は必ず起こるということです」と Hammond 氏は語っています。「失敗自体が問題なのではなく、そのタイミングが問題なのです」

ITIL のようなフレームワークとは異なり、DevOps チームのベストプラクティスに関する「公式な」文書はありません。しかし、DevOps の中核をなすのは、組織的なサイロを解体して透明性を高めて、開発者と IT 運用チーム間のオープンなコミュニケーションを促進することで組織にビジネス上の価値をもたらすことであるという点については、一般的に認められています。

透明性、可視性、迅速な学習という同じ文化が、インシデント管理にも及んでいます。

それではインシデント管理における優先すべき最も重要なステップは、何がうまくいかなかったのかを理解すること、適切な人材に問題に取り組んでもらうこと、誰も責めない文化を育てることです。

DevOps インシデント管理では、開発者と IT 運用チームとの間でオープンな誰も責めないコミュニケーション文化が求められています。また、IT サービスの信頼性を向上させて顧客満足度を高め、ビジネス価値を高めるための軽量なプロセスを確立する必要があります。DevOps エンジニアは、DevOps の文化とプラクティスの導入をサポートできます。

一方、ITIL では、IT サービス管理における特定のプラクティスを改善するために設計された 26 のプロセス、手順、タスク、チェックリストが規定されています。ITIL は、サービスの品質と一貫性、さらにはシステムの耐障害性の向上に焦点を当てています。

ITIL のメリットの 1 つは、ITSM を改善したい組織が、ゼロから始めるのではなく、テンプレート化されたベストプラクティスから始めることができる点です。また、ITIL は大企業に適しているという意見もありますが、このフレームワークは柔軟性に富んでいるため、小規模企業でもビジネスに適したプロセスを選択して価値を見出すことができます。

ITIL の欠点は、インシデント対応プロセスの変更を急いでいる場合、正式な変更管理と専門コンサルタントが関与することで、改善が遅れる場合があることが挙げられます。

すぐに開始したいチームにとって、DevOps インシデント管理アプローチは、チームが一体となってすぐにメリットを実現するのに役立ちます。

DevOps インシデント管理プロセス

インシデント管理に対する DevOps のアプローチは、効果的なインシデント管理のための従来の手順と劇的に違うわけではありません。DevOps インシデント管理では、最初からオンコールを含む開発者チームを関与させることと役職ではなく専門知識に基づいて作業を割り当てることを、明示的に重視しています。

1. 検知

DevOps インシデント対応チームは、インシデントが決して起こらないことを期待するのではなく (なぜなら、インシデントは間違いなく発生するので)、準備することに高い価値を置いています。また、システムの脆弱性を特定することにより、潜在的なインシデントへの対応を計画するために協力して取り組んでいます。監視ツール、アラートシステム、ランブックを用意し、インシデントが発生したときに誰に連絡すればいいのか、次に何をすればいいのかを各メンバーが把握できるようにしています。

2. 対応

DevOps インシデント管理チームは、1 人のオンコールエンジニアがシフト中のすべてのインシデントに対応するのではなく、複数のチームメンバーを指定してエスカレーションに対応するようにします。指定されたオンコールエンジニアがが単独でインシデントを解決できない場合には、ガイドとなるランブックが用意されています。オンコールエンジニアは、適切なメンバーを招集して問題の影響と深刻度を評価し、適切な対応者にエスカレーションすることが可能です。

3. 解決

インシデントに対応する際、DevOps のインシデント管理チームは、多くの場合迅速に解決できます。これは、総じて、彼らがアプリケーションやシステムコードに精通しているためです。なぜなら、コードを書いたのは彼らだからです。また、事前の準備と優れたコミュニケーションシステムの恩恵を受けて、彼らは協力してインシデントを解決することができ、初めてコードを見るサードパーティの対応チームよりも迅速に解決することができます。

4. 分析

DevOps インシデント管理チームは、誰も責めない事後分析プロセスによってインシデントをクローズします。また、システムの耐障害性を継続的に改善し、将来、インシデントが発生した場合に迅速かつ効率的に解決することを目的として、情報、指標、学習した教訓を共有します。

5. 準備状況

インシデントが解決し、すべての修復手順が完了し、システムが復元すると、DevOps インシデント管理チームは一歩下がって、次のインシデントへの準備状況を評価します。彼らは事後分析プロセスで学んだことを取り入れ、ランブックを更新し、監視ツールとアラートシステムに必要な調整を行います。また、DevOps の継続的な改善は、技術だけではなく、人やチームにも適用されます。インシデント後、チームメンバーは次のインシデントにより万全に備えることができます。

効果的な DevOps IM チームのベストプラクティス

インシデント対応に DevOps アプローチを採用すると、開発チームと IT 運用チーム間のコミュニケーションの向上、インシデント対応と修復の迅速化、より回復力のあるシステムを実現できます。

プロセスとワークフローの自動化

サービスデスク、監視、チケット発行、CMDB/資産管理、チャットツールを統合し、IT インシデントアラートとワークフローを合理化して、解決に向けて必要な情報を適切な担当者に通知できるようにします。事前定義されたワークフローを使用してランブックを準備することで、インシデント発生時にすぐに対応できるようになります。

チーム間のコミュニケーション

リアルタイムチャットツールを使用して、チームのメンバーが組織全体でコミュニケーションを図れるようにします。インシデントの記録を作成するツールを使用すると、いつでも、誰でも、何が起こったのか、何が起きているのかを素早く把握できます。

誰も責めないアプローチの採用

インシデントを解決した後、チームで集まり、誰も責めない事後分析セッションを開催して何が起きたかを検証します。責任のなすり合いは避け、全員の仕事に役立つ情報を共有し、より信頼性の高いシステムに貢献することに集中します。

ビジネスへの影響の特定と優先的対応

DevOps インシデント対応は、コミュニケーションを向上させる手段であるだけではなく、開発者と運用担当者が連携して真のビジネス価値を実現するための手段です。MTTD (平均検出時間)、MTTR (平均修復時間)、MTBF (平均故障間隔) などの指標を追跡し、チームの改善率を把握します。

オンコールスケジューリングを活用した、開発者とシステム管理者の SRE への配置

DevOps チームでは、開発者とシステム管理者の境界が曖昧になり始めており、インシデントに対応する担当者が SRE (サイト信頼性エンジニア) となることがよくあります。とは言え、個人的なレベルでは、専門的な知識がアプリケーションコードまたはインフラストラクチャコードのいずれかに限られる場合が考えられます。インシデントに対応するための専門知識を適切に組み合わせられるようにオンコールスケジュールを設定しましょう。

Jira Service Management が DevOps アプローチによるインシデント管理をどのようにサポートできるか詳細をご確認ください。

Jira Service Management を試す

推奨

チュートリアル

Opsgenie を使用したオンコールスケジュールの設定

このチュートリアルでは、オンコールスケジュールの設定、オーバーライドルールの適用、オンコール通知の設定などの方法を学習します。すべて Opsgenie 内で行います。

このチュートリアルを読む

インシデントコミュニケーションのベストプラクティス

インシデントコミュニケーションとは、サービスに何らかの停止またはパフォーマンスの低下が発生していることをユーザーに警告するプロセスです。

この記事を読む

インシデント管理についてもっと学ぶ

その他のインシデント管理ガイドとリソースについては、このハブをご確認ください。

詳細を見る

おすすめのアプリ

Atlassian Collections

ユースケース別

チーム別

サイズ別

業界別

サポート

リソース

Jira

Confluence

Jira Service Management

ユースケース別

チーム別

サイズ別

業界別

Jira

Confluence

Jira Service Management

ユースケース別

チーム別

サイズ別

業界別

DevOps の時代におけるインシデント管理

DevOps インシデント管理プロセス

効果的な DevOps IM チームのベストプラクティス

推奨

Opsgenie を使用したオンコールスケジュールの設定

インシデントコミュニケーションのベストプラクティス

インシデント管理についてもっと学ぶ

おすすめのアプリ

Jira

Confluence

Jira Service Management

ユース ケース別

チーム別

サイズ別

業界別

Jira

Confluence

Jira Service Management

ユース ケース別

チーム別

サイズ別

業界別

DevOps の時代におけるインシデント管理

DevOps インシデント管理プロセス

効果的な DevOps IM チームのベスト プラクティス

推奨

Opsgenie を使用したオンコール スケジュールの設定

インシデント コミュニケーションのベスト プラクティス

インシデント管理についてもっと学ぶ

ユースケース別

ユースケース別

効果的な DevOps IM チームのベストプラクティス

Opsgenie を使用したオンコールスケジュールの設定

インシデントコミュニケーションのベストプラクティス