Close

ベロシティの高いチームのためのインシデント管理

インシデント管理ツールの選択方法

カテゴリー、主な機能、求めるもの

インシデント管理には万能のツールはありません。

最もパフォーマンスの高いインシデント チームは、適切なツール、プラクティス、人材を使用しています。

インシデント管理に固有のツールもあれば、チームが他のタスクにも使用する汎用ツールもあります。統合とカスタマイズのレイヤーの上に構築された、オーダーメイドのツールが使用される場合もあります。

ユース ケースにかかわらず、優れたインシデント管理ツールには共通点がいくつかあります。優れたインシデント管理ツールは、オープンで信頼性が高く、適応性に優れています。

オープン: インシデントのようなプレッシャーの高い環境では、適切なユーザーが適切なツールと情報にすぐにアクセスできることが重要です。これは、インシデント対応者だけでなく、対応の取り組みを可視化する必要がある企業関係者にも当てはまります。

信頼性: インシデント対応時には、主要な対応ツールが停止する以上の最悪の事態はありません。Slack や Opsgenie などのクラウド ツールを活用することで、インフラストラクチャの停止による対応ツールの停止リスクを最小限に抑えることができます。

適応性: 統合、ワークフロー、アドオン、カスタマイズ、API などはすべて、製品に秘められた可能性を切り開きます。既成の構成から始めることもできますが、慣行やプロセスが成熟するにつれ、変化するニーズに対応できる柔軟性を備えたツールが必要になります。

インシデント管理サイクルのイラスト

インシデント発生前

監視

監視システムにより、DevOps チームと IT Ops チームは、何千もの異なるサービスから送信されるデータをリアルタイムで収集、集計、トリガーできます。これらは、サービスの健全性を完全に可視化するために不可欠であり、多くの場合、インシデント中に最初のアラーム ベルをトリガーします。

利点

監視ツールにより、チームはインフラストラクチャの健全性を常に把握できます。最新の監視ツールでは、予期しないアクティビティの発生時にアラートを事前にトリガーします。

機能

 

機能セット

質問

 

機能セット

24 時間 365 日対応と分析

質問

ツールにはすべてのサーバーとインフラストラクチャに対する可視性がありますか?

チームは、リアルタイム分析とダッシュボードを表示し、アラート閾値を設定できますか?

 

機能セット

アラート ツールと統合する

質問

製品をアラート ツールおよびオンコール ツールと統合できますか?

サービスデスク

サービス デスク ソフトウェアを使用すると、顧客や従業員はインシデントや潜在的なインシデントを報告できます。

利点

他の多くのユース ケース (サービスリ クエスト、IT ヘルプ デスク) と連動したサービス デスクにより、チームは最も重要な人 (ユーザーや顧客) からインシデントについて素早く把握することができます。

機能

 

機能セット

質問

 

機能セット

セルフ サービスを有効化する

質問

顧客はサービス ポータルを通じて素早くチケットを送信できますか?

顧客は自動ナレッジ ベースの提案で必要なサポートを見つけられますか?

当社が推奨する製品: Jira Service Management

警告およびオンコール

迅速かつ信頼性の高いアラートは、インシデント対応の重要なステップです。これにより、チームは適切な人に確実にインシデントを伝えることができます。

利点

アラート ツールは、スケジュール、エスカレーション パス、通知の高度な組み合わせを通じて、指定されたオンコール対応者に通知します。

機能

 

機能セット

質問

 

機能セット

Works globally

質問

世界中に通知 (SMS、音声、メール) を送信できますか?

 

機能セット

複数の通知方法

質問

メール、SMS、電話、モバイル アプリ プッシュなどの複数の通知方法を使用して通知を送信し、複数回試すことができますか?

当社が推奨する製品: Opsgenie

インシデント発生中

迅速な解決のための構成管理データベース (CMDB) の活用

インフラストラクチャ内の相互依存性の理解は、インシデントの完全な影響を判断し、より迅速な解決を実現するための鍵となります。

利点

CMDB は、IT インフラストラクチャ内の関係と依存関係を把握するのに役立ちます。何かがダウンした場合、このマップによって迅速に次を見つけることができます。

  • インシデントの潜在的な原因。たとえば、ボタンをクリックするだけで、サービスが実行されているホストを特定できます。
  • インシデントのトリクルダウン効果。たとえば、同じ、問題のあるホストで実行されている他のサービスを検出します。

つまり、インシデントのすべての側面を迅速に調査し、周知することができます。

 

機能セット

質問

 

機能セット

複数のチャネル

質問

CMDB はどの程度柔軟ですか?CI またはアセットを保存できますか?

インフラストラクチャを可視化できますか?

 

機能セット

統合

質問

CI/アセットをサービス デスクの課題とリンクできますか?

CI/アセットを変更リクエストにリンクできますか?

当社が推奨する製品: Insight

Insight のロゴ

インシデントにより迅速に対応

インフラストラクチャとその依存関係を Jira 内でネイティブにマッピングします。インシデントの原因をすばやく特定して解決し、稼働時間を増やしましょう!

チームコミュニケーション

インシデント管理では、明確で信頼性の高いコミュニケーションが極めて重要です。

利点

優れたコミュニケーション プラットフォームは、チームがコミュニケーションをとり、見解、リンク、スクリーンショットをタイムスタンプ付きで共有し、保存する上で役立ちます。これにより、インシデント中に適切な情報と人を集結させ、インシデント後に学習できる豊富な記録が作成されます。

機能

 

機能セット

質問

 

機能セット

複数のチャネル

質問

インシデント対応チームはインシデントの専用チャネルを素早く始動させられますか?

 

機能セット

統合

質問

インシデント ツールチェーンの他のツールを使用して、チームのコミュニケーション チャネルに投稿できますか?

当社が推奨する製品: Slack (テキスト)、Zoom (ビデオ)

顧客とのコミュニケーション

顧客コミュニケーション ツールは、インシデント中に顧客に常に情報を周知するために役立ちます。

利点

間違いなく、インシデントは通常、顧客にとって悪い経験です。顧客への情報提供を維持することで、信頼が構築され、対応作業を迅速化できます。顧客とのコミュニケーションにより、インシデントを認識して修正に取り組んでいると知らせることができます。

機能

 

機能セット

質問

 

機能セット

インフラストラクチャから離れています

質問

コミュニーション ツールは、社内インフラストラクチャがダウンした場合でも利用できますか?

 

機能セット

サブスクライバーと通知

質問

インシデントについて投稿した際に通知を受け取るかどうか顧客は選択できますか?

当社が推奨する製品: Statuspage

インシデント コマンド センター

インシデント コマンド センターとは、インシデントに関する標準的な記録とその重要な詳細情報が記載されている場所のことです。これには Opsgenie のようなインシデント ツール、または Jira のような課題追跡ツールが使われる場合があります。

利点

コマンド センター ツールは、インシデントの状態、関連するアラート、更新などの重要な詳細情報をリスト化し、インシデント発生中およびインシデント発生後に全員に情報を共有する場を提供します。また、インシデントおよびそれに関連する対応作業の履歴記録も提供します。

機能

 

機能セット

質問

 

機能セット

信頼できる情報源

質問

チーム メンバーと関係者は素早くインシデントについての情報を把握できますか?

チーム メンバーと関係者はこの記録を使用して、インシデントと対応活動のその他の詳細をすべて把握できますか?

 

機能セット

タイムライン

質問

このツールは主要なイベントの時系列のタイムラインを集約しますか?

当社が推奨する製品: Opsgenie

インシデント発生後

事後分析

事後分析とは、インシデント発生中に起こったこと、およびその再発を防ぐために取られたフォローアップ行動の書面での記録です。

利点

インシデントが解決された後も、チームはまだ根本原因を把握できておらず、同じインシデントが再発する可能性がある場合が多くあります。事後分析は、インシデント後の分析のためにチームをまとめることで、再発の防止に役立ちます。

機能

 

機能セット

質問

 

機能セット

テンプレート

質問

チームはテンプレートを使用して事後分析を記入できますか?

 

機能セット

次の行動を綿密に計画する

質問

チームは、事後分析中に次の行動と修正作業を計画できますか?

当社が推奨する製品: Opsgenie

課題トラッキング

課題追跡ツールは、チームが今後行う必要がある修正作業のマッピングに役立ちます。

利点

多くの場合、インシデントを解決すると、根本原因に対処することなくサービスがオンラインに戻ります。通常、根本原因を修復し、インシデントが繰り返されないことを確認するために、より多くのエンジニアリング作業を行う必要があります。課題と作業追跡ツール (チームが既に他の開発作業に使用しているものであればなお良いです) は、この作業が優先され、無視されないようにするために役立ちます。

機能

 

機能セット

質問

 

機能セット

共有されたワークフロー パイプライン

質問

チームは、他の作業と優先事項に合わせてインシデント修正作業を計画できますか?

 

機能セット

統合

質問

チームは他のインシデント ツールからデータとコンテンツを取得できますか?

当社が推奨する製品: Jira Software

Up Next
KPIs