Close

ベロシティの高いチームのためのインシデント管理

インシデント管理ツールの選択方法

カテゴリー、主な機能、求めるもの

インシデント管理には万能のツールはありません。

最もパフォーマンスの高いインシデント チームは、適切なツール、プラクティス、人材を使用しています。

インシデント管理に固有のツールもあれば、チームが他のタスクにも使用する汎用ツールもあります。統合とカスタマイズのレイヤーの上に構築された、オーダーメイドのツールが使用される場合もあります。

ユース ケースにかかわらず、優れたインシデント管理ツールには共通点がいくつかあります。優れたインシデント管理ツールは、オープンで信頼性が高く、適応性に優れています。

オープン: インシデントのようなプレッシャーの高い環境では、適切なユーザーが適切なツールと情報にすぐにアクセスできることが重要です。これは、インシデント対応者だけでなく、対応の取り組みを可視化する必要がある企業関係者にも当てはまります。

信頼性: インシデント対応時には、主要な対応ツールが停止する以上の最悪の事態はありません。Slack や Opsgenie などのクラウド ツールを活用することで、インフラストラクチャの停止による対応ツールの停止リスクを最小限に抑えることができます。

適応性: 統合、ワークフロー、アドオン、カスタマイズ、API などはすべて、製品に秘められた可能性を切り開きます。既成の構成から始めることもできますが、慣行やプロセスが成熟するにつれ、変化するニーズに対応できる柔軟性を備えたツールが必要になります。

インシデント発生前

監視

監視システムにより、DevOps チームと IT Ops チームは、何千もの異なるサービスから送信されるデータをリアルタイムで収集、集計、トリガーできます。これらは、サービスの健全性を完全に可視化するために不可欠であり、多くの場合、インシデント中に最初のアラーム ベルをトリガーします。

利点

監視ツールにより、チームはインフラストラクチャの健全性を常に把握できます。最新の監視ツールでは、予期しないアクティビティの発生時にアラートを事前にトリガーします。

利点

監視ツールにより、チームはインフラストラクチャの健全性を常に把握できます。最新の監視ツールでは、予期しないアクティビティの発生時にアラートを事前にトリガーします。

機能

Monitoring tools give your team constant insight into the health of the infrastructure. Modern monitoring tools also proactively trigger alerts during unexpected activity.

 

 

Feature Set

Questions to ask

24/7 coverage and analytics

Does the tool have visibility into all my servers and infrastructures?

Integrates with alerting tools

Can my team see real time analytics and dashboards and set alerting thresholds?

 

Does the product integrate with my alerting and on-call tool?

サービスデスク

サービス デスク ソフトウェアを使用すると、顧客や従業員はインシデントや潜在的なインシデントを報告できます。

利点

他の多くのユース ケース (サービスリ クエスト、IT ヘルプ デスク) と連動したサービス デスクにより、チームは最も重要な人 (ユーザーや顧客) からインシデントについて素早く把握することができます。

機能

 

 

Feature set

Questions to ask

Enable self serve

Can customers quickly file tickeCan customers quickly file tickets through a self-service support portal?

 

Can customers find the help they need with automated knowledge-based suggestions?

当社が推奨する製品: Jira Service Management

警告およびオンコール

迅速かつ信頼性の高いアラートは、インシデント対応の重要なステップです。これにより、チームは適切な人に確実にインシデントを伝えることができます。

利点

アラート ツールは、スケジュール、エスカレーション パス、通知の高度な組み合わせを通じて、指定されたオンコール対応者に通知します。

機能

 

 

Feature set

Questions to ask

Works globally

Can I send notifications (SMS, voice, email) to almost anywhere?

Multiple notification methods

Can I send notifications using multiple notification methods like email, SMS, phone, and mobile app push and try them multiple times?

当社が推奨する製品: Opsgenie

インシデント発生中

迅速な解決のための構成管理データベース (CMDB) の活用

インフラストラクチャ内の相互依存性の理解は、インシデントの完全な影響を判断し、より迅速な解決を実現するための鍵となります。

利点

CMDB は、IT インフラストラクチャ内の関係と依存関係を把握するのに役立ちます。何かがダウンした場合、このマップによって迅速に次を見つけることができます。

  • インシデントの潜在的な原因。たとえば、ボタンをクリックするだけで、サービスが実行されているホストを特定できます。
  • インシデントのトリクルダウン効果。たとえば、同じ、問題のあるホストで実行されている他のサービスを検出します。

つまり、インシデントのすべての側面を迅速に調査し、周知することができます。

 

 

Feature set

Questions to ask

Multiple channels

How flexible is the CMDB? Can I store any CI or asset?

Integrations

Can I visualize my infrastructure graphically?

 

Can I link CIs/assets with my service desk issues?

 

Can I link CIs/assets to change requests?

当社が推奨する製品: Insight

Insight のロゴ

インシデントにより迅速に対応

インフラストラクチャとその依存関係を Jira 内でネイティブにマッピングします。インシデントの原因をすばやく特定して解決し、稼働時間を増やしましょう!

チームコミュニケーション

インシデント管理では、明確で信頼性の高いコミュニケーションが極めて重要です。

利点

優れたコミュニケーション プラットフォームは、チームがコミュニケーションをとり、見解、リンク、スクリーンショットをタイムスタンプ付きで共有し、保存する上で役立ちます。これにより、インシデント中に適切な情報と人を集結させ、インシデント後に学習できる豊富な記録が作成されます。

機能

 

 

Feature set

Questions to ask

Multiple channels

Can my incident response team quickly spin up a dedicated channel for an incident?

Integrations

Can other tools in my incident toolchain post into my team's communication channel?

当社が推奨する製品: Slack (テキスト)、Zoom (ビデオ)

顧客とのコミュニケーション

顧客コミュニケーション ツールは、インシデント中に顧客に常に情報を周知するために役立ちます。

利点

間違いなく、インシデントは通常、顧客にとって悪い経験です。顧客への情報提供を維持することで、信頼が構築され、対応作業を迅速化できます。顧客とのコミュニケーションにより、インシデントを認識して修正に取り組んでいると知らせることができます。

機能

 

 

Feature set

Questions to ask

Off of my infrastructure

Will my communication tool be operational and accessible even if my internal infrastructure is down?

Subscribers and notifications

Can customers opt in to get notifications when I post about an incident?

当社が推奨する製品: Statuspage

インシデント コマンド センター

インシデント コマンド センターとは、インシデントに関する標準的な記録とその重要な詳細情報が記載されている場所のことです。これには Opsgenie のようなインシデント ツール、または Jira のような課題追跡ツールが使われる場合があります。

利点

コマンド センター ツールは、インシデントの状態、関連するアラート、更新などの重要な詳細情報をリスト化し、インシデント発生中およびインシデント発生後に全員に情報を共有する場を提供します。また、インシデントおよびそれに関連する対応作業の履歴記録も提供します。

機能

 

 

Feature set

Questions to ask

Source of truth

Can team members and stakeholders use this record to locate all the other details of the incident and response activities?

Timeline

Does the tool aggregate a chronological timeline of key events?

 

Can team members and stakeholders quickly get up to speed on the incident?

当社が推奨する製品: Opsgenie

インシデント発生後

事後分析

事後分析とは、インシデント発生中に起こったこと、およびその再発を防ぐために取られたフォローアップ行動の書面での記録です。

利点

インシデントが解決された後も、チームはまだ根本原因を把握できておらず、同じインシデントが再発する可能性がある場合が多くあります。事後分析は、インシデント後の分析のためにチームをまとめることで、再発の防止に役立ちます。

機能

 

 

Feature set

Questions to ask

Templates

Can my team use a template to fill out a postmortem?

Map out next actions

Can my team plan out next actions and remediation work during a postmortem?

当社が推奨する製品: Opsgenie

課題トラッキング

課題追跡ツールは、チームが今後行う必要がある修正作業のマッピングに役立ちます。

利点

多くの場合、インシデントを解決すると、根本原因に対処することなくサービスがオンラインに戻ります。通常、根本原因を修復し、インシデントが繰り返されないことを確認するために、より多くのエンジニアリング作業を行う必要があります。課題と作業追跡ツール (チームが既に他の開発作業に使用しているものであればなお良いです) は、この作業が優先され、無視されないようにするために役立ちます。

機能

 

 

Feature set

Questions to ask

Shared workflow pipeline

Can my team plan any incident remediation work alongside their other work and priorities?

Integrations

Can my team pull in data and content from my other incident tools?

当社が推奨する製品: Jira Software

次の記事
KPIs