インシデント管理ツールの選択方法
カテゴリー、主な機能、求めるもの
インシデント管理には万能のツールはありません。
最もパフォーマンスの高いインシデント チームは、適切なツール、プラクティス、人材を使用しています。
インシデント管理に固有のツールもあれば、チームが他のタスクにも使用する汎用ツールもあります。統合とカスタマイズのレイヤーの上に構築された、オーダーメイドのツールが使用される場合もあります。
ユース ケースにかかわらず、優れたインシデント管理ツールには共通点がいくつかあります。優れたインシデント管理ツールは、オープンで信頼性が高く、適応性に優れています。
オープン: インシデントのようなプレッシャーの高い環境では、適切なユーザーが適切なツールと情報にすぐにアクセスできることが重要です。これは、インシデント対応者だけでなく、対応の取り組みを可視化する必要がある企業関係者にも当てはまります。
信頼性: インシデント対応時には、主要な対応ツールが停止する以上の最悪の事態はありません。Slack や Opsgenie などのクラウド ツールを活用することで、インフラストラクチャの停止による対応ツールの停止リスクを最小限に抑えることができます。
適応性: 統合、ワークフロー、アドオン、カスタマイズ、API などはすべて、製品に秘められた可能性を切り開きます。既成の構成から始めることもできますが、慣行やプロセスが成熟するにつれ、変化するニーズに対応できる柔軟性を備えたツールが必要になります。
インシデント発生前
監視
監視システムにより、DevOps チームと IT Ops チームは、何千もの異なるサービスから送信されるデータをリアルタイムで収集、集計、トリガーできます。これらは、サービスの健全性を完全に可視化するために不可欠であり、多くの場合、インシデント中に最初のアラーム ベルをトリガーします。
利点
監視ツールにより、チームはインフラストラクチャの健全性を常に把握できます。最新の監視ツールでは、予期しないアクティビティの発生時にアラートを事前にトリガーします。
利点
監視ツールにより、チームはインフラストラクチャの健全性を常に把握できます。最新の監視ツールでは、予期しないアクティビティの発生時にアラートを事前にトリガーします。
機能
Monitoring tools give your team constant insight into the health of the infrastructure. Modern monitoring tools also proactively trigger alerts during unexpected activity.
| |
---|---|
Feature Set | Questions to ask |
24/7 coverage and analytics | Does the tool have visibility into all my servers and infrastructures? |
Integrates with alerting tools | Can my team see real time analytics and dashboards and set alerting thresholds? |
| Does the product integrate with my alerting and on-call tool? |
サービスデスク
サービス デスク ソフトウェアを使用すると、顧客や従業員はインシデントや潜在的なインシデントを報告できます。
利点
他の多くのユース ケース (サービスリ クエスト、IT ヘルプ デスク) と連動したサービス デスクにより、チームは最も重要な人 (ユーザーや顧客) からインシデントについて素早く把握することができます。
機能
| |
---|---|
Feature set | Questions to ask |
Enable self serve | Can customers quickly file tickeCan customers quickly file tickets through a self-service support portal? |
| Can customers find the help they need with automated knowledge-based suggestions? |
当社が推奨する製品: Jira Service Management
警告およびオンコール
迅速かつ信頼性の高いアラートは、インシデント対応の重要なステップです。これにより、チームは適切な人に確実にインシデントを伝えることができます。
利点
アラート ツールは、スケジュール、エスカレーション パス、通知の高度な組み合わせを通じて、指定されたオンコール対応者に通知します。
機能
| |
---|---|
Feature set | Questions to ask |
Works globally | Can I send notifications (SMS, voice, email) to almost anywhere? |
Multiple notification methods | Can I send notifications using multiple notification methods like email, SMS, phone, and mobile app push and try them multiple times? |
当社が推奨する製品: Opsgenie
インシデント発生中
迅速な解決のための構成管理データベース (CMDB) の活用
インフラストラクチャ内の相互依存性の理解は、インシデントの完全な影響を判断し、より迅速な解決を実現するための鍵となります。
利点
CMDB は、IT インフラストラクチャ内の関係と依存関係を把握するのに役立ちます。何かがダウンした場合、このマップによって迅速に次を見つけることができます。
- インシデントの潜在的な原因。たとえば、ボタンをクリックするだけで、サービスが実行されているホストを特定できます。
- インシデントのトリクルダウン効果。たとえば、同じ、問題のあるホストで実行されている他のサービスを検出します。
つまり、インシデントのすべての側面を迅速に調査し、周知することができます。
| |
---|---|
Feature set | Questions to ask |
Multiple channels | How flexible is the CMDB? Can I store any CI or asset? |
Integrations | Can I visualize my infrastructure graphically? |
| Can I link CIs/assets with my service desk issues? |
| Can I link CIs/assets to change requests? |
当社が推奨する製品: Insight
インシデントにより迅速に対応
インフラストラクチャとその依存関係を Jira 内でネイティブにマッピングします。インシデントの原因をすばやく特定して解決し、稼働時間を増やしましょう!
チームコミュニケーション
インシデント管理では、明確で信頼性の高いコミュニケーションが極めて重要です。
利点
優れたコミュニケーション プラットフォームは、チームがコミュニケーションをとり、見解、リンク、スクリーンショットをタイムスタンプ付きで共有し、保存する上で役立ちます。これにより、インシデント中に適切な情報と人を集結させ、インシデント後に学習できる豊富な記録が作成されます。
機能
| |
---|---|
Feature set | Questions to ask |
Multiple channels | Can my incident response team quickly spin up a dedicated channel for an incident? |
Integrations | Can other tools in my incident toolchain post into my team's communication channel? |
顧客とのコミュニケーション
顧客コミュニケーション ツールは、インシデント中に顧客に常に情報を周知するために役立ちます。
利点
間違いなく、インシデントは通常、顧客にとって悪い経験です。顧客への情報提供を維持することで、信頼が構築され、対応作業を迅速化できます。顧客とのコミュニケーションにより、インシデントを認識して修正に取り組んでいると知らせることができます。
機能
| |
---|---|
Feature set | Questions to ask |
Off of my infrastructure | Will my communication tool be operational and accessible even if my internal infrastructure is down? |
Subscribers and notifications | Can customers opt in to get notifications when I post about an incident? |
当社が推奨する製品: Statuspage
インシデント コマンド センター
インシデント コマンド センターとは、インシデントに関する標準的な記録とその重要な詳細情報が記載されている場所のことです。これには Opsgenie のようなインシデント ツール、または Jira のような課題追跡ツールが使われる場合があります。
利点
コマンド センター ツールは、インシデントの状態、関連するアラート、更新などの重要な詳細情報をリスト化し、インシデント発生中およびインシデント発生後に全員に情報を共有する場を提供します。また、インシデントおよびそれに関連する対応作業の履歴記録も提供します。
機能
| |
---|---|
Feature set | Questions to ask |
Source of truth | Can team members and stakeholders use this record to locate all the other details of the incident and response activities? |
Timeline | Does the tool aggregate a chronological timeline of key events? |
| Can team members and stakeholders quickly get up to speed on the incident? |
当社が推奨する製品: Opsgenie
インシデント発生後
事後分析
事後分析とは、インシデント発生中に起こったこと、およびその再発を防ぐために取られたフォローアップ行動の書面での記録です。
利点
インシデントが解決された後も、チームはまだ根本原因を把握できておらず、同じインシデントが再発する可能性がある場合が多くあります。事後分析は、インシデント後の分析のためにチームをまとめることで、再発の防止に役立ちます。
機能
| |
---|---|
Feature set | Questions to ask |
Templates | Can my team use a template to fill out a postmortem? |
Map out next actions | Can my team plan out next actions and remediation work during a postmortem? |
当社が推奨する製品: Opsgenie
課題トラッキング
課題追跡ツールは、チームが今後行う必要がある修正作業のマッピングに役立ちます。
利点
多くの場合、インシデントを解決すると、根本原因に対処することなくサービスがオンラインに戻ります。通常、根本原因を修復し、インシデントが繰り返されないことを確認するために、より多くのエンジニアリング作業を行う必要があります。課題と作業追跡ツール (チームが既に他の開発作業に使用しているものであればなお良いです) は、この作業が優先され、無視されないようにするために役立ちます。
機能
| |
---|---|
Feature set | Questions to ask |
Shared workflow pipeline | Can my team plan any incident remediation work alongside their other work and priorities? |
Integrations | Can my team pull in data and content from my other incident tools? |
当社が推奨する製品: Jira Software
Statuspage でインシデント コミュニケーションを学ぶ
このチュートリアルでは、システム停止時にインシデント テンプレートを使用して効果的にコミュニケーションを取る方法について説明します。さまざまなサービス中断に適応可能です。
このチュートリアルを読むインシデント コミュニケーション テンプレートと例
インシデントに対応する際は、コミュニケーション テンプレートが非常に有用です。Atlassian のチームが使用しているテンプレートと、一般的なインシデント用のさまざまなサンプルをご覧ください。
この記事を読む