Close

Jira Service Management におけるインシデント管理の仕組み

概要

インシデント管理は、予期しないイベントまたはサービス中断に対応して、サービスを運用状態に戻すプラクティスです。

  • インシデント: サービスの予期しない中断、またはサービスの品質の低下。
  • 重大なインシデント: ビジネスに重大な影響を及ぼし、即時の協調的な解決が必要となるインシデント。

問題は、1 つ以上のインシデントの背後にある未知の根本原因です。

インシデントの修正に取り組んでいる人形

アトラシアンのインシデント管理プラットフォームでは、インシデントを迅速かつ効率的に解決するために必要なすべてのコンテキストとデータをご提供します。

  • Jira Service Management 内で、エージェントは課題やユーザーから報告されたインシデントを簡単に管理できます。
  • エージェントは、重大なインシデントをアラートとしてオンコール チームに迅速にエスカレーションできます。Jira Service Management では、アラートを一元化して適切な担当者に通知し、IT チームと DevOps チームが連携して迅速にアクションを実行できるようにすることで、インシデント時も制御できるようにします。
  • Jira Service Management のネイティブ アセットと構成管理機能 (Premium と Enterprise の各プランに含まれる) によって、エージェントは IT インフラストラクチャ内の依存関係を理解して、インシデントの潜在的な原因を特定できるようになります。
  • 最後に、共有ワークスペースには、ランブック、ナレッジ ベース、PIR からのインシデント プラクティス、プロセス、手順が 1 か所にまとめられています。

このシームレスなエンドツーエンドのインシデント管理ソリューションによって、チームはエスカレーションを行い、適切な対応者を活用し、一丸となって、最終的にダウンタイムを最小限に抑えられます。

インシデント管理プロセス

アトラシアンのインシデント対応の図

インシデント管理の鍵は、優れたプロセスを設定して、それに従うことです。インシデント対応はかなり広範な用語です。ですので、インシデントの特定、カテゴリ化、優先順位付けが済んだ後で、最も実行する可能性の高いステップにさらに分割してみましょう。

  1. 初期診断: DevOps スタイルのチームは通常、診断から解決までのインシデントを所有して、多層型サービス デスクでは最前線のチームが同じことを試みますが、必要に応じて第 2 レベルまたは第 3 レベルのサポート チームにエスカレーションできます。
  2. エスカレーション: 必要に応じて、次のチームはログに記録されたデータを受け取り、診断プロセスを続行します。このチームがインシデントを診断できない場合は、次のチームにエスカレーションします。
  3. コミュニケーション: チームは、影響を受ける社内外の関係者と定期的に情報を共有します。
  4. 調査と診断: これは、インシデントの性質が特定されるまで続きます。解決の助言と支援を受けるため、チームが外部リソースまたは他の部門のメンバーに参加を依頼する場合もあります。
  5. 解決と復旧: このステップでは、チームは診断を完了して、インシデントを解決するために必要なステップを実行します。一部の修正 (バグのパッチなど) は、適切な解決策が特定された後も、テストおよびデプロイが必要な場合があるため、復旧は単にサービスが完全に元どおりになるまでにかかる労力を意味します。
  6. クローズ: インシデントがエスカレーションされた場合は、最終的に最前線に戻されてクローズされます。品質を維持してスムーズなプロセスを確保するため、インシデントのクローズはサービス デスクの従業員のみに許可されています。インシデントの所有者はインシデントの報告者に解決が満足のいくものであったことを確認する必要があり、確認できたらインシデントをクローズできます。
電球が描かれた本

詳細については、インシデント管理のページをご覧ください。


Jira Service Management でインシデント管理を開始する方法

インシデント管理を開始する方法

Jira Service Management では、Jira Service Management 用のインシデント管理ワークフローと呼ばれる、IT インフラストラクチャ ライブラリ (ITIL) 準拠のインシデント管理ワークフローを提供します。このワークフローから開始して、使用していく中で固有のビジネス ニーズに合わせて適宜変更を加えることをお勧めします。ワークフローの編集に関する詳細をご参照ください

既定では、エージェントに表示されるインシデントのビューには次のフィールドが含まれます。追加のフィールドが必要な場合、カスタム フィールドを追加することもできます。

インシデント レコードのサービス レベル アグリーメント (SLA) を作成する方法

Jira Service Management には強力な SLA が組み込まれているため、チームは自身がカスタマーの期待するサービス レベルをどの程度遵守できているかを追跡できます。プロジェクト管理者は SLA 目標を作成して、追跡するリクエストのタイプと、それらの解決にどのくらいの時間をかけるべきかを指定できます。その後、SLA の測定を開始、一時停止、または停止するタイミングに影響を与える条件やカレンダーを定義できます。

新しい SLA を作成するには、次の手順を実行します。

  1. サービス プロジェクトで [プロジェクト設定] > [SLA] の順に移動します。ここには、既存のすべての SLA が表示されます。
  2. [SLA の追加] を選択します。
  3. 時計アイコンの横のフィールドに、SLA の新しい名前を入力するか既存の名前を選択します。
    1. (SLA を作成したあとは SLA の名前を変更できないため、SLA の測定内容を明確に説明する名前を入力してください。)
  4. SLA の目標と条件を設定します。詳細については、SLA 目標をセットアップするSLA の時間メトリックをセットアップするをご確認ください。
  5. [保存] を選択します。

Jira Service Management でインシデントを重大なインシデントとしてマークする方法

重要なサービスが停止した際に、Jira Service Management Cloud はエージェントがインシデントを迅速に解決するために役立つ必要なツールを提供します。インシデントを重大としてマークすると、その他のインシデントとの視認性が向上します。また、これらのインシデントは JQL による独自の「重大なインシデント」キューにグループ化されます。

インシデントを重大なインシデントとしてマークするには、次の手順に従います。

  1. 重大なインシデントとしてマークするインシデントに移動します。
  2. 課題の詳細セクションにある [重大なインシデント] トグルをオンにします。
Jira Service Management で重大なインシデントをマークする

注: インシデントに重大なインシデント フィールドが表示されない場合は、課題ビューでフィールドを追加していることをご確認ください。課題タイプにフィールドを追加するには、Jira 管理者である必要があります。

インシデントから直接 Slack チャネルに更新を作成して送信する方法

Jira Service Management では、ワークスペースを接続して各インシデントに専用の Slack チャネルを作成できます。Slack ワーク スペースをサービス プロジェクトに接続すると、インシデント用の Slack チャネルを作成、インシデント担当者を Slack チャネルに追加、インシデント優先度を更新、インシデントに対するアクションを実行、インシデント時のチームによる迅速な対応をサポートできるようになります。

インシデント用 Slack チャネルを作成するには、次の手順に従います。

  1. Slack チャネルを作成するインシデントに移動します。
  2. 課題の詳細セクションで [チャネルを作成] を選択します。
Jira Service Management でインシデント用 Slack チャネルを作成する

社内の関係者にインシデントの最新情報を送信する方法

社内の関係者とは、対応者ではないものの、予防措置とアクションを実行するためにインシデントの進捗に関する最新情報を必要とする人々を指します。Jira Service Management では、ユーザーを関係者として追加してメール メッセージを送信することで、最新情報を提供できます。

社内の関係者を追加または削除するには、次の手順に従います。

  1. 社内の関係者を追加するインシデントに移動します。
  2. 詳細の下にある関係者のフィールドの横の [管理] を選択します。
  3. 関係者として追加するユーザーを検索します。

社内の関係者に最新情報を送信するには、次の手順に従います。

  1. 課題ビューの [アクティビティ] セクションで、[Update stakeholders (関係者を更新)] を選択します。
  2. 要約とメッセージを入力します。
  3. [送信] を選択します。
Jira Service Management でインシデントの最新情報を社内の関係者に送信する

電話会議によってチーム一丸となってインシデントに対応する方法

Jira Service Management ではビデオ/音声会議室を提供しており、一元化された場所からインシデントを調整して管理できます。

電話会議を開始するには、次の手順に従います。

  1. 電話会議を開始するインシデントに移動します。
  2. 詳細の下にある電話会議フィールドの横にある [電話会議を開始] (または既存の電話会議の場合は [電話会議に参加]) を選択します。
Jira Service Management で電話会議を開始、または電話会議に参加する

インシデント事後レビュー (PIR) にアクセスして作成する方法の詳細

インシデント事後レビューは、システム内の脆弱性を発見して繰り返されるインシデントを阻止し、将来のインシデント解決までの時間を短縮する機会を提供します。これらは常時稼働するサービスのライフサイクルにおける重要なステップとなります。レビューによって明らかになった事実を計画プロセスにフィードバックして、今後の作業に対して重要な修正を適用する必要があります。インシデントの内容とチームがそれをどのように解決したかを文書化することで、今後のインシデントに対する対応方法を周知できます。チームはインシデントにつながる問題に対する長期的なソリューションを作成して、インシデント事後レビューを Jira Service Management のインシデントにリンクできます。

インシデント事後レビューの機能を有効にするには、次の手順に従います。

  1. [プロジェクト設定] > [機能] の順に移動します。
  2. [ITSM カテゴリ] で [インシデント事後レビュー] をオンにします。

このカテゴリを有効にすると、リクエストの新機能にアクセスできるようになります。開始するには、新しいリクエスト タイプを作成するか、既存のリクエスト タイプをインシデント後レビュー カテゴリに割り当てる必要があります。

インシデント事後レビューにアクセスするには、次の手順に従います。

  1. プロジェクトのサイドバー メニューで [インシデント事後レビュー] を選択します。
  2. インシデント事後レビューの該当するキューを選択します。
Jira Service Management でインシデント事後レビューにアクセスする

新しいインシデント事後レビューを作成するには、次の手順に従います。

  1. 上部のメニュー バーで [作成] を選択します。
  2. ドロップダウンから、作成したインシデント事後レビューのリクエスト タイプを選択します。
  3. 必要な情報を入力して、該当するインシデントをリンク済みの課題フィールドの PIR にリンクします。
  4. 終了したら [作成] を選択します。

プロのヒント: インシデント事後レビューは、Jira Service Management のネイティブな自動化エンジンでも作成できます。たとえば、自動化ルールを設定して、重大なインシデントや優先度が非常に高いインシデントをチームが解決するたびに、インシデント事後レビューを作成できます。

Jira Service Management でインシデント事後レビューを作成する

複数のインシデントを問題報告にリンクする方法

Jira Service Management によって、複数の課題をまとめてリンクできます。たとえば、複数のインシデント レコードを大きな問題報告にリンクできます。

複数のインシデントを問題報告にリンクするには、次の手順に従います。

  1. インシデントレコードを表示します。
  2. [課題のリンク] を選択します。
  3. リンク済みの課題フィールドで [is caused by (発生原因)] を選択します。
  4. [課題] フィールドでリンクしたい課題を入力 (またはドロップダウン メニューから選択) します。
  5. リンクを選択します。

インシデント管理のベスト プラクティスとヒント

ユーザーおよびシステムから報告されたインシデントを簡単に取得できるようにする

Jira Service Management は、軽微なインシデントと重大なインシデントの両方にとって信頼できる情報源です。カスタマー ポータルは、サポート チームがインシデントを評価するために必要なすべての情報と併せて、完全かつ一貫性のある方法でユーザーが報告したインシデントを取得します。従業員または顧客がインシデントを発見した際は、Jira Service Management で報告できます。その後、インシデントは適切なエージェント キューに割り当てられます。

インシデントやシステム停止を早期に検出するには、IT 運用にとって効果的な監視が情報源になります。システムが検出したインシデントの場合、Jira Service Management は Slack、Datadog、Sumo Logic、Nagios などの 200 を超えるアプリと Web サービスと簡単に統合してアラート データを同期し、インシデントのワークフローを合理化します。

Jira Service Management のカスタマー ポータル

優れたオンコール スケジューリングでアラートによる疲弊を軽減する

オンコール スタッフに無関係なアラートが殺到すると、アラートによって疲弊し始めて重要な通知を見逃してしまいます。Jira Service Management に組み込まれているインシデント管理機能によって、チームは重要なアラートを絶対に見逃さなくなります。

Jira Service Management のオンコール スケジューリング

1 つのインターフェイス内でスケジュールを作成し、エスカレーション ルールを定義することで、チームはインシデント中にオンコール担当者と説明責任者を常に把握できます。ソリューションでは、テキスト、電話、モバイル プッシュ、またはメールなどの複数のチャネルに加えて、直ちに解決を開始するために必要な関連コンテキストも利用して、アラートのグループ化、ノイズの除去、チーム メンバーへの通知を行います。

ChatOps とランブックを使用してチームの調整を改善する

Jira Service Management によって、チームはインシデント コマンド センターとコラボレーション、リアルタイムで情報を共有、迅速に解決するための一元化された場所を保持できます。断片化された 1 対 1 のチャットのアップデートをナビゲートしたり長い対話履歴をスクロールしたりせずに、チームが動的にチャットして役割を割り当て、さらにはインターフェイスで直接決定的なアクションを実行できるように、ビデオ会議室を事前に定義します。ランブックをアラートに添付することで、チームは標準の修正タスクを自動またはオンデマンドで迅速に開始できます。

Jira Service Management でチームを調整する

ランブックは、アラートに対処して停止を解決するための一般的なトラブルシューティング方法の文書化にも最適です。ランブックによって、スタッフはインシデントの迅速なトリアージに必要なすべての情報をすぐに入手できます。多くの場合、チームはインシデント解決時間を 40% 短縮できます。

ランブックの文書化に Confluence を活用

積極的なインシデント管理プレイブックを確立する

インシデント対応戦略を事前に計画します。ストレスを軽減し、インシデント時もチームが集中力を維持できるようにし、解決までの時間を短縮できます。運用上、およびチーム ベースのコラボレーションの両方のプラクティスを含めるようにします。

  • インシデント対応においてチームが最も重視することを特定して、それらの価値を一貫して実践する計画を作成します。たとえば、価値は、コラボレーション、コミュニケーション、「誰も責めない」インシデント事後レビューである場合があります。
  • 重大なインシデントと見なす条件を明確に定義する。
  • 重大なインシデントのプラクティスを文書化する。
  • 対応テンプレートや関係者 (外部と社内) 向けのコミュニケーションなど、インシデント対応コミュニケーションを確立する。
  • 多くのチームからなるインシデント対応チームで中核となるチーム メンバーを決定する。
  • PIR プラクティスを確立する。
  • すべての重大なインシデントに対して非難なき PIR を実施する。
  • PIR で学んだことを公開して共有する。
  • 重大なインシデントのシミュレーション訓練を実施する。

平均復旧時間 (MTTR) の改善に重点を置く

インシデントの影響を軽減してサービスを迅速に復旧するには、強力なインシデント管理プロセスの確立が不可欠です。対応を改善する鍵は、平均復旧時間 (MTTR) を短縮して根本原因分析を合理化し、将来のシステム停止を防止することです。実際、Forrester では、インシデント対応時間の 70% が調査と診断のフェーズに費やされていることがわかりました。

平均復旧時間と継続的改善の図

一元化された外部コミュニケーションで信頼関係を構築する

多くのチームは Statuspage などの一元管理されたダッシュボードを利用して、重要なサービスのステータスを報告しています。Statuspage は自動通知と更新に加えて、社内外のユーザーに対する明確かつプロアクティブな大量のコミュニケーションのための単一のチャネルとして機能します。

Statuspage では、スケジュールされたダウンタイムと計画外のダウンタイムの両方について社内チームに情報を通知します。顧客と従業員は更新通知を受け取ることができるため、一貫したコミュニケーションが促進され、手動による更新が削減されます。

一元管理されたダッシュボードとして利用される Statuspage を示すスクリーンショット
電球が描かれた本

詳細については、インシデント管理のベスト プラクティスのページをご確認ください。


はじめに

サービス リクエスト管理

はじめに

問題管理