Opsgenie のアラート機能とオンコール機能が、Jira Service Management と Compass で利用できるようになりました。当社の自動移行ツールを使用して、2027 年 4 月 5 日までに既存の Opsgenie のデータと構成を移行してください。

IT オペレーションのプロのようにインシデント管理プロセスに習熟する

私のチームは、アトラシアンのクラウドアプリとインフラストラクチャが常に最高のパフォーマンスを発揮するように努めています。急成長を続けながら、これを実現する方法をぜひ共有したいと思っています。ニュージーランド出身であるという言語的なハンデはありますが、"フィッシュ & チップス" はきちんと発音できます。プライベートでは、サイクリングやゲームをするか、妻と可愛い娘と一緒に時間を過ごしています。

はじめに述べておきたいことは、現場にいるサポート担当者はあらゆるビジネスの陰の英雄であるということです。

あらゆるビジネスです。

無料の ITSM ランブックテンプレートを使用する

技術サポートはサービス業とみなすべきであり、優れたサービスを提供するエージェントには顧客がチップを置けるようにするべきだと真剣に考えています。私なら、課題を笑顔ですばやく解決してくれた優れたサポート担当者全員に、喜んでチップを置きたいと思います。そうできればの話ですが。

ここで横道に逸れますが、この記事をご覧になっている方はまず間違いなくヘルプデスクチームのマネージャーやメンバーでしょう。そして、おそらく今は狂騒状態にあり、それに関連する影響もあるのでしょう。ですので、まずはそれを何とかしてから、IT インシデント管理プロセスを制御しましょう。

ただし、インシデント管理について詳しく見ていく前に、一般的な用語に関する認識を揃えておきましょう。

ITSM とインシデント管理

IT 業界に身を置いているのであれば、ITIL、ITSM、インシデント、問題についてよくご存じでしょう。しかし、認識を揃えるために、Atlassian でこれらを使用する場合の定義をここで簡単に紹介します。

ITIL (IT インフラストラクチャライブラリ) は、ITSM の一連のベストプラクティスです (プレイブックのようなものと考えてください)。

ITSM (IT サービス管理) は、IT サービスの作成、サポート、管理を行うための一般的なアプローチです。ITSM のコアコンセプトは、IT をサービスとして提供する必要があるという信念です。また、ITSM のコアプラクティスの 1 つは、インシデント管理です。

インシデントは、サービスの質を損なう、または低下させる (または脅かす) あらゆる種類の予期しないイベントです。ビジネスアプリケーションのダウンは、インシデントです。停止はしていないが著しくパフォーマンスが落ちている Web サーバーもインシデントです。動作が遅いために、生産性を低下させています。さらに悪くなると、完全な障害を引き起こす大きなリスクをもたらします。

問題は、1 つ以上のインシデントの背後にある未知の根本原因です。ネットワークが遅くなってビジネスアプリケーションがダウンしている上記のインシデントでは、ルーターの構成ミスがその両方の背後にある根本的な問題である可能性があります。

ITSM プラクティスとしてのインシデント管理の重要性

さて、なぜインシデント管理を行うのでしょうか? なぜインシデント管理は ITSM の世界の一部ですらあるのでしょうか?

答えはその影響にあります。調査によると、重大なインシデントが発生すると、システムがダウンしている 1 時間ごとに 10 万ドルから 30 万ドルのコストがかかります。

インシデント管理プロセスを明確に定義することで、これらのコストを大幅に削減できます。明確に定義されたプロセスのメリットは次のとおりです。

より早いインシデント解決
組織のコストまたは収益損失の削減
インシデント発生中のコミュニケーション (内外部の両方) の向上
継続的な学習と改善

インシデント管理ワークフロー

ITIL フレームワークを使用して、適切なチケット処理の大まかな概要を説明しますが、他の多くの一般的なフレームワークでも、使われる専門用語は少し異なるだけでほぼ同様のコンセプトで説明できます。

インシデント管理の鍵は、優れたプロセスを設定して、それに従うことです。

それでも困難なように思えるかもしれませんが、良い点は、何千もの他の IT サービスチームの経験から学べるということです。

成長する多忙な IT 組織の主な間違いの 1 つは、(ベストプラクティスを利用せずに) 一からやり直してプロセスをゼロから作成したり、チケットを処理するために自社製の開発ツールを構築したりすることです。

インシデントの特定と記録

インシデントはどこからでも発生します。従業員から報告を受けることもありますし、ネットワークハブの設置ミスと天井の雨漏りが重なった場合には、文字どおり天井タイルから膝の上に落下することだってありえます(経験談ではありませんので悪しからず)。

どこから報告を受けたかに関係なく、最初の 2 つのステップはシンプルです。誰かがインシデントを特定した後に、誰かがそれを記録します。

サービスデスク経由ですでに記録されているインシデントを受信した場合、これらの最初の 2 つのステップはすでに完了しています。インシデントについて電話を受けた場合や E メール、テキスト、または伝言で報告を受けた場合は、それをサービスデスクに適切に記録するのは、サービスデスクチームの仕事です。

通常、これらのインシデント記録 (すなわち、チケット) には以下の内容が含まれます。

そのインシデントの報告者の名前
インシデントが報告された日時
インシデントの説明 (何がダウンしている、または適切に動作していないか)
追跡するためにインシデントに割り当てられた一意の識別番号

インシデントの分類

次の 2 つのステップ、カテゴリー化と優先順位付けは、どちらも重要ですがよく見過ごされます。ここが、私が使用してきた、より「健全な」サービスデスクが他と大きく異なる点です...まあ、それほどではありませんが。

最初に、論理的で直感的なカテゴリ (必要に応じて、サブカテゴリ) を、すべてのインシデントに割り当てる必要があります。そのように割り当てないと、後でデータを分析して傾向やパターンを探せなくなります。これは、効果的なインシデント管理と将来のインシデント防止の重要な部分です。

基本的に、このことは常に念頭に置いてください。そして、インシデントカテゴリを簡単にカスタマイズできないもので IT サービスデスクソリューションを妥協しないでください。

インシデントの優先順位付け

次に、すべてのインシデントに優先順位を付ける必要があります。

インシデントに優先順位を付けるには、まず、業務への影響を評価します。影響を受けるユーザーの数と、財務、セキュリティ、コンプライアンスへのインシデントの潜在的な影響の両方を考慮して、インシデントによって生じる問題の程度と業務に対する解決の緊急性を判断します。

ここでのベストプラクティスは、インシデントが発生する前に重大度と優先度を定義することです。これにより、インシデントマネージャーが優先度を迅速に測定しやすくなります。

優先度について確信が持てない場合は、高い方の優先度を選択します。何か重大なことを見落とすよりは、慎重すぎる方が無難です。

これらの優先度を設定したら、オープンしているすべてのインシデントを優先順位順に解決します。ほとんどの組織では、優先度ごとに明確なサービス契約を設定しているため、顧客は対応と解決がどの程度迅速に行われると期待されるかを把握できます。このように実践することを強くお勧めします。

応答

インシデント対応はかなり広範な用語です。ですので、インシデントの特定、カテゴリ化、優先順位付けが済んだ後で、最も実行する可能性の高いステップにさらに分割してみましょう。

初期診断 これを、病院が新しい患者に行うトリアージ機能として考えてみてください。サービスデスクの従業員は、何が問題であるかについて迅速な仮説を打ち立てることにより、修正に着手するか、適切な手順に従うか、解決のための適切なリソースを集めるかのいずれかに着手できます。

ナレッジベースと診断マニュアルは、このステップにおいても有効なツールです。

1 次レベルのサービスデスクエージェントが、自身の初期診断に基づいて利用可能なナレッジとツールを使用してインシデントを解決できた場合は、ここで解決済みとなります。そうでない場合は、エスカレーションします。

インシデントのエスカレーション エスカレーションは悪い意味に聞こえますが、そうではありません。

最前線のサポートチームは、最も一般的なインシデントの多くをエスカレーションせずに解決できるはずです。しかし、解決できない問題の場合、目指すべき目標は 2 次または 3 次レベル (より技術的な) のサポートが即座に対応に取りかかり、迅速にインシデントを解決できるように、適切な情報を収集して記録することです。

調査と診断 ITIL は、これを独自の 1 ステップとみなしています。実際には、インシデントのライフサイクル全体を通じて発生します。

最前線のサポート担当者は、情報の収集時にすでにある程度調査しており、診断に成功し、エスカレーションする必要なくインシデントの解決すら終わっているかもしれません。

その場合は、次の数ステップ、解決と復旧、およびインシデントのクローズを直接省略します。

それ以外の場合は、レベル 2 と 3 のサポートにエスカレーションすると調査と診断が行われます。または、解決をサポートするために外部リソースまたは他の部門のメンバーに参加してもらいます。

解決と復旧 最終的に、そして理想的には、設定された SLA (サービスレベルアグリーメント) で定めた時間内に、診断を行い、インシデントの解決に必要なステップを実行します。一部の修正 (バグのパッチなど) は、適切な解決策が特定された後もテストおよびデプロイが必要な場合があるため、復旧は単に運用が完全に回復するまでにかかる時間を意味します。

インシデントのクローズ その後、インシデントはサービスデスクに戻されて (エスカレーションされた場合)、クローズされます。品質を維持してスムーズなプロセスを確保するため、インシデントのクローズは、サービスデスクの従業員のみに許可されています。インシデント所有者はインシデントの報告者に解決が満足のいくものであったことを確認する必要があり、確認できたらインシデントをクローズできます。

結論：ステップは省略しない

数人のサービスデスクアナリストしかいない場合には、このプロセスが不必要に堅苦しく思えるかもしれません。しかし、チーム構造に関係なく、インシデントのライフサイクルは依然として同じです。

たとえば、サービスデスクアナリストが 1 人しかいないため、レベル 3 のサポートがないとします。しかし、サービスデスクアナリストの知識を上回るインシデントには、誰かが対応しなければなりません。それは、チーフエンジニア、社外コンサルタント、あるいはあなたであるかもしれません。

そのため、レベル 2 またはレベル 3 のサポート担当者が自社にいるとすれば、その役目は、あなたか同僚のエンジニアが果たすことになります。

つまり、ITIL はセマンティクスがすべてのように見えるかもしれませんが、その考えに囚われてはなりません。組織階層とプロセスワークフローを、前に説明したような簡単な IT サービス管理フレームワークに適合させる簡単な方法を探してください。

そうすることで、はるかに優れたカスタマーサービスを提供するとともに、より多くの価値をビジネスに戻せます (その上、あなたの狂騒状態も落ち着かせられるでしょう)。

最後に、いくつかの注意事項を示します。

すべてのインシデントを記録します。インシデントに一意の番号を付けます。そして、重要な詳細 (日時や説明など) を中央のヘルプデスクシステムで捕捉します。
インシデントの更新情報を伝える社内外の対象者が多い場合は、インシデントコミュニケーションのステータスページを検討します。
すべてのインシデントにカテゴリを割り当てます (必要に応じてサブカテゴリも割り当てます)。
すべてのインシデントに優先度を付けて、すべての優先度に SLA を設定します。
インシデント指揮官、重大なインシデント担当マネージャー、コミュニケーションリードなど、インシデント対応者のロールを明確に定義します。
可能な限り、ナレッジベース記事とインシデント診断スクリプトを最前線のサポートチームに提供して、インシデントを迅速に解決できるようにサポートします。
サービスデスクがインシデントの進捗状況、ルーティング、ステータスを常に制御できるようにします。
インシデントデータは、捕捉するだけではなく分析します。インシデントの量を削減してリスクを軽減する上で役立つ傾向、パターン、根底にある潜在的な問題を探します。

推奨

チュートリアル

Statuspage でインシデントコミュニケーションを学ぶ

このチュートリアルでは、システム停止時にインシデントテンプレートを使用して効果的にコミュニケーションを取る方法について説明します。さまざまなサービス中断に適応可能です。

このチュートリアルを読む

インシデントコミュニケーションのテンプレートと例

インシデントに対応する場合、コミュニケーションテンプレートが極めて有用です。Atlassian のチームが使用しているテンプレートと、一般的なインシデントに関するさまざまな例をご確認ください。

この記事を読む

インシデント管理についてもっと学ぶ

その他のインシデント管理ガイドとリソースについては、このハブをご確認ください。

詳細を見る

おすすめのアプリ

Atlassian Collections

Rovo

ユース ケース別

チーム別

サイズ別

業界別

Rovo

サポート

リソース

おすすめのアプリ

Jira

Confluence

Jira Service Management

Atlassian Collections

Rovo

Rovo

Rovo

Rovo

Rovo

Rovo

ユース ケース別

チーム別

サイズ別

業界別

Rovo

Jira

Confluence

Jira Service Management

ユース ケース別

チーム別

サイズ別

業界別

Rovo

IT オペレーションのプロのようにインシデント管理プロセスに習熟する

ITSM とインシデント管理

ITSM プラクティスとしてのインシデント管理の重要性

インシデント管理ワークフロー

インシデントの特定と記録

インシデントの分類

インシデントの優先順位付け

応答

結論：ステップは省略しない

推奨

Statuspage でインシデント コミュニケーションを学ぶ

インシデント コミュニケーションのテンプレートと例

インシデント管理についてもっと学ぶ

ユースケース別

ユースケース別

ユースケース別

Statuspage でインシデントコミュニケーションを学ぶ

インシデントコミュニケーションのテンプレートと例