ベロシティの高いチーム向けの ITSM
IT サービス継続性管理とは
IT サービス継続性管理 (ITSCM) は、ITIL サービス提供の重要なコンポーネントです。これは、災害レベルのインシデント前、中、後に、可能な限り最高レベルでサービスの可用性とパフォーマンスを維持することを目的として、インシデントの防止、予測、管理の計画に重点を置いています。
ITSCM の目標は、インシデントが必然的に発生したときに効率的で標準化されたプロセスを配置することにより、インシデントのダウンタイム、コスト、業務への影響を軽減することです。
計画がないと、インシデントの復旧を遅らせる (または停止させる) 要因がたくさんあるからです。結局、オンコールのエキスパートが、午前 3 時に目がかすんでいるときに応答している可能性があります。エキスパートは、数週間または数か月間ほど何か他のことに取り組んだために、コードに疎くなっている可能性があります。さらに、災害レベルのインシデントの規模でパニックになるかもしれません。または、課題解決の経験がそれほど多くなく、ディザスタ リカバリ チームの新入りメンバーである可能性があります。
サービス継続性管理に関してドキュメント化された明確な計画を立てることで、学習曲線、コードから離れた時間、災害パニック、または深夜のアラートに起因する遅延を最小限に抑えられます。
ITSCM と ITIL 4
ITIL 4 では、サービス継続性管理は、ビジネス継続性管理 (BCM) をサポートすることを目的としたプロセスです。このプロセスの目標は、重大なサービスの中断後に、合意された業務タイムライン内でサービスがバックアップされて実行されていることを確認することです。
ITSCM とインシデント管理
ITIL 4 では、さまざまな影響レベルでインシデントを処理するインシデント管理と、大規模災害の計画に関する ITSCM を区別します。
では、正確に災害を構成するものは何でしょうか? 答えは企業ごとに異なる場合がありますが、Business Continuity Institute では、災害を「組織に大きな損害または重大な損失を引き起こす突然の予期せぬ出来事。その結果、組織は、所定の最小時間で重要なビジネス機能を提供できない」と定義しています。
災害と呼ぶものの規模、所定の最小時間、重要なビジネス機能の定義は、各企業が各自で定義してドキュメント化する必要がある 3 つの要素です。
ITSCM とビジネス継続性管理 (BCM)
ビジネス継続性管理は、IT の外部で管理されるプロセスで、ビジネスに対するリスクを特定し、それらのリスクを軽減します。災害レベルのインシデントなど IT 関連のリスクもあれば、自然災害や施設火災など IT 関連外のリスクもあります。
BCM には ITSCM とその他のリスク軽減プロセスが含まれているため、IT チームが BCM チームと緊密に連携して以下を作成することは理にかなっています。
- 災害レベルの IT インシデントの防止と復旧に関する計画を含むビジネス継続計画 (BCP)
- IT 災害による潜在的な業務への影響を特定する、業務への影響分析 (BIA)
ITSCM の目標
ビジネスの観点からすると ITSCM の目標は、災害レベルのインシデントのダウンタイム、コスト、業務への影響を軽減することです。より戦術的なレベルでの目標は、次のとおりです。
- BCM と緊密に連携し、全体的なビジネス継続性を保護する
- 災害発生時の IT サービスの継続性と復旧に関する計画を作成して管理する
- ベンダーと協力して、ビジネスに関連する製品およびサービスのダウンタイムの影響を最小限に抑える
- リスクと影響を分析して、それに応じて経時的に計画を修正する
ITSCM プロセス
Atlassian では、災害計画のプロセスが進行中であり、リーダーシップ主導であり、徹底的なテストが行われていることを前提として、独自の継続性計画を立てています。当社ではお客様をないがしろにしないポリシーを掲げています。当社のプロセスには、計画、コミュニケーション、明確な責任、テスト、継続的改善が含まれています。
計画
計画プロセスは、大まかな質問をして、回答に基づいて計画を立てることから始まります。最初の質問には、次の内容を含める必要があります。
- 当社のインシデント対応は何ですか?
- 当社が従う価値は何ですか?
- どのような災害について計画する必要がありますか? 当社のビジネスに固有のリスクと脅威は何ですか?
- どのシステムをサポートする必要がありますか? どれが重要ですか?
- 各災害が発した場合、どのように対応しますか?
- 重要なシステムをサポートして復元するために必要な情報はどこにありますか?
- その情報を一元化して復元プロセスを簡素化するには、どうすればよいでしょうか?
- 情報とプロセスのドキュメント化は、それを管理するチームが協働してレビューできますか?
これらの質問に対する回答が得られたら、次のステップでは、これらの回答を使用して以下を定義します。
- ディザスタ リカバリに関するポリシー
- IT の責任範囲
- 各リスクの業務への影響の範囲
- リスク シナリオごとの計画およびプロセス
- 人的およびドキュメント化に関する要件
ITSCM 計画フェーズの成功への鍵は、得られた計画をドキュメント化してテンプレート化し、明確かつ再現性のあるものにすることです。インシデント対応プレイブックやその他のランブックなどのアセットを持つことは、大きなリスクを伴うシナリオにおいて対応者の信頼性と効率性の源となります。
ITSCM の精神に基づき、Confluence を搭載した Jira Service Management など、組み込みのナレッジ ベースにアクセスできるソリューションでは、改訂、最適化、コラボレーションを可能にする継続的なドキュメントを実現できます。これによって、対応者は以前の解決ドキュメントと最新のリソースにアクセスできます。
明確な責任
災害発生時の責任者は誰ですか? 計画、プロセス、ドキュメントを維持して更新する担当者は? ITSCM では災害そのものだけでなく継続的な監視と改善に関しても、常に役割と責任を明確に意識している必要があります。Jira Service Management によって対応者は課題に対して適切な関係者または担当者をタグ付けして責任が適切に委任されていることを確認し、部門を超えたコラボレーションを促進できます。
Atlassian では、アプローチの一環として、当社のサイト信頼性エンジニアおよびリスクおよびコンプライアンス チームとのディザスタ リカバリ ミーティングを定期的に開催しています。ディザスタ リカバリにおけるギャップについて話し合い、追加の計画、改善、評価、変更を行う必要がある場所を特定します。
コミュニケーション
Atlassian ではオープン性はコア バリューであり、組織が ITSCM 計画について多くの情報を得ているほど、その計画はより効果的になると考えています。
柔軟なコミュニケーション チャンネルをインシデント対応プロセスを通じて提供することで、各チームは希望する方法で連絡を取り続けられます。Jira Service Management は複数のコミュニケーション チャンネルを統合して、埋め込み可能なステータス ウィジェット、専用 Statuspage、電子メール、チャット ツール、ソーシャル メディア、SMS などのダウンタイムを最小限に抑えます。
コミュニケーションは関係者を確保して経営幹部が災害レベルのインシデント発生時にパニックになることを防ぐだけでなく、必要に応じてチームが他のチームにサポートを求めて組織の混乱による摩擦のリスクを軽減できます。
テスト
テストしない場合、計画が機能するかどうかをどのようにして確認しますか? これは ITSCM の基本的な質問であり、テストとインシデント管理の訓練がプラクティスの成功に不可欠である理由です。
テストは、プロセスの弱点、予期せぬ課題、チームの再トレーニングやより良いドキュメント化が必要な場所を特定するのに役立ちます。
評価と改善
ITSCM は、1 回で完了するプロセスではありません。事前の周到な計画と継続的なトレーニング、評価、改善が必要です。そのため、定期的にディザスタ リカバリ ミーティングを開催しています。また、システムのバックアップをテストして、データ センターの停止や AWS リージョンの障害が発生した場合に何が起こるかについて訓練を実行します。さらに、役立つ ITSCM 計画が継続的に監視されて変化し続けます。
ほとんどの企業は ITSCM プロセスを一連のステップとして表していますが、当社は円のようなものだと考えています。計画は、定義された役割と責任につながる必要があります。そこから、チームは組織全体でコミュニケーションをとって何度もテストし、評価、監視、改善します。それらの改善において、計画を更新し続けて役割をさらに定義し、コミュニケーションし続ける必要があります。
ここでも、組み込まれた共同ナレッジ ベースが役立ちます。ナレッジ ベースの記事は、評価とドキュメント化の貴重なリソースとなります。インシデント事後分析報告書はインシデント発生後の修正や修復に欠かせないものであるだけでなく、将来起こりうる問題に関しても長期的なリソースとして機能します。Confluence を搭載した Jira Service Management は、評価と改善のソリューションを実行するための強力な共同プラットフォームを提供します。
ITSCM の役割と責任
組織全体で ITSCM プラクティスを効果的に計画して実装するために、多くの企業がサービス継続性マネージャーとサービス継続性リカバリ チームを任命しています。
サービス継続マネージャー (SCM)
名前のとおりサービス継続性マネージャーは、サービス継続性を監督する責任があります。この担当者は通常、プロセスの最初から最後までを所有して計画の策定を主導し、継続的な監視および評価活動を管理し、災害発生時の処置の計画を監督します。
この担当者は通常、経験豊富な上級レベルの技術サポートの専門職ですが、管理の役割を担っていて日々の技術に直接関与していない場合があります。
サービス継続性リカバリ チーム
SCM が主導するこのチームは、テストとインシデントの訓練を実行して ITSCM を継続的に改善する責任があります。チームには通常、技術スタッフ、テストを実行するための QA の専門職またはユーザー、および ITSCM とそのチーム間のコミュニケーションを良好に保つ責任がある組織全体の部門の担当者が含まれます。
ITSCM が重要な理由
ディザスタ リカバリに関する明確な計画を持つ組織は、災害発生時により迅速かつ完全に復旧できます。
ITSCM は、日常的な停止のために計画することではありません。これは、最悪のシナリオに対処して、最悪のシナリオが発生した場合に、顧客と従業員の生活への支障を最小限に抑えるようにすることです。
適切な ITSCM プラクティスの 3 つの明確なメリットは次のとおりです。
- 災害が発生した場合、適切な ITSCM 計画は、不可欠なサービスが迅速にバックアップされて実行されることを意味する。
- 組織は常に大きな災害に備えて、迅速かつ適切に対応できる。
- 企業全体の全員が、災害発生時に何が起こるか、システムがダウンすると復旧までにどれくらいの期間がかかるかを理解している。
ITSCM が Jira Service Management によって顧客サービスの品質を向上させて、組織のダウンタイムを最小化する方法をご覧ください。
Atlassian インシデント管理ハンドブック
このハンドブックは、何千人もの従業員と 200,000 社以上の顧客を抱えるグローバル企業として、Atlassian が実際に作成したインシデント管理プロセスをまとめたものです。
ハンドブックを入手する