ベロシティの高いチームのためのインシデント管理
インシデント管理とは
インシデント管理は、開発チームと IT 運用チームが予期せぬイベントまたはサービス中断に対応し、サービスを運用状態に戻すために使用するプロセスです。
Atlassian では、インシデントをサービスの中断や質の低下を引き起こす、緊急対応が必要なイベントとして定義しています。ITIL または ITSM の実施基準に従うチームでは、「メジャー インシデント」という用語を使用することがあります。

インシデント管理ハンドブックをご覧ください
PDF をダウンロードして、インシデント管理の原則とプラクティスや、 Jira Service Management を利用してこれらの教訓を適用する方法をご確認ください。
インシデントは、サービスの質を損なう、または低下させる (または脅かす) あらゆる種類の予期しないイベントです。ビジネス アプリケーションのダウンは、インシデントです。停止はしていないが著しくパフォーマンスが落ちている Web サーバーもインシデントです。動作が遅いために、生産性を低下させています。さらに悪化すると、完全な障害を引き起こす大きなリスクをもたらします。インシデントは重大度の幅が広く、グローバルな Web サービス全体のクラッシュからごく少数のユーザーにおける断続的なエラーの発生まで広範囲にわたります。
インシデントが解決済みとなるのは、影響を受けたサービスが意図された状態で稼働を再開したときです。これには、影響の軽減と機能の復元に必要なタスクのみが含まれます。
Atlassian が重大なインシデントをどのように処理するかご覧になりたいですか? 当社が発表した社内インシデント管理ハンドブックをご確認ください。このハンドブックから学び、自社に適応して、ぜひご活用ください。
Opsgenie を使用したオンコール スケジュールの設定
このチュートリアルでは、オンコール スケジュールの設定、オーバーライド ルールの適用、オンコール通知の設定などの方法を学習します。すべて Opsgenie 内で行います。
このチュートリアルを読むオンコール管理に対するさまざまなアプローチの長所と短所
オンコール チームは急速に進化しています。オンコール管理に対するさまざまなアプローチの長所と短所について説明します。
この記事を読む