Close

ベロシティの高いチームのためのインシデント管理

効果的なインシデント対応の 7 つの段階

In the midst of daily operations, an IT leader suddenly receives a barrage of alerts — a service outage threatens to disrupt their system. However the seasoned incident management team has faced similar challenges before and swiftly springs into action. By following a well-rehearsed plan and incident response best practices, they coordinate to mitigate the issue, limit damage, and restore operations, averting customer impact.

Incident response should not be reactionary but a well-defined series of practices and processes that you implement when unforeseen events occur. By understanding the structured incident response lifecycle, companies gain guidance through a strategic framework to swiftly identify, react to, and neutralize disruptions or security threats, ensuring a prompt return to normal operations.

This guide will cover the incident response lifecycle and its phases, the types of security incidents, and essential tools for effective incident management. Additionally, it will address key team members, potential challenges, and insights to streamline and fortify incident response strategies.

インシデント対応とは?

インシデント対応とは、サイバー攻撃、セキュリティ侵害、サーバーのダウンタイムなどの IT の脅威に対応する組織のプロセスです。

その他の IT 運用チームと DevOps チームは、このプラクティスを重大なインシデント管理または単にインシデント管理と呼ぶ場合があります。

インシデント対応プロセス

次のセクションでは、Atlassian 独自の Incident Handbook 内の資料に基づいて、インシデント対応プロセスについてと、サービスの停止に気付いてからサービスを再起動するまでにすべきことについてを説明します。

この記事では、インシデント対応の 7 つの主な段階について説明します。

  1. インシデントを検出する
  2. チームのコミュニケーション チャンネルを設定する
  3. 影響を評価して、重大度レベルを適用する
  4. 顧客とのコミュニケーション
  5. 適切な対応者にエスカレートする
  6. インシデント対応ロールを委任する
  7. インシデントを解決する
インシデント対応ワークフロー

インシデントを検出する

できれば、モニタリング ツールとアラート ツールにより、顧客が気付く前にインシデントが検出されてチームに通知されることが理想です。しかし、Twitter やカスタマー サポートのチケットからインシデントについて最初に知ることもあります。

インシデントがどのように検出されようとも、最初のステップは、インシデントを追跡するツールに、新しいインシデントが未解決であることを記録することです。Jira Service Management などのインシデント管理ソリューションでは、アラートとコミュニケーションが追跡ツールと統合されています。

チームのコミュニケーション チャンネルを設定する

インシデント マネージャー (IM) がオンラインに参加したときの最初の重要なステップの 1 つは、インシデント チームのコミュニケーション チャンネルを設定することです。この時点での目標は、すべてのインシデント チームのコミュニケーションを、次のようなわかりやすい場所に確立して集中させることです。

  • Slack または別のメッセージ サービス内のチャット ルーム
  • Zoom などの会議アプリ内のビデオ チャット (または、全員が同じ場所にいるのであれば、実際に会議室に集まってミーティングを行います)

ビデオ チャットとテキスト チャット ツールは別々の用途で優れているため、Atlassian では、インシデント中にこの両方を使用するのが望ましいと考えています。ビデオ チャットは、グループ ディスカッションを通じてインシデントについての共通イメージを作り出すことに優れています。Slack は、タイムスタンプ付きのインシデントの記録と併せて、スクリーンショット、URL、ダッシュボードへのリンクのコレクションを生成することに活用できます。

Slack やその他ほとんどのチャット ツールでは、ルームのトピックを設定できます。インシデント マネージャーは、インシデントに関する情報と便利なリンクのためにこのフィールドを使用する必要があります。

最後に、IM 自身のチャット ステータスを、管理中のインシデントの課題キーにセットします。これで、同僚は IM がインシデントの管理にあたっていることがわかります。

Preparation

Preparation is the core of an incident response plan and determines a company’s responsiveness to an attack. A well-documented pre-incident process facilitates smooth navigation through intense, high-stress scenarios.

Any company will be more resilient with a robust incident response process based on the Atlassian Incident Handbook.

Identification

This phase involves detecting and verifying incidents through error messages, log files, and monitoring tools. Incidents might be identified through social media or customer support tickets, requiring the response team to manually record the incident in an incident-tracking tool.

Tools like Jira Service Management centralize all alerts and incoming signals from your monitoring, service desk, and logging applications, making it easy to categorize and prioritize issues.

Containment

Once you detect an incident, containment helps prevent further damage. During containment, the response team aims to minimize the scope and effects of an incident.

Eradication

Following containment, the primary focus shifts to removing threats from the company’s network or system. This phase involves a meticulous cleansing of all systems, removing any lingering malicious content to minimize the risk of potential reinfection.

Companies start restoring normal operations by conducting a comprehensive investigation and successfully eliminating threats.

Recovery

After eradicating the threats, the team focuses on restoring the affected systems to their pre-incident state. Data recovery and system restoration are vital for minimizing further losses and ensuring smooth operations.

Lessons learned

Incident debriefings are crucial to refining incident response strategies. The team reviews documentation, evaluates performance, and implements change to enhance incident handling efficiency. Every incident is a learning opportunity for the incident response team.

Tools for effective incident response

Teams need specialized tools, such as security information & event management (SIEM) systems, intrusion detection systems (IDS), forensic tools, and communication platforms, for streamlined incident response processes. 

Tools like Jira Service Management play a critical role in reducing resolution time and negative impacts. They automatically limit noise and surface the most crucial issues to the right team using powerful routing rules and multiple communication channels. 

影響を評価して、重大度レベルを適用する

インシデントチームのコミュニケーションチャンネルが設定された後は、インシデントを評価する時間です。それによって、チームはスタッフにインシデントについて何を話すか、誰が修正するかを決定します。

IM からチームに行う質問をまとめて示します。

  • 顧客への影響は何か(内部または外部)?
  • 顧客には何が起こっているか?
  • 何人の顧客が影響を受けているか(一部、全員)?
  • いつ開始したか?
  • サポートケースはいくつ開いているか?
  • Twitter、セキュリティ、データの損失など、その他の要因はあるか?

次のステップは通常、重大度レベルの割り当てです。

Incident response: Frequently asked questions

Why is incident response important?

A well-structured incident response plan minimizes incident impacts, enabling businesses to act swiftly and efficiently against threats. It reduces recovery time, financial loss, and reputational damage.

Who should be on an incident response team?

The incident response team should be diverse and include various roles and responsibilities. The team should include the incident commander, technical leads, communications managers, customer support leads, subject matter experts, social media leads, and problem managers. Executives and leaders across multiple domains within the company should coordinate the team.

What are some challenges of incident response?

Incident response teams often face an array of challenges, from resource constraints to issues with context, prioritization, communication, collaboration, stakeholder visibility, and the occasional human error. Preparedness is crucial to anticipate and tackle these challenges effectively. For example, involving the legal team in the preparation stage can mitigate potential legal or regulatory hurdles.

次の記事
Best Practices