Opsgenie의 알림 및 대기 중 담당자 기능을 이제 Jira Service Management 및 Compass에서 사용할 수 있습니다. 자동 마이그레이션 도구를 사용하여 2027년 4월 5일 전에 기존 Opsgenie 데이터 및 구성을 마이그레이션하세요.자세히 알아보기

7가지 단계로 데이터 재해 복구 계획을 수립하는 방법

주요 시사점

  • 재해 복구 계획은 자연재해 및 사이버 공격과 같은 인시던트 발생 후 데이터 손실과 가동 중지 시간을 최소화하는 데 도움이 됩니다.

  • 복구 시간 목표(RTO) 및 복구 지점 목표(RPO)는 재해 복구 계획의 성공을 측정하는 데 핵심 지표입니다.

  • 간단한 7단계 프레임워크를 사용하면 조직의 요구 사항에 맞는 효과적인 복구 계획을 더 손쉽게 수립할 수 있습니다.

  • Jira Service Management 및 Statuspage는 재해 복구를 간소화하고 고객 및 이해 관계자와 투명한 커뮤니케이션을 유지하는 데 도움이 됩니다.

사이버 공격, 하드웨어 장애 및 유사한 인시던트에 대비하면 이러한 인시던트로 인한 피해를 최소화할 수 있습니다. 데이터 재해 복구 계획을 통해 잠재적인 중단에 대비할 수 있습니다.

데이터 재해 복구 계획은 인시던트 발생 후 인프라 및 데이터를 복원하는 방법을 설명하며, 서비스 연속성 관리의 핵심 요소입니다. 가동 중지 시간을 최소화하고 모든 중단에 신속하고 효과적으로 대응할 수 있는 데이터 재해 복구 계획을 수립하는 방법을 알아보세요.

Service Collection Free를 사용해 보고 Service Collection을 통해 Jira Service Management를 사용하여 재해 복구 계획을 수립하고 구현하는 방법을 확인하세요.

재해 복구란 무엇입니까?

재해 복구는 사이버 공격, 하드웨어 장애 또는 자연재해와 같은 중단 이벤트가 발생한 이후 IT 시스템, 데이터 및 중요 운영을 복원하기 위해 조직에서 사용하는 일련의 계획, 프로세스 및 기술입니다.

목표는 가동 중지 시간을 줄이고 데이터 손실을 최소화하며 조직이 최대한 빠르게 복구할 수 있도록 돕는 것입니다. 재해 복구는 IT 서비스 및 인프라 복원에 특별히 중점을 두는 반면, 비즈니스 연속성 계획은 중단 발생 도중 및 그 이후에도 비즈니스를 지속적으로 운영할 수 있는 방법을 더 광범위하게 다룹니다.

재해 복구는 어떻게 작동합니까?

재해 복구 계획 수립은 중요 시스템을 식별하고, 복구 시간 목표(RTO) 및 복구 지점 목표(RPO)를 정의하고, 복구 전략을 선택하고, 미리 정의된 플레이북을 실행하여 인시던트 관리를 간소화하는 것에서 시작됩니다.

Jira Service Management(JSM)와 같은 도구는 인시던트 워크플로 및 복구 작업을 조정하여 인시던트 관리를 간소화하고, Statuspage는 고객과 이해 관계자에게 실시간 업데이트를 제공하여 인시던트 커뮤니케이션을 향상합니다.

재해 복구로 어떤 위협 및 장애를 해결할 수 있습니까?

데이터 재해의 유형마다 고유한 도전 과제 및 영향이 있습니다. 재해 유형을 이해하는 것이 효과적인 복구 계획을 세우는 첫 번째 단계입니다.

  • 자연재해: 지진, 홍수, 허리케인, 화재와 같은 자연 현상이 IT 인프라를 물리적으로 손상시킬 수 있습니다.

  • 사이버 공격: 랜섬웨어, 피싱, 해킹과 같은 악의적인 활동이 데이터 보안을 침해합니다.

  • 하드웨어 장애: 서버, 저장 장치, 네트워크 장비와 같은 물리적 구성 요소의 오작동 또는 고장이 비즈니스 운영에 영향을 줄 수 있습니다.

  • 소프트웨어 오류: 버그, 결함 또는 오류와 같은 소프트웨어 오작동이 운영에 지장을 줄 수 있습니다.

  • 인적 오류: 직원이 실수로 데이터를 삭제하거나 구성을 잘못하는 등의 실수가 데이터 무결성을 손상시킬 수 있습니다.

7가지 단계로 재해 복구 계획을 수립하는 방법

재해 복구 계획 수립은 지속적 개선의 핵심 부분입니다. 이 7단계 프레임워크를 사용하면 문서화 단계에서 운영 준비 상태로 전환하는 데 도움이 될 것입니다. 각 단계는 JSM과 같은 도구를 사용하여 문서화 및 테스트하고 IT 서비스 관리(ITSM) 워크플로에 통합해야 합니다.

1단계: '재해'의 의미 및 선언 주체를 정의

가장 먼저 해야 할 일은 재해 및 주요 인시던트 관리가 필요한 주요 인시던트를 구분하는 명확한 기준을 수립하는 것입니다. 이 작업을 더 쉽게 수행하려면 RTO/RPO 임계값과 연결된 간단한 재해 선언 의사 결정 트리를 만드세요.

재해를 빠르게 식별하고 미리 정의된 플레이북을 실행하면 재해로 인한 피해를 최소화하는 데 도움이 되므로, 재해 식별을 위한 명확한 기준을 수립하는 것이 필수적입니다.

2단계: 위협 식별을 위한 위험 평가 수행

다음 단계는 잠재적 위협을 식별하기 위해 위험 평가를 수행하는 것입니다. 잠재적 위협을 식별하는 경우 인프라, 애플리케이션, 공급업체 및 보안 위험 전반의 위협을 고려하세요.

위협은 발생 가능성 및 영향을 기준으로 점수를 매겨야 합니다. 그러면 우선 순위가 가장 높은 위협을 쉽게 파악할 수 있습니다. 영향이 높고 발생 가능성이 높은 위협은 조직에 더 큰 위험을 초래하므로, 영향이 낮거나 발생 가능성이 낮은 위협보다 우선 순위를 높게 두어야 합니다.

3단계: 비즈니스 영향 분석을 행하여 먼저 복원할 사항 결정

재해를 정의하는 명확한 프로세스를 수립하고 조직에 대한 잠재적 위협을 식별했다면, 비즈니스 영향 분석을 실행하여 재해의 영향을 최소화하기 위해 먼저 복구해야 하는 사항을 파악할 수 있습니다.

조직 내에서 중요한 비즈니스 기능을 식별하고 뒷받침하는 시스템에 매핑한 다음, 표준화된 템플릿 표를 사용하여 각 시스템의 RTO 및 RPO를 정의합니다. 이렇게 하면 재해 복구 계획의 효과를 측정하는 데 사용할 수 있는 벤치마크를 얻게 됩니다.

티어를 만들고 우선 순위에 따라 시스템을 티어에 배치합니다. 예를 들어, 티어 1에는 미션 크리티컬 시스템을 포함해야 하지만, 티어 2에는 그만큼 영향이 높지 않은 시스템을 둡니다. 이 방법은 가장 중요한 시스템 및 데이터를 최대한 빠르게 복원할 수 있도록 복구 순서 및 리소스 할당을 안내하는 데 도움이 됩니다. RTO/RPO 템플릿 표를 사용하여 이 프로세스를 간소화할 수 있습니다.

4단계: 상황에 맞는 복구 전략 선택

이 단계에서는 상황에 맞게 복구 전략을 수립하기 시작합니다. 복구 전략을 수립하려면 다음 중에서 선택해야 합니다.

  • 백업 및 복원: 이 전략은 특정 시점의 데이터 복사본을 만들어 장기적인 비즈니스 기록 및 과거 데이터에 액세스할 수 있도록 지원합니다. 백업은 데이터 손실을 방지하는 비교적 비용 효율적인 방법이며 규정 준수를 유지하는 데 도움이 될 수 있습니다.

  • 복제: 복제는 사이트 간에 데이터를 복사 및 이동하는 것으로, 동기식, 비동기식 또는 준동기식으로 수행할 수 있습니다. 복제는 RTO를 최소화하고 가용성을 최대화하는 데 도움이 될 수 있지만, 더 비용이 많이 드는 복구 전략이기도 합니다.

핫, 웜 또는 콜드 사이트 중에서도 선택해야 합니다.

  • 핫: 핫 사이트는 완전히 기능하는 복제본으로, 가장 빠른 복구 시간을 제공하지만 인프라를 완전히 복제해야 하므로 비용이 가장 많이 듭니다.

  • 웜: 웜 사이트는 소프트웨어 설치와 같은 일부 수작업이 필요한 미리 구성된 사이트입니다. 수작업이 약간 필요하긴 하지만 비용 효율성 및 복구 시간 사이의 균형을 제공합니다.

  • 콜드: 콜드 사이트는 시간이 지나도 최소한의 유지 관리만 필요하기 때문에 가장 비용 효율적인 옵션입니다. 하지만 콜드 사이트는 가동하고 실행하는 데 가장 많은 구성이 필요하기 때문에 복구 시간도 가장 깁니다.

5단계: 복구 런북을 문서화하여 중앙 집중식 위치에 저장

인시던트가 발생하면 런북은 재해 복구를 간소화하고 가동 중지 시간을 최소화하는 데 핵심적인 역할을 합니다. 중요 시스템마다 명확한 단계별 런북을 만들고 활성화 단계, 장애 조치 절차, 유효성 검사 확인 및 소유권을 포함합니다.

이 런북을 중앙 집중식 작업 영역에 저장하고 관리할 수 있으며, 런북을 JSM 인시던트 및 변경 워크플로에 직접 연결하여 복구 중에 더 빠르게 액세스할 수 있습니다.

6단계: 팀 정렬을 위한 커뮤니케이션 워크플로 수립

재해 복구 프로세스 전반에 걸쳐 커뮤니케이션이 중요하므로, 명확한 커뮤니케이션 워크플로를 수립하는 것이 좋습니다. 조직의 주요 구성원이 최신 정보를 파악할 수 있도록 내부 및 외부 커뮤니케이션 트리거, 이해 관계자 업데이트 케이던스 및 규제 알림 요구 사항을 정의합니다.

JSM을 사용하여 팀 간 내부 조정 및 작업 가시성을 관리하고, Statuspage를 사용하여 활성 인시던트 발생 시 고객 대상의 실시간 업데이트를 게시하여 고객 및 이해 관계자가 최신 정보를 확인할 수 있도록 합니다.

7단계: 테스트, 측정 및 개선을 통해 향후 복구 계획에 반영

재해 복구 계획 예시를 검토하면 계획을 직접 개발하는 데 도움이 되지만, 계획의 효과를 보장하는 가장 좋은 방법은 정기적인 테스트입니다. 전략이 실제로 효과적인지 확인하기 위해 분기별 테이블탑 연습, 반기별 부분 장애 조치 테스트 및 연간 전체 시뮬레이션 일정을 예약하세요. 또한 주요 인프라 변경 후에는 즉시 다시 테스트를 예약해야 합니다.

실제 복구 시간과 RTO 비교, 실제 데이터 손실과 RPO 비교 및 평균 복구 시간(MTTR)과 같은 주요 메트릭을 추적합니다. 인시던트 발생 후 검토를 수행하여 런북 및 워크플로를 지속적으로 개선합니다.

고려해야 할 데이터 재해 복구 전략

기업은 비즈니스 연속성을 보장하기 위해 다음과 같은 다양한 데이터 재해 복구 전략을 사용할 수 있습니다.

  • 백업 및 복원: 데이터 재해 복구를 위해 데이터를 정기적으로 백업하고 필요할 때 복원합니다.

  • 클라우드 기반 재해 복구: 확장성과 유연성이 뛰어난 복구 옵션을 위해 클라우드 서비스를 사용합니다.

  • DevOps 관행: 재해 복구를 DevOps 파이프라인에 통합해 복구를 자동화 및 간소화합니다.

  • 고가용성 솔루션: 장애 발생 시에도 계속 작동하는 시스템을 구현합니다.

  • 인시던트 대응: 잘 정의된 인시던트 대응 계획에는 사이버 보안 인시던트를 감지, 분석 및 방지하고 복구하는 단계가 요약되어 있습니다.

  • 이중화: 단일 장애 지점을 방지하기 위해 중복 시스템 및 구성 요소를 구현합니다.

  • 복제: 빠른 복구를 위해 보조 위치에 데이터 및 시스템을 복제합니다.

  • 가상화: 가상 컴퓨터를 사용하여 IT 서비스를 빠르게 복원합니다.

마지막으로 IT 서비스 관리(ITSM) 관행을 재해 복구 전략에 통합하면 복구 작업의 효율성 및 효과를 높일 수 있습니다. ITSM 소프트웨어를 사용하면 재해 복구 프로세스를 관리하고 간소화하여 원활하고 포괄적인 복구를 할 수 있습니다.

재해 복구 계획을 운영 준비 상태로 전환

재해 복구 계획을 수립하는 것은 한 단계에 불과합니다. 재해 복구 계획을 마련했다면, 일상적인 워크플로에 계획을 포함하고 에스컬레이션을 자동화하고 RTO 및 RPO와 같은 복구 메트릭을 서비스 수준 목표에 맞게 정렬하여 계획을 운영에 적용합니다.

Jira Service Management는 구조화된 인시던트 대응 및 복구 조정을 간소화하고, Statuspage는 고객 및 이해 관계자와의 투명한 커뮤니케이션을 쉽게 유지할 수 있도록 지원합니다. Jira Service Management 템플릿 컬렉션을 사용하여 재해 복구 계획을 간소화하고 통합할 수도 있습니다.

Jira 라이브 데모 및 Q&A에 참여하여 Jira가 효과적인 재해 복구 계획을 수립하는 데 어떻게 도움이 되는지 자세히 알아보세요.

맞춤 추천

튜토리얼

Statuspage를 통해 인시던트 커뮤니케이션 알아보기

이 자습서에서는 서비스 중단 발생 시 인시던트 템플릿을 사용하여 효과적으로 커뮤니케이션하는 방법을 보여줍니다. 다양한 유형의 서비스 중단에 맞게 조정할 수 있습니다.

인시던트 커뮤니케이션 템플릿 및 예제

인시던트에 대응할 때 커뮤니케이션 템플릿은 매우 중요합니다. Atlassian 팀에서 사용하는 템플릿과 일반적인 인시던트에 대한 더 많은 예시를 확인하세요.

인시던트 관리에 대해 자세히 알아보세요.

이 허브에서 더 많은 인시던트 관리 가이드 및 리소스를 찾아보세요.