Close

Atlassian이 고객 데이터를 관리하는 방법


Keeping your cloud products and the underlying systems and services they use available and able to withstand the impact of negative or unplanned events is as crucial to us as it is to you. To make sure that your products are there when you need them, we’ve implemented technology, people, and programs to provide business resiliency.

Atlassian이 복원력을 보장하는 방법

Atlassian 제품은 PaaS(서비스형 플랫폼) 환경에서 실행되며, 이러한 환경은 2개의 기본 인프라, 즉 Micros 환경과 Micros 이외의 환경으로 나뉩니다. Micros 플랫폼에서 실행하는 제품에는 Jira, Confluence, Statuspage, Access, Bitbucket 및 Trello가 있으며, Micros 이외의 플랫폼에서 실행하는 제품에는 Jira Align 및 Opsgenie가 있습니다.

이에 따라 Atlassian은 중단이 발생할 경우 고객에게 미치는 영향을 최소화하기 위해 노력하고 있습니다. Atlassian은 지리적으로 다양한 여러 데이터 센터를 활용하고 포괄적인 백업 프로그램을 보유하고 있으며 정기적으로 재해 복구 및 비즈니스 연속성 계획을 테스트하여 신뢰성을 보장합니다.

이 페이지에서는 서비스의 가용성을 보장하기 위해 AWS(Amazon Web Services)의 기본 기능을 활용하는 백업, 재해 복구 계획을 정기적으로 테스트하는 방법, 재해 복구 및 비즈니스 연속성 계획의 지속적인 개선을 위한 접근 방식을 포함해 Atlassian이 고객 데이터 관리의 전체 수명 주기를 관리하는 방법을 개괄적으로 설명합니다.

가장 중요한 것: 인프라 및 데이터베이스

대체로, Atlassian은 제품을 실행하는 2개의 기본 인프라, 즉 내부적으로 Micros로 부르는 PaaS(Platform as a Service) 환경과 Micros 이외의 환경으로 나뉩니다. Micros 플랫폼에서 실행하는 제품에는 Jira, Confluence, Statuspage, Bitbucket, Atlassian Access 등이 있고, Micros 이외의 환경에서 실행하는 제품에는 Opsgenie, Trello 등이 있습니다. 간단하게 설명하기 위해 이 문서에서는 주로 가장 큰 제품인 Jira, Confluence, Bitbucket에 초점을 맞춥니다.

Jira 및 Confluence Cloud는 AWS IaaS(서비스 제공 인프라) 서비스를 사용하여 여러 AWS 리전(구체적으로는 미국 동부, 미국 서부, 아일랜드, 프랑크푸르트, 싱가포르, 시드니이며 필요에 따라 다른 리전으로 확대할 계획임)에서 호스팅합니다. Jira와 Confluence Cloud는 모두 각 제품 인스턴스에 논리적으로 분리된 관계형 데이터베이스를 사용하지만, Jira 또는 Confluence Cloud에 저장된 첨부 파일은 Atlassian의 문서 스토리지 플랫폼(“미디어 플랫폼”)에 저장하며 결과적으로는 Amazon S3에 저장됩니다.

백업

Atlassian은 어떤 비즈니스라도 데이터를 생성하며 데이터가 없다면 비즈니스도 없다는 사실을 깨달았습니다. Atlassian은 “고객에게 헛소리하지 않는다”는 가치에 따라 데이터가 손실되지 않도록 보호하는 데 깊은 관심을 갖고 있으며 광범위한 백업 프로그램을 갖추고 있습니다.

Jira 및 Confluence Cloud의 경우 Atlassian은 Amazon RDS(Amazon 관계형 데이터베이스 서비스)의 스냅샷 기능을 활용하여 각 RDS 인스턴스를 매일 자동으로 백업합니다. Amazon RDS 스냅샷은 특정 시점으로 복구를 포함하여 30일 동안 보관되며 AES-256 암호화를 사용하여 암호화합니다.

Jira Align의 경우 Amazon RDS 스냅샷은 35일 동안 보관됩니다.

Bitbucket의 경우 데이터는 다른 AWS 리전으로 복제되며 각 리전 내에서 매일 독립적인 백업이 수행됩니다.

Atlassian은 분기별로 복원을 위해 백업을 테스트하며, 이러한 테스트에서 식별된 모든 문제가 해결될 때까지 추적되도록 Jira 티켓을 제출합니다.

자세한 내용은 데이터 스토리지 FAQ를 참조하세요.

백업

Atlassian은 어떤 비즈니스라도 데이터를 생성하며 데이터가 없다면 비즈니스도 없다는 사실을 깨달았습니다. Atlassian은 “고객에게 헛소리하지 않는다”는 가치에 따라 데이터가 손실되지 않도록 보호하는 데 깊은 관심을 갖고 있으며 광범위한 백업 프로그램을 갖추고 있습니다.

Jira 및 Confluence Cloud의 경우 Atlassian은 Amazon RDS(Amazon 관계형 데이터베이스 서비스)의 스냅샷 기능을 활용하여 각 RDS 인스턴스를 매일 자동으로 백업합니다. Amazon RDS 스냅샷은 특정 시점으로 복구를 포함하여 30일 동안 보관되며 AES-256 암호화를 사용하여 암호화합니다.

Jira Align의 경우 Amazon RDS 스냅샷은 35일 동안 보관됩니다.

Bitbucket의 경우 데이터는 다른 AWS 리전으로 복제되며 각 리전 내에서 매일 독립적인 백업이 수행됩니다.

Atlassian은 분기별로 복원을 위해 백업을 테스트하며, 이러한 테스트에서 식별된 모든 문제가 해결될 때까지 추적되도록 Jira 티켓을 제출합니다.

자세한 내용은 데이터 스토리지 FAQ를 참조하세요.

백업

Atlassian은 어떤 비즈니스라도 데이터를 생성하며 데이터가 없다면 비즈니스도 없다는 사실을 깨달았습니다. Atlassian은 “고객에게 헛소리하지 않는다”는 가치에 따라 데이터가 손실되지 않도록 보호하는 데 깊은 관심을 갖고 있으며 광범위한 백업 프로그램을 갖추고 있습니다.

Jira 및 Confluence Cloud의 경우 Atlassian은 Amazon RDS(Amazon 관계형 데이터베이스 서비스)의 스냅샷 기능을 활용하여 각 RDS 인스턴스를 매일 자동으로 백업합니다. Amazon RDS 스냅샷은 특정 시점으로 복구를 포함하여 30일 동안 보관되며 AES-256 암호화를 사용하여 암호화합니다.

Jira Align의 경우 Amazon RDS 스냅샷은 35일 동안 보관됩니다.

Bitbucket의 경우 데이터는 다른 AWS 리전으로 복제되며 각 리전 내에서 매일 독립적인 백업이 수행됩니다.

Atlassian은 분기별로 복원을 위해 백업을 테스트하며, 이러한 테스트에서 식별된 모든 문제가 해결될 때까지 추적되도록 Jira 티켓을 제출합니다.

자세한 내용은 데이터 스토리지 FAQ를 참조하세요.

Atlassian이 복구 시간 및 복구 지점 목표를 결정하는 방법

이상적인 세상에서는 중요한 비즈니스 데이터가 절대 손실되지 않을 것입니다. 그러나 실제로는 데이터 손실 위험이 없는 시스템은 실현 불가능하거나 비용이 매우 높습니다. Atlassian에서는 문화적으로 이 제로 데이터 손실 시나리오를 실현하고 가용성 영역 장애 시 자동으로 생존하는 능력을 갖추는 것을 목표로 설정했지만, 비즈니스 연속성 계획에서는 비용, 이익, 위험 사이의 적절한 균형을 찾는 “RTO(복구 시간 목표)”와 “RPO(복구 지점 목표)”를 설정해야 합니다.

RTO는 인시던트 후에 비즈니스 프로세스(또는 시스템)을 복구하고 백업 및 실행을 수행하는 시간입니다. RPO는 복구 작업 시 조직에서 손실을 허용할 수 있는 데이터의 유효량입니다. 간단한 예로, 매일 백업을 수행하는 경우 업무 종료 시점에 인시던트가 발생하여 어제 저장된 백업으로 복구하면 1일간의 데이터가 손실되는데 이것이 바로 RPO입니다.

비즈니스 영향 및 위험 평가는 팀이 클라이언트 사용자 요구 사항과 중단의 잠재적인 영향에 따라 사용자 지정 RTO 및 RPO 목표를 설정하는 데 도움이 됩니다.

좀 더 구체적으로 Atlassian은 서비스를 티어라는 이해하기 쉬운 버킷으로 나눕니다. 제품 및 고객에 직접 관련된 서비스, Atlassian 비즈니스 시스템 및 내부 도구에는 3개의 티어(티어 1, 2, 3)가 정의되어 있으며, 기본 티어(티어 0)는 모든 요소가 의존하는 중요 구성 요소에 대해 훨씬 더 높은 가용성 표준을 제공합니다.

Atlassian은 각 티어에 대해 무엇보다도 비즈니스 영향 평가와 구축하는 서비스에 대한 일반적인 사용 시나리오를 검토하여 필수 목표를 정의했습니다. 서비스 티어는 아래의 표에 명시된 대로 가용성, 신뢰성, RTO 및 RPO 목표를 결정하는 데 도움이 됩니다.

티어 0 티어 1 티어 2 티어 3
중요 인프라 및 서비스 구성 요소 티어 0 서비스는 다른 모든 서비스의 기반이 되며 제품의 제공에 매우 중요한 서비스입니다. 티어 1 서비스는 일반적으로 Atlassian 제품이거나 제품 제공과 직접적인 관련이 있습니다. 티어 2 서비스는 중요하지 않은 서비스이거나 내부에서 사용하는 서비스입니다. 티어 3 서비스는 중요하지 않은 서비스이거나 내부에서 사용하는 서비스입니다.
예시 서비스:

예시 서비스

· AWS 플랫폼

· Micros 서버

· 네트워킹 코어

예시 서비스

· Jira 및 Confluence Cloud

· Bitbucket

· Jira Align

· Trello

· Opsgenie

예시 서비스

· 이미지 효과

· CAC

예시 서비스

· 분석 및/또는 BI 데이터 수신

RPO* < 1시간 < 1시간 < 8시간 < 24시간
RTO** < 4시간 < 6시간 < 24시간 < 72시간

*RPO – 복구 지점 목표 – 재해 발생 시 데이터 손실

**RTO – 복구 시간 목표 – 재해 발생 시 서비스 복원

Atlassian은 관련 서비스가 해당 RPO 및 RTO 목표를 충족할 수 있도록 서비스 소유자에게 책임을 위임합니다.

Atlassian이 재해 복구 테스트를 수행하는 방법

Atlassian은 정기적인 재해 복구 테스트를 수행하며 DR(재해 복구) 프로그램의 일환으로 지속적인 개선을 위해 노력하고 있습니다. 이것은 고객 데이터와 서비스의 안정성과 복원력이 보장하기 위한 것입니다. Atlassian은 다음 요소를 비롯하여 예정된 테스트와 임시 테스트를 모두 수행합니다.

문서 - 중요 및 고객에게 관련된 서비스(티어 0 및 티어 1 포함)의 경우 분기별로 백업 설명서가 정확하고 완전하며 최신 정보를 담고 있는지 검토합니다. 식별된 모든 문제는 문서화하며, 내부 Jira 티켓을 만들어서 문제가 해결될 때까지 추적합니다.

프로세스 - 중요/고객 대면 서비스(티어 0 및 티어 1 포함)에 대해 분기별로 실제 기술 백업/복구 프로세스 테스트도 완료하여 서비스 티어 분류에 따라 RTO 및 RPO 목표가 달성되었는지 확인합니다. 이러한 테스트에서 식별된 모든 문제는 Jira 티켓을 만들어서 문제가 해결될 때까지 추적합니다.

복원력 및 장애 조치 – AZ 전반의 복원력 수준에 대한 정기적인 테스트와 임시 테스트를 수행하여 Atlassian이 최소한의 가동 중지 시간으로 AZ 장애를 처리할 수 있는지 확인합니다. Atlassian은 전체 리전 장애가 발생할 가능성은 거의 없다는 것을 알고 있지만, 리전 장애 조치도 정기적으로 테스트하고 리전 복원력을 지속적으로 강화하고 있습니다.

시스템 - SRE(사이트 안정성 엔지니어링) 팀과 제품 엔지니어링 팀이 서비스 전반의 광범위한 지표를 지속적으로 모니터링하여 사용자가 탁월한 경험을 할 수 있도록 보장합니다. 서비스 지표의 특정 임계값을 초과할 경우 SRE 팀원에게 알리도록 자동 알림이 구성되어 있으므로 인시던트 대응 프로세스 내에서 즉각적인 조치를 취할 수 있습니다.

재해 복구 대시보드 - DR 대시보드는 내부에서 유지 관리하므로 중요 및 고객 관련 서비스(티어 0 및 티어 1 포함)의 경우 감독, 유지 관리 및 테스트와 관련된 Jira 티켓을 중앙에서 추적하여 문서 및 백업/복구 프로세스에 대한 검토를 적시에 완료할 수 있습니다.

DR 테스트 및 시뮬레이션 – 매년 또는 임시로 DR 테스트를 수행합니다. Atlassian은 DR 테스트의 일환으로 테이블탑 연습을 수행하여 DR 팀이 다양한 잠재적인 인시던트 시나리오를 익힐 수 있도록 돕습니다. 테이블탑 연습은 다양한 시나리오를 테스트하고 복구 프로세스의 격차를 식별합니다. 테이블탑 연습을 위한 시나리오로는 지진, 화재, 자연재해, 복구 훈련 및 테스트 등이 있습니다. DR 테스트를 수행한 후에는 지속적인 개선을 위해 테스트 결과를 캡처, 분석 및 논의하여 다음 단계의 범위를 결정합니다. 개선 노력은 Jira 티켓 내에 캡처되며 해결될 때까지 추적됩니다.

Atlassian은 테스트와 프로세스가 기술적으로 철저하다는 것을 알고 있지만, 계속해서 뛰어난 인력을 하나로 모으는 표준을 수립하고 있습니다. 이에 따라서 Atlassian은 DR 프로그램에 다음과 같은 인적 요소를 포함합니다.

사이트 안정성 엔지니어(“SRE”) – SRE는 지속적인 정기 DR 모임을 위해 노력하며 중요 서비스를 대표합니다. SRE는 필요에 따라 수정에 초점을 맞춰 위험 및 규정 준수 팀과 함께 DR 격차를 식별합니다.

재해 복구 챔피언 - DR 챔피언은 각 제품/서비스 팀 내에서 지명되어(기본 서비스 포함) 해당 제품/서비스 내에서 DR의 구현을 감독 및 관리해 서비스 티어 요구 사항을 충족하도록 보장합니다.

리더십 - Atlassian은 DR 프로세스에 임원 및 고위 경영진이 지속적으로 참여 및 개입하도록 합니다. 리더십의 참여를 통해 Atlassian은 복원력에 대한 전략에서 비즈니스 및 기술적 추진력을 모두 얻을 수 있습니다.

기타 광범위한 기타 비즈니스 연속성 방안 및 계획

Atlassian은 운영 중단이 발생하는 경우 고객에게 미치는 영향을 최소화하는 DR 기능과 강력한 비즈니스 연속성(“BC”)을 유지하기 위해 노력하고 있습니다. BC 및 DR 프로그램을 이끄는 주요 원칙은 다음과 같습니다.

지속적인 개선 – Atlassian은 운영 효율성, 자동화, 새로운 기술, 입증된 관행을 통해 복원력을 개선하기 위해 노력하고 있습니다.

테스트를 통한 확신 – Atlassian은 정기적으로 예정된 테스트를 수행하고 지속적으로 개선을 적용하여 최적의 복원력을 달성할 수 있음을 잘 알고 있습니다.

전담 리소스 – Atlassian에는 고객 대면 제품이 BC 및 DR을 가능하게 하는 데 필요한 관심을 얻도록 하는 전담 인력과 팀이 있습니다. Atlassian은 현장에서 실제 인시던트는 물론, 운영 위원회, 위험 평가, 비즈니스 영향 분석 테스트를 지원하는 적절한 수준의 리소스를 보유하고 있습니다.

요약

Atlassian은 최고 수준의 기술과 지속적인 테스트 및 유효성 검사를 결합하여 고객 데이터의 높은 가용성, 안정성 및 복원력을 보장합니다. Atlassian은 다양한 지역에 데이터 센터를 여러 개 운영하고 광범위한 백업 프로그램을 보유하고 있으며 정기적으로 재해 복구 및 비즈니스 연속성 계획을 테스트하여 신뢰성을 보장합니다. 그뿐만 아니라 프로세스를 통합하는 전담 리소스와 우수한 인력을 보유하고 있습니다.