동기 디스크 복제 정보


Hyperdisk 균형 고가용성은 Compute Engine에서 고가용성(HA) 서비스를 구현할 수 있는 스토리지 옵션입니다. Hyperdisk 균형 고가용성은 같은 리전의 두 영역 간에 데이터를 동기식으로 복제하고 영역 오류 최대 1회까지 디스크 데이터의 HA를 보장합니다.

Hyperdisk 균형 고가용성 볼륨은 더 낮은 목표 복구 시간(RPO)과 복구 시간 목표(RTO)를 요구하는 워크로드용으로 설계되었습니다. RPO 및 RTO에 대한 자세한 내용은 재해 복구 계획의 기본사항을 참조하세요. Hyperdisk 균형 고가용성 볼륨은 리전 관리형 인스턴스 그룹과 함께 작동하도록 설계되었습니다.

이 문서에서는Hyperdisk 균형 고가용성 볼륨을 사용하여 HA 서비스를 빌드하는 방법을 간략하게 설명합니다.

Hyperdisk 균형 고가용성 볼륨을 사용하기로 결정한 경우, 서비스 가용성을 늘이기 위한 다양한 옵션과 여러 서비스 아키텍처의 비용, 성능 복원력을 비교해야 합니다.

동기식 디스크 복제 정보

Hyperdisk 균형 고가용성(미리보기) 볼륨은 복제된 디스크라고도 불리며, 라존 안에 디스크 데이터를 저장하는 기본 영역 및 보조 영역을 갖습니다.

  • 기본 영역: 디스크를 연결하는 컴퓨팅 인스턴스가 있는 영역과 동일한 영역입니다.
  • 보조 영역: 동일한 리전 내에서 선택한 대체 영역입니다.

Compute Engine은 두 영역 모두에 디스크의 복제본을 유지합니다. 디스크에 데이터를 쓰면 Compute Engine에서 HA를 보장하기 위해 두 영역의 디스크 복제본에 데이터를 동기식으로 복제합니다. 각 영역 복제본의 데이터는 내구성을 보장하기 위해 영역 내의 여러 물리적 머신에 분산됩니다. 영역 복제본은 Persistent Disk 볼륨의 데이터를 계속 사용할 수 있도록 보장하고 디스크 영역 중 하나에서 일시적인 장애가 발생하더라도 서비스 중단을 방지합니다.

영역 복제본의 복제본 상태

Hyperdisk 균형 고가용성(미리보기)의 디스크 복제본 상태는 디스크의 콘텐츠와 비교하여 영역 복제본의 상태를 보여줍니다. 디스크의 영역 복제본의 상태는 항상 다음 중 하나입니다.

  • 동기화 완료(Synced): 복제본을 사용할 수 있고 디스크에 수행된 모든 쓰기를 동기식으로 수신하며 디스크의 모든 데이터를 최신 상태로 유지합니다.
  • 따라잡는 중(Catching up): 복제본을 사용할 수 있지만 여전히 다른 복제본에서 디스크의 데이터를 따라잡고 있습니다.
  • 동기화되지 않음(Out of sync): 복제본을 일시적으로 사용할 수 없고 디스크의 데이터와 동기화되지 않습니다.

영역 복제본의 복제본 상태를 확인하고 추적하는 방법은 디스크 복제본 상태 모니터링을 참조하세요.

동기식으로 복제된 디스크의 복제 상태

개별 영역 복제본의 상태에 따라Hyperdisk 균형 고가용성(미리보기) 볼륨은 다음 복제본 상태 중 하나일 수 있습니다.

  • 완전히 복제됨(Fully replicated): 두 영역의 복제본을 사용할 수 있고 최신 디스크 데이터와 동기화되었습니다.
  • 따라잡는 중(Catching up): 영역 복제본을 사용할 수 있지만 영역 복제본 중 하나가 최신 디스크 데이터를 따라잡고 있습니다.
  • 성능 저하됨(Degraded): 장애 또는 서비스 중단으로 인해 영역 복제본 중 하나의 상태가 out of sync입니다.

디스크 복제 상태가 catching up 또는 degraded인 경우는 영역 복제본 중 하나에 모든 데이터가 업데이트되지 않은 것입니다. 이 기간 동안 정상 복제본의 영역에서 서비스 중단이 발생하면 정상 복제본 영역이 복원될 때까지 디스크를 사용할 수 없게 됩니다.

Hyperdisk 균형 고가용성 볼륨이 따라잡기 중이면 Google Cloud는 따라잡기 중인 영역 복제본을 복구하기 시작합니다. 영향을 받는 영역 복제본이 디스크의 데이터를 따라잡아서 상태가 Synced로 변경될 때까지 기다리는 것이 좋습니다. 그런 다음 영역 복제본이 동기화 완료 상태로 전환되면 복제된 디스크 상태가 다시 Fully replicated 상태로 변경됩니다.

복제된 디스크가 장시간 catching up 또는 degraded 상태이고 조직의 RPO 요구사항을 충족하지 않으면 다음 중 하나의 방법으로 기본 복제본의 스냅샷을 만드는 것이 좋습니다.

  • 예약된 스냅샷을 사용 설정하기
  • Hyperdisk 균형 고가용성 디스크의 수동 스냡샷 만들기

스냅샷을 만든 후에는 해당 스냅샷을 소스로 사용하여 새Hyperdisk 균형 고가용성 디스크를 만들 수 있습니다. 이렇게 하면 스냅샷이 새 디스크로 복원됩니다. 또한 새 디스크는 정상 데이터 복제를 통해 완전히 복제된 상태로 시작됩니다.

Hyperdisk 균형 고가용성 디스크의 복제 상태를 확인하는 방법을 알아보려면, 디스크의 복제 상태 확인을 참조하세요.

복제본 복구 체크포인트

복제본 복구 체크포인트는 완전히 복제된 디스크의 가장 최근의 비정상 종료 일관성이 있는 시점을 나타내는 디스크 속성입니다. Compute Engine은 각 복제된 디스크에 대한 단일 복제본 복구 체크포인트를 자동으로 만들고 유지관리합니다. 디스크가 완전히 복제되면 Compute Engine에서 체크포인트가 업데이트된 상태로 유지되도록 약 10분마다 체크포인트를 계속 새로고침합니다. 디스크 복제 상태가 degraded이면 Compute Engine을 사용하면 해당 디스크의 복제본 복구 체크포인트에서 표준 스냅샷을 만들 수 있습니다. 이렇게 생성된 표준 스냅샷에서는 완전히 복제된 디스크의 최근 비정상 종료 일관성이 있는 버전에서 데이터를 캡처합니다.

드문 경우지만 디스크가 성능 저하되면, 동기화되지 않은 복제본이 따라잡기를 하기 전에 최신 디스크 데이터와 동기화된 영역 복제본에도 장애가 발생할 수 있습니다. 그렇게 되면 어느 영역에서도 컴퓨팅 인스턴스에 디스크를 강제 연결할 수 없습니다. 복제된 디스크를 사용할 수 없게 되고 데이터를 새 디스크로 마이그레이션해야 합니다. 이러한 시나리오에서는 디스크에 사용 가능한 기존 표준 스냅샷이 없더라도 복제본 복구 체크포인트에서 생성된 표준 스냅샷을 사용하여 완전하지 않은 복제본으로부터 디스크 데이터를 복구할 수 있습니다.

Compute Engine은 마운트된 각 Hyperdisk 균형 고가용성(미리보기) 디스크의 복제본 복구 체크포인트를 자동으로 만듭니다. 이러한 체크포인트 생성에 대한 추가 요금은 발생하지 않습니다. 그러나 이러한 체크포인트를 사용해 복제된 디스크를 작동 영역으로 마이그레이션할 때는 스냅샷 및 컴퓨팅 인스턴스 생성에 대한 관련 스토리지 요금이 발생합니다.

복제본 복구 체크포인트를 사용하여 복제된 디스크 데이터를 복구하는 방법을 자세히 알아보세요.

복제된 디스크 장애 조치

영역에서 서비스 중단이 발생하면 영역에 액세스할 수 없게 되고 해당 영역의 컴퓨팅 인스턴스가 디스크에 대한 읽기 또는 쓰기 작업을 수행할 수 없습니다. 인스턴스가 복제된 디스크에 대해 읽기 및 쓰기 작업을 계속 수행할 수 있도록 Compute Engine에서는 디스크 데이터를 디스크의 복제본이 있는 다른 영역으로 마이그레이션할 수 있도록 허용합니다. 이 절차를 장애 조치라고 합니다.

장애 조치 프로세스에서는 영향을 받는 영역의 인스턴스에서 영역 복제본을 분리한 다음 보조 영역의 새 인스턴스에 영역 복제본을 연결합니다. Compute Engine은 단일 복제본에 장애가 발생할 경우 빠른 장애 조치를 보장하기 위해 디스크의 데이터를 보조 영역에 동기식으로 복제합니다.

애플리케이션별 리전 제어 영역별 장애 조치

애플리케이션별 리전 제어 영역은 Google Cloud 서비스가 아닙니다. HA 서비스 아키텍처를 설계할 때는 자체 애플리케이션 특정 리전 제어 영역을 빌드해야 합니다. 이 애플리케이션 제어 영역은 복제된 디스크가 연결되는 인스턴스와 현재 기본 인스턴스인 인스턴스를 결정합니다.

복제된 디스크의 기본 인스턴스 또는 데이터베이스에서 장애가 감지되면 HA 서비스 아키텍처의 애플리케이션별 리전 제어 영역에서 자동으로 보조 영역의 대기 인스턴스로 장애 조치를 시작할 수 있습니다. 장애 조치 중에 애플리케이션 특정 리전 제어 영역이 복제된 디스크를 보조 영역의 대기 인스턴스에 다시 연결합니다. 그러면 Compute Engine이 상태 점검 신호에 따라 모든 트래픽을 해당 인스턴스로 전달합니다.

장애 감지 시간을 제외한 전체 장애 조치 지연 시간은 다음 지연 시간의 합계입니다.

  • 복제된 디스크를 대기 인스턴스에 연결하는 데 1분 미만
  • 애플리케이션 초기화 및 비정상 종료 복구에 필요한 시간

자세한 내용은 애플리케이션 특정 리전 제어 영역 이해를 참조하세요.

재해 복구 구성 요소 페이지에서는 Compute Engine에서 사용할 수 있는 구성 요소를 설명합니다.

강제 연결에 따른 장애 조치

Hyperdisk 균형 고가용성(미리보기)의 이점 중 하나는, 드물지만 영역 서비스 중단이 발생하는 경우 워크로드를 다른 영역으로 수동 장애 조치할 수 있다는 것입니다. 기본 영역에 서비스 중단이 발생하면 해당 영역 복제본이 복원될 때까지 디스크 분리 작업을 완료할 수 없습니다. 이러한 경우 기본 인스턴스에서 기본 영역 복제본을 분리하지 않고 보조 영역 복제본을 새 컴퓨팅 인스턴스에 연결해야 할 수 있습니다. 이 프로세스를 force-attach이라고 합니다.

기본 영역의 컴퓨팅 인스턴스를 사용할 수 없게 되면 보조 영역의 인스턴스에 디스크를 강제로 연결할 수 있습니다. 이 태스크를 처리하려면 다음 중 하나를 수행해야 합니다.

  • 강제 연결하는 복제된 디스크와 동일한 영역에서 다른 컴퓨팅 인스턴스를 시작합니다.
  • 이 영역에서 상시 대기 컴퓨팅 인스턴스를 유지합니다. 상시 대기 인스턴스는 기본 영역에 있는 인스턴스와 동일한 실행 중인 인스턴스입니다. 두 인스턴스의 데이터는 동일합니다.

Compute Engine은 강제 연결 작업을 1분 안에 실행합니다. 총 복구 시간 목표(RTO)는 스토리지 장애 조치(복제된 디스크의 강제 연결)뿐만 아니라 다음을 포함한 다른 요소에 따라 달라집니다.

  • 먼저 보조 인스턴스를 만들어야 하는지 여부
  • 기본 파일 시스템에서 상시 연결 디스크를 감지하는 데 걸리는 시간
  • 해당 애플리케이션의 복구 시간

강제 연결을 사용하여 컴퓨팅 인스턴스를 장애 조치하는 방법에 대한 자세한 내용은 force-attach를 사용하여 복제된 디스크 장애 조치를 참조하세요.

Hyperdisk 균형 고가용성에는 워크로드 가용성이 선호됩니다. 즉, 아주 낮은 확률이지만 두 디스크 복제본 모두 동시에 사용할 수 없는 경우에 데이터 보호를 우선시한다는 의미입니다. 자세한 내용은 복제된 디스크의 장애 관리를 참조하세요.

제한사항

다음 섹션에는Hyperdisk 균형 고가용성(미리보기)에 적용되는 제한사항이 나와 있습니다.

복제된 디스크의 일반적인 제한사항

  • Hyperdisk 균형 고가용성은 지원되는 머신 유형에만 연결할 수 있습니다.
  • Hyperdisk 균형 고가용성 볼륨의 크기는 늘릴 수만 있고 줄일 수는 없습니다.
  • Hyperdisk 균형 고가용성 볼륨은 해당 영역 디스크와 성능 특성이 다릅니다. 자세한 내용은 블록 스토리지 성능을 참조하세요.
  • 영역 디스크를 클론하여 복제된 디스크를 만드는 경우 두 영역 복제본이 생성 시에 완전히 동기화되지 않습니다. 생성 후에는 평균적으로 3분 이내에 리전 디스크 클론을 사용할 수 있습니다. 그러나 디스크가 완전 복제 상태에 도달하고 복구 지점 목표(RPO)가 0에 근접할 때까지 10분 정도 기다려야 할 수 있습니다. 복제된 디스크가 완전히 복제되었는지 확인하는 방법을 알아보세요.

복제본 복구 체크포인트 제한사항

  • 복제본 복구 체크포인트는 기기 메타데이터의 일부이며 디스크 데이터 자체는 표시하지 않습니다. 성능이 저하된 디스크의 스냅샷을 만드는 메커니즘으로만 체크포인트를 사용할 수 있습니다. 체크포인트를 사용하여 스냅샷을 만든 후 스냅샷을 사용하여 데이터를 복원할 수 있습니다.
  • 디스크 성능이 저하되는 경우에만 복제본 복구 체크포인트에서 스냅샷을 만들 수 있습니다.
  • Compute Engine은 디스크가 완전히 복제된 경우에만 디스크의 복제본 복구 체크포인트를 새로고침합니다.
  • Compute Engine은 디스크에 대한 하나의 복제본 복구 체크포인트만 유지하며 최신 버전의 체크포인트만 유지합니다.
  • 복제본 복구 체크포인트의 정확한 생성 및 새로고침 타임스탬프는 볼 수 없습니다.
  • Compute Engine API를 사용하여 복제본 복구 체크포인트에서만 스냅샷을 만들 수 있습니다.

다음 단계