이 페이지는 Cloud Translation API를 통해 번역되었습니다.

리소스 중복을 통해 가용성이 높은 시스템 빌드

Last reviewed 2024-12-30 UTC

Google Cloud Well-Architected Framework의 안정성 부문에서 이 원칙은 장애를 방지하는 데 도움이 되는 리소스 중복을 계획, 빌드, 관리하기 위한 권장사항을 제공합니다.

이 원칙은 안정성의 범위 지정 중점사항과 관련이 있습니다.

원칙 개요

필요한 안정성 수준을 결정한 후에는 단일 장애점을 방지하도록 시스템을 설계해야 합니다. 시스템의 모든 중요 구성요소는 여러 머신, 영역, 리전에 복제되어야 합니다. 예를 들어 중요 데이터베이스는 하나의 리전에만 있을 수 없으며 메타데이터 서버는 하나의 단일 영역 또는 리전에만 배포할 수 없습니다. 이러한 예에서 유일한 영역이나 리전에 서비스 중단이 발생하면 시스템에 전역 서비스 중단이 발생합니다.

권장사항

중복 시스템을 빌드하려면 다음 하위 섹션의 권장사항을 고려하세요.

실패 도메인 식별 및 서비스 복제

개별 VM부터 리전까지 시스템의 장애 도메인을 매핑하고 장애 도메인 전반에 중복되도록 설계합니다.

고가용성을 보장하려면 여러 영역과 리전에 서비스와 애플리케이션을 분산하고 복제하세요. 영역 또는 리전 서비스 중단 시 서비스와 애플리케이션을 계속 사용할 수 있도록 자동 장애 조치를 위해 시스템을 구성합니다.

다중 영역 및 다중 리전 아키텍처의 예는 Google Cloud에서 워크로드를 위한 안정적인 인프라 설계를 참고하세요.

문제를 신속하게 감지하고 해결

실패 도메인의 상태를 지속적으로 추적하여 문제를 신속하게 감지하고 해결합니다.

Google Cloud 서비스 상태 대시보드를 사용하여 모든 지역의 Google Cloud 서비스 현재 상태를 모니터링할 수 있습니다. Personalized Service Health를 사용하여 프로젝트와 관련된 이슈를 볼 수도 있습니다. 부하 분산기를 사용하여 리소스 상태를 감지하고 정상적인 백엔드로 트래픽을 자동으로 라우팅할 수 있습니다. 자세한 내용은 상태 점검 개요를 참고하세요.

장애 조치 시나리오 테스트

화재 훈련과 마찬가지로 장애를 정기적으로 시뮬레이션하여 복제 및 장애 조치 전략의 효과를 검증합니다.

자세한 내용은 리전 MIG의 영역 서비스 중단 시뮬레이션 및 GKE 리전 클러스터에서 영역 장애 시뮬레이션을 참고하세요.

안정성에 관한 현실적인 타겟 설정

수평 확장성 활용