Google Cloud 아키텍처 프레임워크의 안정성 요소에 있는 이 원칙은 리소스 중복을 계획, 빌드, 관리하는 데 도움이 되는 권장사항을 제공하여 오류를 방지할 수 있습니다.
이 원칙은 안정성의 중점 영역 범위 지정과 관련이 있습니다.
원칙 개요
필요한 안정성 수준을 결정한 후에는 단일 장애점을 방지하도록 시스템을 설계해야 합니다. 시스템의 모든 중요한 구성요소는 여러 머신, 영역, 리전에 걸쳐 복제되어야 합니다. 예를 들어 중요한 데이터베이스는 한 리전에만 있을 수 없으며 메타데이터 서버는 하나의 영역 또는 리전에만 배포할 수 없습니다. 이러한 예시에서 유일한 영역 또는 리전에서 중단이 발생하면 시스템에 전역 중단이 발생합니다.
권장사항
중복 시스템을 빌드하려면 다음 하위 섹션의 권장사항을 고려하세요.
장애 도메인 식별 및 서비스 복제
개별 VM에서 리전까지 시스템의 장애 도메인을 매핑하고 장애 도메인 전반에 중복성을 고려하여 설계합니다.
고가용성을 보장하려면 여러 영역 및 리전에 서비스와 애플리케이션을 배포하고 복제하세요. 영역 또는 리전 서비스 중단 시 서비스와 애플리케이션을 계속 사용할 수 있도록 자동 장애 조치를 위해 시스템을 구성합니다.
다중 영역 및 다중 리전 아키텍처의 예시는 Google Cloud에서 워크로드에 대해 신뢰할 수 있는 인프라 설계 Google Cloud를 참고하세요.
문제를 신속하게 감지하고 해결
오류 도메인의 상태를 지속적으로 추적하여 문제를 즉시 감지하고 해결합니다.
Google Cloud 서비스 상태 대시보드를 사용하여 모든 지역의 Google Cloud 서비스의 현재 상태를 모니터링할 수 있습니다. Personalized Service Health를 사용하여 프로젝트와 관련된 이슈를 볼 수도 있습니다. 부하 분산기를 사용하여 리소스 상태를 감지하고 정상적인 백엔드로 트래픽을 자동으로 라우팅할 수 있습니다. 자세한 내용은 상태 점검 개요를 참고하세요.
장애 조치 시나리오 테스트
화재 진압 훈련과 마찬가지로 정기적으로 장애를 시뮬레이션하여 복제 및 페일오버 전략의 효과를 검증합니다.
자세한 내용은 리전 MIG의 영역 서비스 중단 시뮬레이션 및 GKE 리전 클러스터에서 영역 장애 시뮬레이션을 참고하세요.