안정성에 관한 현실적인 타겟 설정

Last reviewed 2024-12-30 UTC

Google Cloud 아키텍처 프레임워크의 안정성 요소에 있는 이 원칙은 Google Cloud의 워크로드에 기술적으로 실현 가능한 안정성 목표를 정의하는 데 도움이 됩니다.

이 원칙은 안정성의 중점 영역 범위 지정과 관련이 있습니다.

원칙 개요

사용자 만족을 위해 시스템의 안정성을 적절하게 유지하도록 설계하세요. 직관에 반하는 것처럼 보일 수 있지만 100% 안정성을 목표로 하는 것이 가장 효과적인 전략이 아닐 때가 많습니다. 안정성이 높을수록 재정적 투자와 혁신에 대한 잠재적 제약 측면에서 비용이 크게 증가할 수 있습니다. 사용자가 이미 현재 서비스 수준에 만족하고 있다면 만족도를 높이기 위한 노력이 투자수익을 낮출 수 있습니다. 대신 다른 곳에서 리소스를 더 잘 사용할 수 있습니다.

사용자가 만족하는 안정성 수준을 결정하고 점진적 개선의 비용이 이점보다 커지기 시작하는 지점을 결정해야 합니다. 이러한 수준의 충분한 안정성을 확인하면 리소스를 전략적으로 할당하고 사용자에게 더 큰 가치를 제공하는 기능과 개선사항에 집중할 수 있습니다.

권장사항

현실적인 안정성 타겟을 설정하려면 다음 하위 섹션의 권장사항을 고려하세요.

일부 오류 허용 및 구성요소 우선순위 지정

99.99% 의 업타임과 같은 높은 가용성을 목표로 하되 100% 업타임을 목표로 설정하지 마세요. 일부 실패는 불가피하다는 점을 인정합니다.

100% 가용성과 99.99% 타겟 간의 격차는 장애 허용 범위입니다. 이 간격을 흔히 오류 예산이라고 합니다. 오류 예산은 비즈니스가 경쟁력을 유지하는 데 필수적인 위험을 감수하고 혁신하는 데 도움이 됩니다.

시스템에서 가장 중요한 구성요소의 안정성에 우선순위를 둡니다. 중요도가 낮은 구성요소는 장애 허용 범위가 더 클 수 있습니다.

안정성과 비용의 균형 유지

시스템에 적합한 최적의 안정성 수준을 결정하려면 철저한 비용-이익 분석을 수행하세요.

시스템 요구사항, 실패의 결과, 특정 애플리케이션에 대한 조직의 위험 허용 범위와 같은 요소를 고려하세요. 복구 시간 목표 (RTO) 및 복구 지점 목표 (RPO)와 같은 재해 복구 측정항목을 고려해야 합니다. 예산 및 기타 제약 조건 내에서 허용되는 안정성 수준을 결정합니다.

필수적인 안정성 기능을 손상시키지 않으면서 효율성을 개선하고 비용을 절감할 방법을 모색하세요.