Google Cloud 아키텍처 프레임워크: 안정성

Last reviewed 2024-12-30 UTC

Google Cloud 아키텍처 프레임워크의 안정성 요소는 Google Cloud에서 안정적인 워크로드를 설계, 배포, 관리하는 데 도움이 되는 원칙과 권장사항을 제공합니다.

이 문서는 클라우드 아키텍트, 개발자, 플랫폼 엔지니어, 관리자, 사이트 안정성 엔지니어를 대상으로 합니다.

안정성은 정의된 조건 내에서 의도된 기능을 일관되게 실행하고 서비스 중단 없이 유지하는 시스템의 능력입니다. 안정성을 위한 권장사항에는 중복, 내결함 설계, 모니터링, 자동 복구 프로세스가 포함됩니다.

안정성의 일부인 탄력성은 성능을 유지하면서 장애나 예상치 못한 중단을 견디고 복구하는 시스템의 능력입니다.Google Cloud 다중 지역 배포, 자동화된 백업, 재해 복구 솔루션과 같은 기능을 사용하면 시스템의 탄력성을 개선할 수 있습니다.

안정성은 다음과 같은 여러 가지 이유로 클라우드 전략에 중요합니다.

  • 최소 다운타임: 다운타임으로 인해 수익 손실, 생산성 저하, 평판 손상이 발생할 수 있습니다. 복원력 있는 아키텍처를 사용하면 장애가 발생하는 동안 시스템이 계속 작동하거나 장애로부터 효율적으로 복구할 수 있습니다.
  • 향상된 사용자 환경: 사용자는 기술과의 원활한 상호작용을 기대합니다. 탄력적인 시스템은 일관된 성능과 가용성을 유지하는 데 도움이 되며, 수요가 많거나 예상치 못한 문제가 발생한 경우에도 안정적인 서비스를 제공합니다.
  • 데이터 무결성: 오류가 발생하면 데이터가 손실되거나 손상될 수 있습니다. 탄력적인 시스템은 백업, 중복, 복제와 같은 메커니즘을 구현하여 데이터를 보호하고 데이터가 정확하고 액세스 가능한 상태로 유지되도록 합니다.
  • 비즈니스 연속성: 비즈니스에서 중요한 작업에 기술을 사용합니다. 복원력 있는 아키텍처는 심각한 장애 발생 후에도 연속성을 보장하여 비즈니스 기능을 중단 없이 계속하고 신속한 복구를 지원할 수 있습니다.
  • 규정 준수: 많은 업계에는 시스템 가용성과 데이터 보호에 대한 규제 요구사항이 있습니다. 복구 탄력성 아키텍처는 시스템이 계속 작동하고 안전하게 유지되도록 하여 이러한 표준을 충족하는 데 도움이 될 수 있습니다.
  • 장기 비용 절감: 복원력 있는 아키텍처에는 선행 투자가 필요하지만, 복원력을 갖추면 비용이 많이 드는 다운타임을 방지하고 사후 수정을 피하며 리소스를 더 효율적으로 사용할 수 있으므로 시간이 지남에 따라 비용을 절감할 수 있습니다.

조직의 사고방식

시스템을 안정적으로 만들려면 계획과 확립된 전략이 필요합니다. 이 전략에는 교육과 다른 이니셔티브와 함께 안정성에 우선순위를 둘 수 있는 권한이 포함되어야 합니다.

개발, 제품 관리, 운영, 플랫폼 엔지니어링, 사이트 안정성 엔지니어링 (SRE)을 포함한 전체 조직이 안정성을 책임진다는 명확한 기대치를 설정합니다. 마케팅 및 영업과 같은 비즈니스 중심 그룹도 안정성에 영향을 줄 수 있습니다.

모든 팀은 애플리케이션의 안정성 목표와 위험을 이해해야 합니다. 팀은 이러한 요구사항에 책임을 져야 합니다. 안정성과 일반 제품 기능 개발 간의 충돌은 우선순위를 지정하고 적절하게 에스컬레이션해야 합니다.

모든 기능과 팀 전반에서 안정성을 전체적으로 계획하고 관리하세요. 안정성의 핵심사항이 포함된 Cloud Center of Excellence (CCoE)를 설정해 보세요. 자세한 내용은 Cloud Center of Excellence로 조직의 클라우드 여정 최적화를 참고하세요.

안정성 중점 영역

안정적인 시스템을 설계, 배포, 관리하기 위해 수행하는 활동은 다음과 같은 주요 영역으로 분류할 수 있습니다. 이 핵심 요소의 각 안정성 원칙 및 권장사항은 이러한 중점 영역 중 하나와 관련이 있습니다.

  • 범위 지정: 시스템을 이해하려면 아키텍처를 자세히 분석합니다. 구성요소, 구성요소의 작동 방식 및 상호작용 방식, 데이터와 작업이 시스템을 통해 흐르는 방식, 오류가 발생할 수 있는 상황을 이해해야 합니다. 잠재적 실패, 병목 현상, 위험을 파악하여 이러한 문제를 완화하기 위한 조치를 취할 수 있습니다.
  • 관찰: 시스템 장애를 방지하려면 포괄적이고 지속적인 관찰 및 모니터링을 구현하세요. 이러한 관찰을 통해 트렌드를 파악하고 잠재적인 문제를 사전에 식별할 수 있습니다.
  • 응답: 오류의 영향을 줄이기 위해 적절하게 대응하고 효율적으로 복구합니다. 자동화된 응답은 실패의 영향을 줄이는 데도 도움이 됩니다. 계획과 관리를 통해서도 실패가 발생할 수 있습니다.
  • 학습: 실패가 재발하지 않도록 하려면 각 경험에서 배우고 적절한 조치를 취하세요.

핵심 원칙

아키텍처 프레임워크의 안정성 요소에 있는 권장사항은 다음 핵심 원칙에 매핑됩니다.

참여자

저자:

기타 참여자: