Google Cloud 인프라 관리 및 모니터링

Last reviewed 2023-11-13 UTC

Google Cloud에서 프로덕션에 애플리케이션을 배포한 후 사용되는 인프라를 수정해야 할 수 있습니다. 예를 들어 VM의 머신 유형을 변경하거나 Cloud Storage 버킷의 스토리지 클래스를 변경해야 할 수 있습니다. Google Cloud 인프라 안정성 가이드의 이 부분에서는 인프라 리소스의 안정성 위험을 줄이기 위해 따를 수 있는 변경 관리 가이드라인을 요약합니다. 또한 Google Cloud 인프라의 가용성을 모니터링하는 방법도 설명합니다.

점진적으로 인프라 변경사항 배포

Google Cloud 인프라를 변경해야 하는 경우 변경사항을 프로덕션에 점진적으로 배포합니다. 예를 들어 VM의 머신 유형을 변경해야 하는 경우 한 영역의 일부 VM에 변경사항을 배포하고 변경사항이 미치는 영향을 모니터링합니다. 문제가 발생하면 인프라를 이전의 안정적인 상태로 빠르게 되돌립니다. 문제를 진단 및 해결한 후 점진적 배포 프로세스를 다시 시작합니다. 워크로드가 예상대로 실행되는지 확인한 후 모든 인프라에 변경사항을 점진적으로 배포합니다.

Google Cloud 인프라 및 애플리케이션에 변경사항을 안정적으로 테스트하고 배포하는 전략에 대한 자세한 내용은 애플리케이션 배포 및 테스트 전략을 참조하세요.

전역 리소스 변경사항 제어

VPC 네트워크 및 전역 부하 분산기와 같은 전역 리소스를 수정하는 경우 변경사항을 프로덕션에 배포하기 전에 특히 주의하여 확인해야 합니다.

전역 리소스는 영역 및 리전 서비스 중단에 대한 복원력이 우수하므로 아키텍처에서 특정 전역 리소스의 단일 인스턴스를 사용하도록 결정할 수 있습니다. 이러한 배포에서 전역 리소스는 단일 장애점이 될 수 있습니다. 예를 들어 전역 부하 분산기의 전달 규칙을 실수로 잘못 구성하면 프런트엔드가 사용자 요청 수신 또는 처리를 중지할 수 있습니다. 이 경우 백엔드는 그대로 유지되지만 사용자가 애플리케이션을 사용할 수 없게 됩니다. 이러한 상황을 방지하려면 전역 리소스에 대한 변경사항을 엄격하게 제어하세요. 예를 들어 변경 검토 프로세스에서 전역 리소스에 대한 수정 사항을 추가 검토자가 확인하고 승인해야 하는 고위험 변경사항으로 분류할 수 있습니다.

Google Cloud 인프라 가용성 모니터링

Google Cloud Service Health 대시보드를 사용하여 모든 리전에서 Google Cloud 서비스의 현재 상태를 모니터링할 수 있습니다. 각 서비스의 인프라 오류(이슈라고 함) 기록을 볼 수도 있습니다. 기록 페이지에서는 이슈 기간, 영향을 받은 영역 및 리전, 영향을 받은 서비스, 추천되는 해결 방법과 같은 각 이슈의 세부정보를 제공합니다.

Personalized Service Health를 사용하여 프로젝트와 관련된 이슈를 볼 수도 있습니다. 또한 Service Health를 사용하면 프로젝트별 또는 조직별로 API를 사용하여 이슈 정보를 요청하고 알림을 구성할 수 있습니다.

Google은 다음 업데이트의 예상 시간을 포함하여 각 이슈의 상태에 대한 정기 업데이트를 제공합니다. RSS 피드를 사용하여 이슈의 상태 업데이트를 프로그래매틱 방식으로 가져올 수 있습니다. 자세한 내용은 이슈 및 Google Cloud Service Health 대시보드를 참조하세요.