Google Cloud 인프라 관리 및 모니터링

Last reviewed 2024-11-20 UTC

Google Cloud에서 애플리케이션을 프로덕션에 배포한 후에는 애플리케이션에서 사용하는 인프라를 수정해야 할 수 있습니다. 예를 들어 VM의 머신 유형을 변경하거나 Cloud Storage 버킷의 스토리지 클래스를 변경해야 할 수 있습니다. Google Cloud 인프라 안정성 가이드의 이 부분에서는 인프라 리소스의 안정성 위험을 줄이기 위해 따라야 할 변경 관리 가이드라인을 요약합니다. 또한 이 부분에서는 인프라의 가용성을 모니터링하는 방법을 설명합니다. Google Cloud

Google Cloud 인프라를 변경해야 하는 경우 최대한 점진적으로 변경사항을 프로덕션에 배포하세요. 예를 들어 VM의 머신 유형을 변경해야 하는 경우 한 영역의 일부 VM에 변경사항을 배포하고 변경사항이 미치는 영향을 모니터링합니다. 문제가 발견되면 인프라를 이전의 안정적인 상태로 빠르게 되돌립니다. 문제를 진단하고 해결한 후 점진적 배포 프로세스를 다시 시작합니다. 워크로드가 예상대로 실행되는지 확인한 후 모든 인프라에 변경사항을 점진적으로 배포합니다.

전역 리소스 변경사항 제어

VPC 네트워크 및 전역 부하 분산기와 같은 전역 리소스를 수정하는 경우 변경사항을 프로덕션에 배포하기 전에 특히 주의하여 확인해야 합니다.

전역 리소스는 영역 및 리전 서비스 중단에 대한 복원력이 우수하므로 아키텍처에서 특정 전역 리소스의 단일 인스턴스를 사용할 수 있습니다. 이러한 배포에서는 전역 리소스가 단일 장애점이 될 수 있습니다. 예를 들어 전역 부하 분산기의 전달 규칙을 실수로 잘못 구성하면 프런트엔드에서 사용자 요청 수신 또는 처리를 중지할 수 있습니다. 이 경우 백엔드는 손상되지 않았지만 사용자는 애플리케이션을 사용할 수 없습니다. 이러한 상황을 방지하려면 전역 리소스의 변경사항을 엄격하게 제어하세요. 예를 들어 변경사항 검토 프로세스에서 전역 리소스의 수정사항을 추가 검토자가 확인하고 승인해야 하는 고위험 변경사항으로 분류할 수 있습니다.

Google Cloud 인프라 가용성 모니터링

Google Cloud 서비스 상태 대시보드를 사용하여 모든 지역의 Google Cloud 서비스의 현재 상태를 모니터링할 수 있습니다. 각 서비스의 인프라 오류 (이슈라고 함) 기록을 볼 수도 있습니다. 기록 페이지에서는 이슈 기간, 영향을 받은 영역 및 리전, 영향을 받은 서비스, 추천되는 해결 방법과 같은 각 이슈의 세부정보를 제공합니다.

Personalized Service Health를 사용하여 프로젝트와 관련된 이슈를 볼 수도 있습니다. 또한 Service Health를 사용하면 프로젝트 또는 조직별로 API를 사용하여 이슈 정보를 요청하고 알림을 구성할 수 있습니다.

Google은 다음 업데이트 예상 시간을 포함하여 각 문제의 상태에 관한 정기적인 업데이트를 제공합니다. RSS 피드를 사용하여 프로그래매틱 방식으로 이슈의 상태 업데이트를 가져올 수 있습니다. 자세한 내용은 이슈 및 서비스 상태 대시보드를 참고하세요. Google Cloud