Google Cloud 인프라 관리 및 모니터링

Last reviewed 2024-11-20 UTC

Google Cloud에서 애플리케이션을 프로덕션에 배포한 후에는 애플리케이션에서 사용하는 인프라를 수정해야 할 수 있습니다. 예를 들어 VM의 머신 유형을 변경하거나 Cloud Storage 버킷의 스토리지 클래스를 변경해야 할 수 있습니다. Google Cloud 인프라 안정성 가이드의 이 부분에서는 인프라 리소스의 안정성 위험을 줄이기 위해 따를 수 있는 변경 관리 가이드라인을 요약합니다. 또한 Google Cloud 인프라의 가용성을 모니터링하는 방법도 설명합니다.

점진적으로 인프라 변경사항 배포

Google Cloud 인프라를 변경해야 하는 경우 가능한 한 변경사항을 프로덕션에 점진적으로 배포하세요. 예를 들어 VM의 머신 유형을 변경해야 하는 경우 한 영역의 일부 VM에 변경사항을 배포하고 변경사항이 미치는 영향을 모니터링합니다. 문제가 발견되면 인프라를 이전의 안정적인 상태로 빠르게 되돌리세요. 문제를 진단하고 해결한 다음 점진적 배포 프로세스를 다시 시작합니다. 워크로드가 예상대로 실행되는지 확인한 후 모든 인프라에 변경사항을 점진적으로 배포합니다.

전역 리소스 변경사항 제어

VPC 네트워크 및 전역 부하 분산기와 같은 전역 리소스를 수정하는 경우 변경사항을 프로덕션에 배포하기 전에 특히 주의하여 확인해야 합니다.

전역 리소스는 영역 및 리전 서비스 중단에 대한 복원력이 있으므로 아키텍처에서 특정 전역 리소스의 단일 인스턴스를 사용할 수 있습니다. 이러한 배포에서는 전역 리소스가 단일 장애점이 될 수 있습니다. 예를 들어 전역 부하 분산기의 전달 규칙을 실수로 잘못 구성하면 프런트엔드에서 사용자 요청 수신 또는 처리가 중지될 수 있습니다. 이 경우 백엔드는 그대로이지만 사용자가 애플리케이션을 사용할 수 없습니다. 이러한 상황을 방지하려면 전역 리소스 변경사항을 엄격하게 관리하세요. 예를 들어 변경사항 검토 프로세스에서 전역 리소스에 대한 수정사항을 추가 검토자가 확인하고 승인해야 하는 고위험 변경사항으로 분류할 수 있습니다.

Google Cloud 인프라 가용성 모니터링

Google Cloud Service Health 대시보드를 사용하여 모든 리전에서 Google Cloud 서비스의 현재 상태를 모니터링할 수 있습니다. 각 서비스의 인프라 오류(사고라고 함) 기록을 볼 수도 있습니다. 기록 페이지에서는 사고 기간, 영향을 받은 영역 및 리전, 영향을 받은 서비스, 추천되는 해결 방법과 같은 각 사고의 세부정보를 제공합니다.

Personalized Service Health를 사용하여 프로젝트와 관련된 이슈를 볼 수도 있습니다. 또한 Service Health를 사용하면 프로젝트 또는 조직별로 API를 사용하여 사고 정보를 요청하고 알림을 구성할 수 있습니다.

Google에서는 다음 업데이트 예상 시간을 비롯해 각 사고의 상태에 관한 정기 업데이트를 제공합니다. RSS 피드를 사용하여 사고의 상태 업데이트를 프로그래매틱 방식으로 가져올 수 있습니다. 자세한 내용은 사고 및 Google Cloud Service Health 대시보드를 참조하세요.

트래픽 및 로드 관리

다음 단계

Google Cloud 인프라 관리 및 모니터링 컬렉션을 사용해 정리하기 내 환경설정을 기준으로 콘텐츠를 저장하고 분류하세요.

점진적으로 인프라 변경사항 배포

전역 리소스 변경사항 제어

Google Cloud 인프라 가용성 모니터링

Google Cloud 인프라 관리 및 모니터링