서비스 중단은 불가피하지만, 발생한 상황을 평가하고 이해관계자에게 정보를 제공하며 비즈니스에 미치는 영향을 최소화하기 위한 조치를 취하려면 투명하고 신속한 커뮤니케이션이 필수적입니다.
안정적인 클라우드 애플리케이션을 운영하는 것은Google Cloud 와 애플리케이션 개발자 간에 공유되는 책임입니다. 서비스 중단이 발생하면Google Cloud 는 이슈를 신속하게 전달하고 영향 평가를 제공하는 것을 목표로 합니다. 알림을 수신하고, 신규 이슈에 대응하고, 애플리케이션에 미치는 영향을 관리하는 방법을 평가해야 합니다.
이때 Personalized Service Health가 도움이 될 수 있습니다. 다양한 방법으로 이를 통합하여 신규 이슈를 파악하고 애플리케이션에 미치는 영향을 평가하며 Google Cloud에서 업데이트를 받을 수 있습니다. 이 문서에서는Google Cloud와 통합에 관한 권장사항을 포함하여Google Cloud에서 서비스 중단 신호를 수신하는 방법을 간략하게 설명합니다.
통합할 위치 결정
Google Cloud 에서는 제품의 상태를 파악하는 데 도움이 되는 다음과 같은 제품을 제공합니다. Google Cloud
- Google Cloud Service Health: 모든 위치의 모든Google Cloud 제품에 대한 플랫폼 전체 개요를 제공합니다. 더 큰 범위와 심각도의 이슈를 다루며 다음에서 사용할 수 있습니다.
- Personalized Service Health: 프로젝트 또는 조직 전반에서 사용하는 Google Cloud
제품을 맞춤설정된 방식으로 볼 수 있습니다. Google Cloud Service Health에 게시된 이슈보다 더 광범위한 이슈를 다룹니다.
Personalized Service Health는 다음에서 사용할 수 있습니다.
- Google Cloud 콘솔을 통해 액세스할 수 있는 콘솔 대시보드
- 알림
- Service Health API
가장 광범위한 적용 범위와 다양한 통합 옵션을 제공하려면 Personalized Service Health와 통합하는 것이 좋습니다.
통합 지점 | 사용 사례 | 이점 | 종속 항목 |
Console 대시보드 (맞춤형 Service Health) | 진행 중인 서비스 중단 보기 | 프로젝트에 맞춤설정되며 기본적으로 사용 가능 | ID 및 액세스 관리 (IAM) Google Cloud 콘솔 |
알림 (맞춤설정된 Service Health) | 사전 알림 | 프로젝트에 맞게 맞춤설정되고 편리하며 사전 예방적 | IAM Cloud Logging Cloud Monitoring |
API (맞춤 서비스 상태) | 다른 시스템 또는 도구와 통합 | 프로젝트 또는 조직에 맞게 맞춤설정 | IAM |
맞춤 서비스 상태와의 상호작용 방법 선택
의도한 운영, 모니터링, 이슈 대응 모델의 맥락에서 Personalized Service Health를 고려해야 합니다. 팀이 이슈 발생 전후에 신호를 사용하는 방식을 평가하여 Personalized Service Health를 사용하는 방법을 결정할 수 있습니다.
다음 표에는 설정에 따라 맞춤 서비스 상태와 상호작용하는 방법이 나와 있습니다.
조직의 시나리오 예시 | Personalized Service Health 통합 | 통합할 수 있는 도구 예 |
몇 가지 애플리케이션의 지원 담당자인 개발자 | 개별 프로젝트 알림
Console 대시보드 |
Google Cloud Observability, PagerDuty |
조직 전반에서 중앙 집중식 사고 대응 | OrganizationEvents API (v1, v1beta)를 사용하여 기존 시스템과 API 통합 | PagerDuty, 맞춤 대시보드 |
클라우드 리소스 및 작업을 관리하는 내부 플랫폼 | Service Health API 개별 프로젝트 알림 Service Health API와 내부 개발자 플랫폼 통합 |
백스테이지, Terraform |
프로그래매틱 방식으로 구성되고 관리되는 여러 프로젝트 (예: 1,000개 이상) | Service Health API API 기반 자동 알림 |
Backstage, Terraform, PagerDuty |
이슈 발생 시 Personalized Service Health 사용
Personalized Service Health와 통합하고 알림을 받기 시작하면 Personalized Service Health에서 서비스 중단에 대한 정보를 제공하여 Google Cloud 서비스 중단의 영향을 관리하는 데 도움이 됩니다.
이슈 감지 및 범위 파악
이 단계에서 할 수 있는 질문은 다음과 같습니다.
- 실제로 문제가 되는 건가요?
- 영향을 확인할 수 있나요?
- 증상은 무엇인가요?
- 어떤 사용자, 제품 또는 비즈니스 부분이 영향을 받나요? 어떤 지역에서
Personalized Service Health를 사용하면 문제가 프로젝트에서 발생했는지 아니면 Google에서 발생했는지 파악하여 적절한 이슈 대응을 구현할 수 있습니다. 이 기능을 사용하면 이벤트 정보를 찾아 확인하여 프로젝트에 영향을 미치는 이벤트, 영향을 받은 제품, 위치를 모니터링할 수 있습니다.
다음 단계를 따르세요.
- 알림이 설정되어 있는 경우 검토합니다.
- 이 알림이 표시되는 이유는 무엇인가요?
- 이러한 알림은 제품과 관련된 다른 모든 알림과 어떻게 관련이 있나요?
- 프로젝트 또는 조직의 서비스 상태 대시보드에 액세스합니다. 이벤트, 영향을 받은 제품, 위치를 한눈에 확인하고 다음 질문에 답변할 수 있습니다.
- 어떤 프로젝트가 영향을 받나요?
- 프로젝트에서 사용하는 제품 중 어떤 제품이 영향을 받나요?
- 해당 위치 내 특정 리소스에 영향을 미치나요?
- 이벤트를 검토하고 이벤트의 범위, 영향, 프로젝트와의 관련성을 파악합니다.
- 발생한 문제와 관련이 있는 것으로 보이는 이벤트를 찾습니다.
- 확인 단계, 완화 조치 (있는 경우), 이벤트의 예상 해결 시간을 찾습니다.
Personalized Service Health를 사용하면 프로젝트 또는 조직에 영향을 미치는 이슈의 현재 상태와 영향을 검토하여 이슈를 효율적으로 관리하고 대응할 수 있습니다. 예를 들어 가장 높은 우선순위의 문제를 정확하게 식별하여 효과적으로 우선순위를 지정할 수 있습니다.
이슈 완화, 해결 또는 에스컬레이션
이 단계에서 할 수 있는 질문은 다음과 같습니다.
- 이 문제를 해결하려면 어떻게 해야 하나요?
- 직접 해결해 주시겠어요?
- 지금 장애 조치를 시작해야 하나요, 아니면 더 기다려야 하나요?
- 문제를 해결하려면 누구에게 알리면 되나요?
Personalized Service Health를 사용하면 이슈가 프로젝트 및 리소스에 미치는 영향을 파악하고, 사용 가능한 해결 방법을 알 수 있으며, 예상 해결 시간에 대한 업데이트를 받을 수 있습니다.
문제 해결 진행 상황 모니터링
서비스 상태 대시보드의 이벤트 개요는 완화에 필요한 증상 및 해결 방법과 같은 주요 정보를 식별하고 상태가 변경된 시점을 보여줍니다. 이러한 세부정보를 통해 다음 작업을 할 수 있습니다.
- 상황이 진행되는 동안 잠재적 영향의 실시간 요약을 모니터링합니다.
- 새로운 소식과 다음 커뮤니케이션 또는 업데이트의 예상 시간을 계속 확인하세요.
- 증상이 게시된 시점을 확인합니다.
- 해결 방법이 확인되면 확인하세요.
- 상태가 해결됨으로 변경되는 시점을 확인합니다.
진행 상황을 모니터링하는 동안 다음 작업을 수행할 수 있습니다.
- 해결 방법이 있는 경우 검토합니다.
- 프로젝트 또는 조직에 적합한 이슈 대응을 구현합니다.
- 문제가 완화되거나 해결될 때까지 계속 모니터링합니다.
지원팀에 문의해야 하는 경우
Google은 Service Health 대시보드에 표시되는 이벤트를 인지하고 있습니다. Google에서 어떤 조치를 취하고 있는지 알아보려면 이벤트를 선택하여 세부정보를 확인하세요.
대시보드의 이벤트에 문제가 표시되지 않는 경우 지원팀에 문의하세요.
다른 이슈 정보 소스와 함께 Personalized Service Health 사용
회사 설정에 관계없이 이슈의 영향을 평가할 때는 Personalized Service Health를 추가 신호로 사용하세요. 데이터와 증거를 기반으로 다음 단계를 결정할 수 있도록 여러 이슈 정보 소스를 검토할 수 있어야 합니다.
여러 이슈 정보 소스를 사용하는 이유는 다음과 같습니다.
- 제품이 일부 위치에서 이슈를 겪고 있지만 프로젝트가 다른 위치에 있으므로 영향을 받지 않을 수 있습니다. Google Cloud
- 게재 시스템에 별도의 영역에 두 개의 완전한 복제본이 있고 한 영역의 중요한 Google Cloud 제품이 실패하면 맞춤설정된 Service Health에서 이 실패를 알려줍니다. 하지만 실제로 사용자에게 영향을 미치지 않을 수 있으며 즉각적인 조치를 취하지 않아도 될 수 있습니다.
- 프로젝트가 위치 내의 여러 Google Cloud 제품에 종속되는 경우 Personalized Service Health는 다음을 알 수 없습니다.
- 프로젝트에서 모든 제품이 작동해야 하는 경우
- 하나의 제품이 실패하더라도 프로젝트가 계속 작동하는 경우
- 하나 이상의 제품이 실패하면 전체 애플리케이션이 영향을 받는 경우
- Personalized Service Health 자체가 저하되거나 실패할 수도 있습니다. 확인하려면 상태를 확인하세요.
설정에 따라 맞춤 서비스 상태의 신호를 해석해야 합니다.