서비스 중단은 불가피하지만, 투명하고 조기 커뮤니케이션은 상황을 평가하고, 이해관계자에게 정보를 제공하고, 비즈니스에 미치는 영향을 최소화하기 위한 조치를 실행하는 데 필수적입니다.
안정적인 클라우드 애플리케이션을 운영하는 것은Google Cloud 와 애플리케이션 개발자의 공동 책임입니다. 서비스 중단이 발생하면Google Cloud 는 이슈를 신속하게 전달하고 영향 평가를 제공하는 것을 목표로 합니다. 알림을 수신하고, 새로운 인시던트에 대응하고, 애플리케이션에 미치는 영향을 관리하는 방법을 평가해야 합니다.
Personalized Service Health가 이 프로세스에 도움이 될 수 있습니다. 다양한 방법으로 통합하여 새로운 인시던트를 파악하고, 애플리케이션에 미치는 영향을 평가하고, Google Cloud로부터 업데이트를 받을 수 있습니다. 이 문서에서는Google Cloud에서 서비스 중단 신호를 수신하는 방법을 간략하게 설명하고 통합에 관한 권장사항을 제공합니다.
통합할 위치 결정
Personalized Service Health는 프로젝트 또는 조직 전반에서 사용하는 Google Cloud 제품을 맞춤설정된 방식으로 볼 수 있도록 지원합니다. Personalized Service Health와 통합하여 가장 광범위한 통합 옵션을 제공하는 것이 좋습니다.
통합 지점 | 사용 사례 | 이점 | 종속 항목 |
콘솔 대시보드 (맞춤형 서비스 상태) | 활성 서비스 중단 보기 | 프로젝트에 맞게 맞춤설정되며 기본적으로 제공됨 | Identity and Access Management (IAM) Google Cloud 콘솔 |
알림 (맞춤설정된 서비스 상태) | 사전 알림 | 프로젝트에 맞게 맞춤설정되고, 편리하며, 선제적임 | IAM Cloud Logging Cloud Monitoring |
API (맞춤 서비스 상태) | 다른 시스템 또는 도구와 통합 | 프로젝트 또는 조직에 맞게 맞춤설정 | IAM |
Personalized Service Health와의 상호작용 방법 선택
의도한 운영, 모니터링, 이슈 대응 모델의 맥락에서 Personalized Service Health를 고려해야 합니다. 팀이 인시던트가 발생할 때와 인시던트가 발생하기 전에 신호를 사용하는 방식을 평가하여 Personalized Service Health를 사용하는 방법을 결정할 수 있습니다.
다음 표에서는 Personalized Service Health가 설정된 방식에 따라 상호작용하는 방법을 보여줍니다.
조직의 예시 시나리오 | Personalized Service Health와의 통합 | 통합할 수 있는 도구의 예 |
몇 가지 애플리케이션에 대해 당직 근무를 하는 개발자 | 개별 프로젝트 알림
콘솔 대시보드 |
Google Cloud Observability, PagerDuty |
조직 전반의 중앙 집중식 침해 사고 대응 | OrganizationEvents API (v1, v1beta)를 사용하여 기존 시스템과 API 통합 | PagerDuty, 맞춤 대시보드 |
클라우드 리소스 및 작업을 관리하는 내부 플랫폼 | Service Health API 개별 프로젝트 알림 내부 개발자 플랫폼과의 Service Health API 통합 |
Backstage, Terraform |
프로그래매틱 방식으로 구성되고 관리되는 프로젝트가 많음 (예: 1,000개 이상) | Service Health API 자동화된 API 기반 알림 |
Backstage, Terraform, PagerDuty |
인시던트 발생 시 Personalized Service Health 사용
Personalized Service Health와 통합하고 알림을 받기 시작하면 Personalized Service Health에서 영향을 관리하는 데 도움이 되는 Google Cloud중단에 관한 정보를 제공합니다.
인시던트 감지 및 범위 지정
이 단계에서 할 수 있는 질문은 다음과 같습니다.
- 실제로 문제가 되나요?
- 영향을 검증할 수 있나요?
- 증상은 무엇인가요?
- 영향을 받는 사용자, 제품 또는 비즈니스 부분은 무엇인가요? 어떤 지역인가요?
Personalized Service Health를 사용하면 문제가 프로젝트에서 발생한 것인지 Google에서 발생한 것인지 파악하여 적절한 이슈 대응을 구현할 수 있습니다. 이 기능을 사용하면 이벤트 정보를 찾아보고 확인할 수 있으므로 프로젝트에 영향을 미치는 이벤트, 영향을 받는 제품, 위치를 모니터링할 수 있습니다.
다음 단계를 따르세요.
- 알림이 설정되어 있다면 검토합니다.
- 이 알림이 발생한 원인은 무엇인가요?
- 이러한 알림은 다른 제품별 알림과 어떻게 관련이 있나요?
- 프로젝트 또는 조직의 서비스 상태 대시보드에 액세스합니다. 이벤트, 영향을 받는 제품, 위치를 한눈에 확인하고 다음 질문에 답할 수 있습니다.
- 어떤 프로젝트가 영향을 받나요?
- 프로젝트가 의존하는 제품 중 어떤 제품이 영향을 받나요?
- 이 이벤트가 해당 위치 내의 특정 리소스에 영향을 미치나요?
- 이벤트를 검토하고 프로젝트와의 범위, 영향, 관련성을 파악합니다.
- 발생한 문제와 관련된 것으로 보이는 이벤트를 확인합니다.
- 확인 단계, 완화 (가능한 경우), 이벤트의 예상 해결 시간을 확인합니다.
Personalized Service Health를 사용하면 프로젝트 또는 조직에 영향을 미치는 이슈의 현재 상태와 영향을 검토하여 효율적으로 관리하고 대응할 수 있습니다. 예를 들어 우선순위가 가장 높은 인시던트를 정확하게 식별하여 효과적으로 우선순위를 지정할 수 있습니다.
인시던트 완화, 해결 또는 에스컬레이션
이 단계에서 할 수 있는 질문은 다음과 같습니다.
- 이 문제를 해결하려면 어떻게 해야 하나요?
- 직접 수정할 수 있나요?
- 지금 장애 조치를 시작해야 할까요, 아니면 더 기다려야 할까요?
- 이 문제를 해결하려면 누구에게 알려야 하나요?
Personalized Service Health를 사용하면 프로젝트 및 리소스에 대한 이슈의 영향을 파악하고, 사용 가능한 해결 방법을 확인하고, 예상 해결 시간에 관한 업데이트를 받을 수 있습니다.
침해 사고 해결 진행 상황 모니터링
서비스 상태 대시보드의 이벤트 개요는 완화에 필요한 증상 및 해결 방법과 같은 주요 정보를 식별하고 상태가 변경되는 시점을 표시합니다. 이 세부정보를 통해 다음 작업을 할 수 있습니다.
- 상황이 전개됨에 따라 잠재적 영향의 요약 정보를 모니터링합니다.
- 새로운 소식과 다음 커뮤니케이션 또는 업데이트 예정 시간을 확인하세요.
- 증상이 게시된 시점을 확인합니다.
- 해결 방법이 확인된 시점을 확인하세요.
- 상태가 해결됨으로 변경되는 시점을 확인합니다.
진행 상황을 모니터링하는 동안 다음 작업을 수행할 수 있습니다.
- 해결 방법이 있는 경우 검토합니다.
- 프로젝트 또는 조직에 적합한 침해 사고 대응을 구현합니다.
- 이벤트가 완화되거나 해결될 때까지 계속 모니터링합니다.
지원팀에 문의해야 하는 경우
Google은 Service Health 대시보드에 표시되는 이벤트를 알고 있습니다. Google에서 이벤트에 대해 어떤 조치를 취하고 있는지 확인하려면 이벤트를 선택하여 세부정보를 확인하세요.
문제가 대시보드의 이벤트에 표시되지 않는 경우 지원팀에 문의하세요.
Personalized Service Health를 다른 이슈 정보 소스와 함께 사용
회사 설정과 관계없이 Personalized Service Health를 인시던트의 영향을 평가할 때 추가 신호로 사용하세요. 데이터와 증거를 기반으로 다음 단계를 결정할 수 있도록 여러 인시던트 정보 소스를 검토할 수 있는지 확인합니다.
여러 소스의 사고 정보를 사용해야 하는 이유는 다음과 같습니다.
- Google Cloud 제품에 일부 위치에서 인시던트가 발생하고 있지만 프로젝트가 다른 위치에 있어 영향을 받지 않을 수 있습니다.
- 서빙 시스템에 별도의 영역에 있는 두 개의 완전한 복제본이 있고 한 영역의 Google Cloud 중요 제품이 실패하면 맞춤형 서비스 상태에서 해당 실패를 알려줍니다. 하지만 사용자에게 실제로 영향을 미치지 않을 수도 있으며 즉각적인 조치를 취하지 않아도 될 수도 있습니다.
- 프로젝트가 위치 내의 여러 Google Cloud 제품에 의존하는 경우 Personalized Service Health에서 다음을 알 수 없습니다.
- 프로젝트에 모든 제품이 작동해야 하는 경우
- 하나의 제품이 실패할 경우 프로젝트가 계속 작동하는지 여부입니다.
- 하나 이상의 제품이 실패할 경우 전체 애플리케이션이 영향을 받습니다.
- Personalized Service Health 자체도 성능이 저하되거나 실패할 수 있습니다. 확인하려면 상태를 확인하세요.
Personalized Service Health의 신호를 설정에 맞게 해석해야 합니다.