이슈 및 Google Cloud 상태 대시보드

이슈의 수명 주기

제품의 품질 저하가 감지되면 제품 엔지니어링팀 및 Google Cloud Platform 지원팀이 협업하여 이슈를 해결하고 관련 내용을 사용자에게 전달합니다.

수명 주기 다이어그램

감지

Google은 내부 및 블랙박스 모니터링을 통해 이슈를 감지합니다. 자세한 내용은 사이트 안정성 엔지니어링 교재의 6장을 참조하세요.

지원 요금제를 이용 중인 경우 이슈를 보고하려면 Google Cloud 지원 센터에서 지원 케이스를 생성하면 됩니다. 또는 이 양식을 사용할 수 있습니다.

초기 대응

이슈가 감지되면 지원팀이 사용자와의 커뮤니케이션을 주도합니다. 이슈의 초기 알림에 포함된 정보는 부족한 경우가 많으며, 문제가 되는 제품만 언급하는 경우가 종종 있습니다. 이는 Google이 세부정보보다 신속한 알림에 우선순위를 두기 때문이며 세부정보는 이후 업데이트에서 제공합니다.

사용자와 관련 없는 문제로 혼동을 주지 않으면서 가능한 많은 정보를 제공하려면 문제의 범위와 심각도에 따라 서로 다른 커뮤니케이션 채널을 사용해야 합니다.

커뮤니케이션 다이어그램

사용자와 관련 있는 문제가 발견된 경우 Cloud 상태 대시보드를 확인해야 합니다. 대시보드에는 다수의 고객에게 영향을 미치는 이슈가 표시되므로 여기에 표시된 이슈는 사용자의 문제와 관련이 있을 가능성이 높습니다. 심각도를 나타내기 위해 상태 대시보드에는 서비스 장애 또는 서비스 중단 중 하나로 이슈가 표시됩니다. 사소하지만 광범위한 문제는 임시 알림으로 게시됩니다.

Google Cloud 지원 센터Cloud Console 지원 페이지에 표시되는 알려진 문제란 가장 포괄적인 관점의 문제로, 여기에는 대시보드에 표시되는 문제보다 더 적은 사람들에게 영향을 미치는 문제가 포함됩니다. GCP 문제가 의심되지만 대시보드에 아무 것도 표시되지 않을 경우 여기에서 확인해야 합니다.

지원 케이스는 이슈로 검증되지 않거나 사람이 일대일로 검토해야 하는 문제에 적합합니다. 알려진 문제 페이지에서는 게시된 이슈로부터 케이스를 만들어 정기적인 업데이트를 받고 지원 담당자에게 문의할 수 있습니다.

조사

제품 엔지니어링팀은 이슈의 근본 원인을 조사할 책임이 있습니다. 이슈 관리는 사이트 안정성 엔지니어가 수행하는 경우가 많지만 상황이나 제품에 따라 소프트웨어 엔지니어 또는 다른 엔지니어가 수행할 수도 있습니다. 자세한 내용은 사이트 안정성 엔지니어링 교재의 12장을 참조하세요.

문제 완화/해결

변경사항을 통해 이슈의 영향이 없어졌다고 Google이 확신하는 경우에만 문제가 해결된 것으로 간주됩니다. 예를 들어 이슈를 트리거한 변경사항을 롤백하는 것도 해결로 간주될 수 있습니다.

이슈가 계속되는 동안 지원팀과 제품팀은 문제로 인한 위험을 완화하기 위해 노력합니다. 문제 완화란 문제의 영향 또는 범위를 줄이는 것을 의미하며, 예를 들면 과부하가 발생한 서비스에 추가 리소스를 임시로 제공하는 방식입니다.

완화 현상이 보이지 않으면 지원팀에서 해결방법을 찾아 전달합니다. 해결방법이란 이슈에도 불구하고 기본적인 요구사항을 해결하기 위해 취할 수 있는 조치입니다. 예를 들어 문제가 있는 코드 경로를 회피하기 위해 API 호출에 다른 설정을 사용하는 것이 해결방법이 될 수 있습니다.

후속 작업

이슈가 계속되는 동안 지원팀은 정기적인 업데이트를 제공합니다. 업데이트에는 일반적으로 다음 내용이 포함됩니다.

  • 오류 메시지, 영향을 받은 영역 또는 리전, 영향을 받은 기능, 영향을 받은 비율 등 사고에 대한 자세한 정보

  • 해결방법을 포함한 문제 완화 진행 상태

  • 이슈에 맞춤화된 커뮤니케이션의 타임라인

  • 이슈 해결 시점 등 상태 변경

사후 조사

이슈를 완전히 이해하고 Google이 수행할 수 있는 안정성 개선 작업을 파악하기 위해 내부적으로 모든 이슈에 대한 사후 조사를 실시합니다. 그런 다음 이러한 개선 작업을 구현하고 추적합니다. Google의 사후 조사에 대한 자세한 내용은 사이트 안정성 엔지니어링 교재의 15장을 참조하세요.

이슈 보고서

이슈가 매우 광범위하고 심각한 영향을 미치는 경우 Google은 증상, 영향, 근본 원인, 구제 조치, 이슈의 향후 방지 대책을 개략적으로 설명하는 이슈 보고서를 제공합니다. 사후 조사와 마찬가지로 Google은 문제로부터 학습을 시작하고 안정성을 개선하는 데 필요한 조치에 각별히 주의를 기울입니다. 사후 조사에 따른 보고서 작성 및 배포에 대한 Google의 목표는 고객들을 위한 안정적인 서비스 구축을 위해 Google의 노력을 투명하게 보여주는 것입니다.

FAQ

대시보드 홈페이지에서는 어떤 유형의 상태 정보를 확인할 수 있나요?

Google Cloud 상태 대시보드는 Google Cloud Platform에 포함된 서비스에 관한 상태 정보를 제공합니다. 서비스 장애, 서비스 중단, 일시적인 문제에 관한 정보 메시지 등이 상태에 해당합니다.

과거 서비스 장애 및 서비스 중단에 대한 정보는 어디에서 확인할 수 있나요?

요약 및 기록 페이지는 지난 365일 동안에 발생한 장애 및 중단 기록이 저장되어 있는 저장소입니다. 진행 중인 이슈의 이슈 번호를 클릭하여 이슈에 관한 게시물을 검토하고 지원팀에서 작성한 이슈 요약 보고서를 살펴볼 수 있습니다.

문제가 발생했지만 대시보드에 표시되지 않은 경우 어떻게 해야 하나요?

고객의 프로젝트나 인스턴스로 격리되거나 또는 제한된 수의 고객에게만 영향을 주는 문제일 수 있습니다. 문제가 발생했지만 대시보드에 표시되지 않은 경우 지원팀에 문의할 수 있습니다.

Google Cloud Platform Console을 사용하는 경우 오른쪽 상단에 있는 의견 보내기 도구를 클릭하여 문제를 보고합니다.

대시보드는 누가 업데이트하나요?

전 세계의 Google Cloud Platform 지원팀이 다양한 유형의 신호를 사용하여 서비스 상태를 모니터링하고 광범위한 문제 발생 시 대시보드를 업데이트합니다. 필요한 경우 이슈가 해결된 후 자세한 이슈 분석 보고서를 게시합니다.

'이슈'와 '중단'은 어떻게 다른가요?

이 두 가지 용어는 교차 사용할 수 있지만, Cloud 상태 대시보드와 Google의 외부 커뮤니케이션에서 '이슈'는 서비스가 기간에 상관없이 저하된 상태를 나타내고 '중단'은 제품이 상당한 정도로 작동하지 않는 가장 심각한 경우를 나타냅니다.

이 페이지가 도움이 되었나요? 평가를 부탁드립니다.

다음에 대한 의견 보내기...