이슈 및 Google Cloud Service Health 대시보드

Google Cloud Service Health(CSH) 대시보드는 리전 및 글로벌 언어로 구성된 Google Cloud 제품의 상태 정보를 제공합니다.

주요 이슈

Google Cloud는 다음 조건을 모두 충족하는 이슈를 주요 이슈로 정의합니다.

  • 큰 범위 - 전역에 영향을 미치거나 하나 이상의 리전에서 상당한 비율의 고객 프로젝트에 영향을 주고 있습니다.
  • 높은 심각도 - 하나 이상의 제품을 사용할 수 없거나 성능이 심각하게 저하되었습니다.

드물지만 주요 이슈가 발생하면 Google에서 신속하게 문제가 해결되도록 조치합니다.

주요 이슈 발생 시 Google Cloud Service Health 대시보드를 통해 문제 상태를 알립니다. 주요 이슈는 상태 대시보드에 서비스 중단으로 표시됩니다. 문제가 해결되면 Google은 이슈에 기여한 요소에 대한 정보와 이러한 이슈가 재발하지 않도록 방지하기 위한 단계가 포함된 공개 이슈 보고서를 게시합니다.

이슈의 범위가 작으면 고객에게 비공개 보고서가 제공될 수 있습니다.

이슈의 수명 주기

제품 품질 저하가 감지되면 Google Cloud 지원팀과 제품 엔지니어링팀이 협업하여 이슈를 해결하고 관련 업데이트를 제공합니다.

다음 다이어그램은 제품 엔지니어링 및 지원팀의 책임을 보여줍니다.

수명 주기 다이어그램

다음 섹션에서 이러한 각 책임에 대해 자세히 알아볼 수 있습니다.

감지

Google Cloud는 내부 및 블랙박스 모니터링을 통해 이슈를 감지합니다. 자세한 내용은 사이트 안정성 엔지니어링 교재의 6장을 참조하세요.

프리미엄, 고급 또는 기본 지원을 사용하는 경우 Google Cloud Console에서 지원 케이스를 만들어서 이슈를 보고할 수 있습니다. 그렇지 않으면 이 양식을 사용할 수 있습니다.

초기 대응

이슈가 감지되면 Google Cloud Customer Care팀이 고객 커뮤니케이션을 관리합니다. 이슈의 초기 알림에 포함된 정보는 부족한 경우가 많으며 문제가 되는 제품만 언급하는 경우가 종종 있습니다. 이는 Google이 세부정보보다 신속한 알림에 우선순위를 두기 때문이며 세부정보는 이후 업데이트에서 제공합니다.

사용자와 관련 없는 문제로 혼동을 주지 않으면서 가능한 많은 정보를 제공하려면 문제의 범위와 심각도에 따라 서로 다른 커뮤니케이션 채널을 사용해야 합니다.

커뮤니케이션 다이어그램

서비스 중단이 발생했을 때 가장 먼저 Personalized Service Health를 사용하는 것이 좋습니다. Personalized Service Health를 통해 프로젝트 및 사용 중인 Google Cloud 제품을 기준으로 프로젝트와 관련된 중단을 볼 수 있습니다. Personalized Service Health 및 이슈 관리 워크플로에 통합하는 방법을 자세히 알아보세요.

Google Cloud Service Health 대시보드에는 주요 이슈가 표시되며, 드물지만 Personalized Service Health 자체를 사용할 수 없거나 서비스 중단의 영향을 받는 경우에도 사용할 수 있도록 설계되었습니다.

Personalized Service Health를 사용 설정하지 않았거나 통합하지 않은 경우 Google Cloud 콘솔 지원 페이지 또는 고객 관리 포털에서 활성 중단을 확인하는 것이 좋습니다. Google Cloud 콘솔 지원 페이지 및 Cloud 고객 관리 포털에 표시되는 알려진 문제에는 제한된 범위 내의 사소한 이슈도 포함됩니다.

지원 케이스는 이슈로 검증되지 않거나 사람이 일대일로 검토해야 하는 문제에 적합합니다. 알려진 문제 페이지에서는 게시된 이슈에서 케이스를 만들어 정기적인 업데이트를 받고 지원 담당자에게 문의할 수 있습니다.

조사

제품 엔지니어링팀은 이슈의 근본 원인을 조사할 책임이 있습니다. 이슈 관리는 사이트 안정성 엔지니어가 수행하는 경우가 많지만 상황이나 제품에 따라 소프트웨어 엔지니어 또는 다른 엔지니어가 수행할 수도 있습니다. 자세한 내용은 사이트 안정성 엔지니어링 교재의 12장을 참조하세요.

문제 완화/해결

변경사항을 통해 이슈의 영향이 없어졌다고 Google이 확신하는 경우에만 문제가 해결된 것으로 간주됩니다. 예를 들어 이슈를 트리거한 변경사항을 롤백하는 것도 해결로 간주될 수 있습니다.

이슈가 계속되는 동안 고객 관리 및 제품팀은 문제를 완화하기 위해 노력합니다. 문제 완화란 문제의 영향이나 범위를 줄이는 것을 의미합니다. 예를 들면 과부하가 발생한 제품에 추가 리소스를 임시로 제공하는 방식입니다.

완화되지 않으면 고객 관리팀이 해결방법을 찾아 전달합니다. 해결방법이란 이슈에도 불구하고 기본적인 요구사항을 해결하기 위해 취할 수 있는 조치입니다. 예를 들어 문제가 있는 코드 경로를 회피하기 위해 API 호출에 다른 설정을 사용하는 것이 해결방법이 될 수 있습니다.

후속 조치

이슈가 계속되는 동안 고객 관리팀은 정기적인 업데이트를 제공합니다. 업데이트에는 일반적으로 다음 내용이 포함됩니다.

  • 오류 메시지, 영향을 받은 영역 또는 리전, 영향을 받은 기능, 영향을 받은 비율 등 사고에 대한 자세한 정보

  • 해결방법을 포함한 문제 완화 진행 상태

  • 이슈에 맞춤화된 커뮤니케이션의 타임라인

  • 이슈 해결 시점 등 상태 변경

사후 조사

이슈를 완전히 이해하고 Google이 수행할 수 있는 안정성 개선 작업을 파악하기 위해 내부적으로 모든 이슈에 대한 사후 조사를 실시합니다. 그런 다음 이러한 개선 작업을 구현하고 추적합니다. Google의 사후 조사에 대한 자세한 내용은 사이트 안정성 엔지니어링 교재의 15장을 참조하세요.

이슈 보고서

이슈가 매우 광범위하고 심각한 영향을 미치는 경우 Google은 증상, 영향, 근본 원인, 구제 조치, 이슈의 향후 방지 대책을 개략적으로 설명하는 이슈 보고서를 제공합니다. 사후 조사와 마찬가지로 Google은 문제로부터 학습을 시작하고 안정성을 개선하는 데 필요한 조치에 각별히 주의를 기울입니다. 사후 조사에 따른 보고서 작성 및 배포에 대한 Google의 목표는 고객들을 위한 안정적인 제품 빌드를 위해 Google의 노력을 투명하게 보여주는 것입니다.

이슈 데이터 모델

이슈는 하나 이상의 위치에 있는 하나 이상의 제품에 영향을 줍니다. 이슈에는 시작 시간 및 종료 시간과 전반적인 심각도가 있습니다. 이슈에는 상태 및 영향을 받은 위치를 포함하여 시간 경과에 따른 이슈의 변화를 설명하는 업데이트가 포함됩니다. 이슈 정보는 JSON 스키마를 통해 제공됩니다.

JSON 스키마에는 안정불안정 필드가 있습니다. 일반적으로 ID 필드는 안정된 것으로 간주되는 반면 표시 이름과 같은 필드는 불안정으로 간주되며 경고 없이 변경될 수 있습니다. 외부 시스템과 통합하거나 자동화를 빌드할 때만 안정 필드를 사용합니다. Google Cloud Service Health 대시보드에 표시되는 데이터를 프로그래매틱 방식으로 사용하는 통합을 빌드할 수 있나요?를 참조하세요.

FAQ

Google CSH 대시보드에서 어떤 유형의 상태 정보를 찾을 수 있나요?

Google CSH 대시보드에서는 Google Cloud에 포함된 제품에 대한 상태 정보를 제공합니다. 상태에는 제품 장애 또는 일시적인 문제에 대한 정보 메시지가 해당됩니다.

이슈는 언제 Google CSH 대시보드에 게시되나요?

다음 기준 중 하나를 충족하는 이슈는 CSH 대시보드에 표시됩니다.

과거 제품 장애 및 중단에 대한 정보를 어디에서 확인할 수 있나요?

Google CSH 대시보드는 Google Cloud 제품의 장애 및 중단 기록을 최대 5년 동안 유지합니다. 대시보드의 개요 탭에 현재 제품 상태가 언어별로 표시됩니다. 작년에 발생한 제품 장애 및 중단에 대한 정보를 보려면 대시보드에서 기록 보기를 클릭합니다. 지난 5년 동안의 제품 중단 기록을 보려면 해당 제품의 더보기를 클릭합니다.

Google Cloud 제품의 리전화된 상태 정보를 어떻게 볼 수 있나요?

Google CSH 대시보드에는 리전 및 전역 언어로 구성된 모든 Google Cloud 제품의 상태가 표시됩니다. 멀티 리전 상태를 보려면 리전별 탭을 클릭합니다.

Google Cloud Service Health 대시보드에 표시되는 데이터를 프로그래매틱 방식으로 사용하는 통합을 빌드할 수 있나요?

예. 다음과 같은 방법으로 Google CSH 대시보드에 표시되는 데이터를 사용할 수 있습니다.

  • RSS 피드 사용
  • JSON 기록 파일 사용

    여기에서 JSON 파일의 스키마를 다운로드할 수 있습니다.

RSS 피드와 JSON 기록 파일에서는 통합을 통해 사용할 수 있는 이슈 상태 정보를 제공합니다.

불안정이라고 표시된 필드 대신 JSON 기록 파일에서 안정으로 표시된 필드를 사용합니다. 예를 들어 특정 제품 모음에 영향을 미치는 이슈를 프로그래매틱 방식으로 식별하려는 경우 표시 이름이 아닌 제품 ID(affected_products>id)를 사용합니다.

제품 ID와 제품 이름 비교

지금까지 Google Cloud Service Health 대시보드는 지정된 제품의 ID를 찾는 메커니즘을 제공하지 않았습니다. 2023년 초부터 Google Cloud Service Health 대시보드는 모든 제품에 이 매핑을 제공하는 제품 카탈로그를 제공합니다. 제품 ID는 제품의 표시 이름이 변경되어도 입력 데이터를 제어할 수 있는 안정적인 필드를 제공합니다. 제품 모음에 영향을 주는 이슈를 프로그래매틱 방식으로 식별할 때는 제품 ID를 참조하는 것이 좋습니다.

리전화된 상태 보고와 Google Cloud Service Health 대시보드 이름 변경이 도입되기 전에 Google Cloud 상태 대시보드를 기반으로 사전 빌드된 통합이 있는 경우에는 어떻게 해야 하나요?

RSS 피드와 JSON 파일 모두에서 리전 상태 정보는 리전화된 상태 보고 도입 및 Google Cloud 상태 대시보드 이름 변경 전에 이미 게시되어 있습니다. 따라서 기존 통합을 계속 사용할 수 있습니다. 그러나 통합을 통해 리전 상태 정보를 사용하려면 이를 수정해야 합니다.

다음에서는 리전 정보가 RSS 피드와 JSON 파일 모두에 표시되는 방식을 자세히 설명합니다.

  • RSS 피드

    리전 상태 정보는 리전화된 상태가 도입되기 전에 제공된 피드 정보에 새로 추가된 정보입니다. 영향을 받는 것으로 보고된 모든 위치가 RSS 메시지에 추가됩니다.

  • JSON 파일

    리전 상태 업데이트 전에 Google Cloud는 영향을 받는 제품 목록과 각각의 업데이트 상태 목록(있는 경우)에 포함된 각 이슈의 이슈 스트림을 게시했습니다. 이러한 상태 업데이트에는 위치 정보가 포함되거나 포함되지 않은 구조화되지 않은 문자열 필드가 포함되었습니다.

    이제 Google Cloud는 이전과 마찬가지로 이슈 스트림을 게시합니다. 그러나 모든 이슈에 대한 각 상태 업데이트에 다음과 같은 새 필드가 포함됩니다.

    • updates.affected_locations: 업데이트가 게시된 시점에서 영향을 받는 위치의 구조화된 목록을 포함합니다. 모든 업데이트 레코드와 most_recent_update 레코드에 이 필드가 포함됩니다.
    • currently_affected_locations: 적극적으로 이슈의 영향을 받은 위치에 대한 최신 정보를 포함합니다. updates.affected_locations와 달리 이 목록은 이슈가 해결되면(즉, end가 비어 있지 않은 값으로 설정된 경우) 비게 됩니다.
    • previously_affected_locations: 이전에 이슈 중에 영향을 받았지만 현재는 그렇지 않은 위치 목록을 포함합니다. 이슈가 진행됨에 따라 일부 위치에서 서비스 중단이 해결될 수 있습니다. 이러한 위치는 계속 previously_affected_locations field에 있습니다. 이슈가 해결되면(즉, end가 비어 있지 않은 값으로 설정된 경우) 이 필드에 이 이슈 중에 영향을 받은 모든 위치의 목록이 포함됩니다.

문제가 발생했지만 대시보드에 표시되지 않은 경우 어떻게 해야 하나요?

Google Cloud Service Health 대시보드는 Google Cloud 제품 및 서비스에 영향을 미치는 모든 주요 이슈의 현재 및 이전 상태 정보를 제공합니다. 대시보드에 표시되지 않은 이슈가 발생하는 경우 문제가 프로젝트 또는 인스턴스로 격리되거나 제한된 수의 고객에게만 영향을 주는 것일 수 있습니다. 범위가 작은 이슈는 고객 관리 포털에 표시될 수 있습니다. 문제가 발생했지만 대시보드에 표시되지 않은 경우 고객 관리팀에 문의할 수 있습니다.

이미 Personalized Service Health 대시보드를 사용하는 경우 이슈가 표시되었는지 확인하여 프로젝트 또는 인스턴스가 영향을 받는지 확인합니다.

Google Cloud 콘솔을 사용하는 경우 오른쪽 상단의 의견 보내기 도구를 클릭하여 문제를 신고할 수 있습니다.

대시보드는 누가 업데이트하나요?

전 세계 고객 관리팀에서 다양한 유형의 신호를 사용하여 제품 상태를 모니터링하고 광범위한 문제 발생 시 대시보드를 업데이트합니다. 필요한 경우 이슈가 해결된 후 자세한 이슈 분석 보고서를 게시합니다.