이슈의 수명 주기

이 문서에서는 Google Cloud 지원팀과 제품 엔지니어링팀이 협업하여 인시던트를 해결하고 관련 업데이트를 제공하는 방법을 설명합니다.

다음 다이어그램은 제품 엔지니어링 및 지원팀의 책임을 보여줍니다.

수명 주기 다이어그램

다음 섹션에서는 이러한 책임을 설명합니다.

감지

Google Cloud 는 내부 및 합성 모니터링을 사용하여 인시던트를 감지합니다. 자세한 내용은 사이트 안정성 엔지니어링 교재의 6장을 참고하세요.

초기 응답

이슈가 감지되면 Google Cloud 서비스 상태팀이 고객 커뮤니케이션을 관리합니다. 이슈의 초기 알림에 포함된 정보는 부족한 경우가 많으며, 문제가 되는 제품만 언급하는 경우가 종종 있습니다. 이는 Google에서 세부정보보다 신속한 알림에 우선순위를 두기 때문이며 세부정보는 이후 업데이트에서 제공합니다.

사용자와 관련 없는 문제로 혼동을 주지 않으면서 가능한 많은 정보를 제공하기 위해 문제의 범위와 심각도에 따라 서로 다른 커뮤니케이션 채널을 사용합니다.

커뮤니케이션 다이어그램

조사

제품 엔지니어링팀은 이슈의 근본 원인을 조사할 책임이 있습니다. 이슈 관리는 사이트 안정성 엔지니어가 수행하는 경우가 많지만 상황이나 제품에 따라 소프트웨어 엔지니어 또는 다른 엔지니어가 수행할 수도 있습니다. 자세한 내용은 사이트 안정성 엔지니어링 도서의 12장을 참조하세요.

완화 및 해결

변경사항을 통해 이슈의 영향이 없어졌다고 Google이 확신하는 경우에만 문제가 해결된 것으로 간주됩니다. 예를 들어 이슈를 트리거한 변경사항을 롤백하는 것도 해결로 간주될 수 있습니다.

이슈가 계속되는 동안 서비스 상태 및 제품팀은 문제를 완화하기 위해 노력합니다. 완화란 문제의 영향 또는 범위를 줄이는 것을 의미하며, 예를 들면 과부하가 발생한 제품에 추가 리소스를 임시로 제공하는 방식입니다.

완화되지 않으면 서비스 상태팀이 해결 방법을 찾아 전달합니다. 해결 방법이란 이슈에도 불구하고 기본적인 요구사항을 해결하기 위해 취할 수 있는 단계입니다. 예를 들어 문제가 있는 코드 경로를 회피하기 위해 API 호출에 다른 설정을 사용하는 것이 해결 방법이 될 수 있습니다.

후속 조치

문제가 계속되는 동안 Service Health팀은 정기적인 업데이트를 제공합니다. 업데이트에는 일반적으로 다음 내용이 포함됩니다.

  • 오류 메시지, 영향을 받은 영역 또는 리전, 영향을 받은 기능, 영향을 받은 비율 등 이슈에 대한 자세한 정보

  • 해결 방법을 포함한 문제 완화 진행 상태

  • 이슈에 맞춤화된 커뮤니케이션의 타임라인

  • 이슈 해결 시점 등 상태 변경

회고

모든 사고는 사고를 완전히 이해하고 Google이 취할 수 있는 안정성 개선 조치를 파악하기 위해 내부 회고를 거칩니다. 그런 다음 이러한 개선 작업을 구현하고 추적합니다. 자세한 내용은 사이트 안정성 엔지니어링 교재의 15장을 참고하세요.

이슈 보고서

이슈가 매우 광범위하고 심각한 영향을 미치는 경우 Google은 증상, 영향, 근본 원인, 구제 조치, 이슈의 향후 방지 대책을 개략적으로 설명하는 이슈 보고서를 제공합니다. 회고와 마찬가지로 Google은 문제로부터 학습을 시작하고 안정성을 개선하는 데 필요한 조치에 각별히 주의를 기울입니다. 회고 작성 및 배포에 대한 Google의 목표는 고객을 위해 안정적인 제품을 구축하려는 Google의 노력을 투명하게 보여주는 것입니다.