콘텐츠로 이동하기
관리 도구

Personalized Service Health 소개: 이슈 대응 커뮤니케이션 향상

2023년 8월 25일
https://storage.googleapis.com/gweb-cloudblog-publish/images/psh-hero.max-2500x2500.jpg
Daniel Dobalian

Senior Product Manager, Cloud Reliability

Ravi Ramachandran

Group Product Manager, Cloud Reliability

*본 아티클의 원문은 2023년 8월 3일 Google Cloud 블로그(영문)에 게재되었습니다.


사용 중인 클라우드 서비스가 이슈로 인해 중단되는 경우 효과적인 대응은 중단의 원인을 파악하고 영향의 범위를 평가하는 것에서 시작됩니다. 이 단계는 이해관계자와의 커뮤니케이션이나 재해 복구 절차의 진행과 같은 조치를 취하는 데 있어 매우 중요합니다. 그러나 클라우드 서비스 제공업체를 사용하는 경우 효과적인 이슈 대응 역량은 제공되는 이슈 커뮤니케이션의 투명성, 시의성, 실행 가능성에 따라 달라집니다.

오늘, Google Cloud 서비스 중단에 대한 빠르고 투명하고 관련성 있고 실행 가능한 커뮤니케이션을 제공하는 Personalized Service Health를 소개하게 된 것을 기쁘게 생각합니다. 현재 미리보기 버전으로 제공되는 Personalized Service Health를 사용하면 이슈 대응의 한 지점, 또는 이슈 대응이나 모니터링 도구와 통합하여 Google Cloud 서비스 중단에 대한 상세 알림을 받을 수 있습니다.

https://storage.googleapis.com/gweb-cloudblog-publish/images/image1_Y4UMB7b.max-1100x1100.png

Personalized Service Health를 사용해야 하는 이유  

현재 Google은 사용자에게 영향을 미칠 가능성이 있는 이슈가 감지되면 Google Cloud Service Health를 통해 공개적으로 해당 정보를 게시합니다. 높은 신뢰도를 갖추고 있는 이 공개 대시보드는 널리 알려야 하는 활성 이슈(일반적으로 규모가 크거나 심각도가 높음)에 대한 정보를 전달합니다. Google Cloud 제품 및 해당 제품이 운영되는 리전별로 구성되는 Google Cloud Service Health는 Google Cloud 제품에 영향을 미치는 이슈에 대한 실시간 정보를 표시하며 서비스 중단 내역을 다운로드할 수 있는 메커니즘을 제공합니다.

Personalized Service Health는 이러한 장점을 한 단계 더 발전시킨 서비스로, 많은 고객에게 이슈 대응 여정을 나서기에 이상적인 목적지 역할을 합니다. Personalized Service Health는 다음과 같은 기능을 제공합니다. 

  • 고객과 관련된 서비스 중단을 결정하는 제어 기능: Google Cloud Service Health는 광범위한 고객에 영향을 미치는 이슈를 게시하며, 전체 이슈 목록을 제공하는 것은 아닙니다. 더 많은 이슈에 대해 조기에 또는 더 빈번하게(규모가 작은 이슈 포함) 알림을 받고자 하는 경우 Personalized Service Health를 사용하여 이슈 발생 시 알림을 받는 방법과 시기를 설정하면 됩니다.
  • 기존 이슈 관리 워크플로와 통합하는 기능: Personalized Service Health는 고객이 선호하는 이슈 관리 도구 및 워크플로와의 다양한 통합 옵션을 제공합니다. 예를 들어 알림을 PagerDuty와 통합하여 서비스 중단이 시작될 때 적절한 이슈 대응 전문가에게 알릴 수 있습니다.
  • 사전 예방적 이슈 발견 가능성: Personalized Service Health는 로그를 내보내며 맞춤설정 가능한 알림을 푸시하여 워크플로에서 이슈의 발견 가능성을 높일 수 있습니다.

이러한 이점에 대해 자세히 살펴보겠습니다.

이벤트를 발견하는 방식을 선택하는 알림 구성

Personalized Service Health는 Google Cloud 서비스 중단이 게시 또는 업데이트될 때 광범위한 대상에 알림을 전송할 수 있습니다. 이때 알림을 받을 대상과 위치를 선택하고 영향을 받는 Google 서비스 및 위치, 현재 프로젝트와의 관련성, 관찰 가능한 증상, 알려진 완화 방법을 포함하여 이슈에 대한 중요 정보를 포함하도록 알림 내용을 맞춤설정할 수 있습니다.

알림은 Personalized Service Health에서 직접 구성하거나, Cloud Monitoring에서, 또는 Terraform을 통해 구성할 수 있습니다. 각 알림은 이메일, SMS, Pub/Sub, 웹훅 또는PagerDuty를 포함한 하나 이상의 대상으로 전송 가능합니다. 또한 보다 상세한 알림을 받을 수 있도록 하나의 프로젝트에 대해 여러 개의 알림을 생성할 수 있습니다.

Personalized Service Health는 고객의 프로젝트에 영향을 미칠 수 있는 서비스 중단 관련 정보를 다양한 관련성 수준에 따라 게시하도록 설계되었습니다. 이 접근 방식은 고객이 반드시 필요하다고 생각하는 것 이상의 정보를 제공할 수 있습니다. 균형을 맞추려면 다양한 통합 지점에 걸쳐 관련성이 있다고 판단되는 이슈만 확인하도록 이슈를 필터링할 수 있습니다.

  • 대시보드: 표시되는 필드와 이슈의 최신성을 기준으로 이슈 테이블을 필터링합니다.
  • 알림: Google Cloud 제품, 위치 또는 프로젝트와의 관련성을 포함한 모든 이슈 필드를 사용하여 조건부 알림 정책을 만들 수 있습니다.
  • API: API 요청에 요청 필터를 사용하여 애플리케이션에서 프로그래매틱 방식으로 이벤트를 추가 필터링할 수 있습니다.
  • 로그: Cloud Logging은 로그가 로그 싱크를 통해 다른 대상으로 라우팅될 때 로그를 필터링하는 강력한 쿼리 언어를 지원합니다.

기존 이슈 관리 워크플로와 통합

이슈 대응에는 조직의 여러 구성원, 팀, 도구가 관여할 수 있습니다. Personalized Service Health는 프로그래매틱 액세스, 사전 예방적 또는 사후 대응적 상호작용, 기존 도구에 대한 설정에 따라 다양한 통합 옵션을 제공함으로써 기존 이슈 대응 프로세스에 맞추는 것을 목표로 합니다.

Personalized Service Health를 Google Cloud 콘솔에서 직접 대시보드로 사용하거나, 원하는 워크플로의 기존 이슈 대응 또는 모니터링 도구에 맞춰 조정할 수 있습니다. Service Health 대시보드는 프로젝트와 관련된 활성 이슈 목록을 제공하며, 각 이슈에 대해 해당 이슈의 세부적인 영향을 보거나 Google Cloud 지원팀의 업데이트를 추적할 수 있습니다. 빠르게 설정하고 간편하게 유지관리할 수 있습니다.

https://storage.googleapis.com/gweb-cloudblog-publish/images/image2_UgNC09y.max-1300x1300.png

Personalized Service Health를 외부 알림, 모니터링 또는 이슈 대응 도구와 통합하는 경우 Service Health API는 특정 프로젝트와 관련된 모든 이슈 또는 조직의 모든 프로젝트에 대한 프로그래매틱 액세스를 제공합니다. API는 관련성 있는 모든 이슈, Google Cloud의 업데이트, 영향 설명의 전체 목록에 대한 프로그래매틱 액세스를 제공합니다.

https://storage.googleapis.com/gweb-cloudblog-publish/images/image3_QwHomcH.max-1000x1000.png

내역과 보고서 만들기 및 과거 중단에서 배우기

서비스 중단이 시작되면 Cloud Logging은 이벤트에 대한 모든 업데이트의 Personalized Service Health 로그를 수집합니다. 이벤트의 내역 기록을 작성하기 위해 스토리지 버킷에 로그를 보존할 수 있습니다. 또한 로그 애널리틱스와 BigQuery를 함께 사용하여 과거 서비스 중단을 분석할 수 있습니다.

통합하여 시간이 갈수록 더욱 커지는 이점 누리기

오늘부터 Personalized Service Health가 Compute Engine, Cloud Storage, 모든 Cloud Networking 제품, BigQuery, Google Kubernetes Engine 등 50여 개의 Google Cloud 제품 및 서비스와 통합됩니다. 통합된 Google Cloud 제품에서 고객에게 영향을 미칠 수 있는 서비스 중단이 감지되면 Personalized Service Health가 영향 평가를 제공하고 증상, 알려진 해결 방법 또는 해결 ETA를 포함한 업데이트를 공유합니다.

일부 제품은 Personalized Service Health를 통해 더 빠른 초기 게시와 결정적인 영향 신호를 포함한 고급 기능을 제공하며, 공개 Google Cloud Service Health 대시보드에는 게시되지 않는 영향력이 작은 이슈를 게시할 수 있습니다. 다음은 통합되는 제품 및 지원되는 기능의 전체 목록입니다. 지원되는 Google Cloud 제품 및 기능은 시간이 지나면서 증가할 전망입니다.

고객 및 파트너의 사례

https://storage.googleapis.com/gweb-cloudblog-publish/images/telus.max-700x700.jpg

"클라우드 공급업체는 서비스 중단을 너무 빨리 알리는 것이 아닌지 염려하며 지나치게 신중한 접근을 보입니다. 모르고 있는 상태에서 워크로드가 다운되는 것보다 선제적으로 워크로드를 이동한 뒤에 문제가 없음을 발견하는 편이 낫다고 생각합니다. Google Cloud가 이 단계를 고객에게 보다 투명하게 공개하는 것에 만족감을 느끼며 앞으로 PSH 활용이 기대됩니다."

저스틴 왓츠, Telus 정보 서비스 및 기술 전략 부문 책임자

https://storage.googleapis.com/gweb-cloudblog-publish/images/pagerduty_6aE4FoG.max-700x700.jpg

“Personalized Service Health가 이슈 대응 전문가에게 보내는 사전 예방적 알림은 모든 기업 고객의 이슈 대응 프로세스에서 중요한 역할을 합니다. PagerDuty와 Google Cloud의 파트너십은 클라우드 서비스 중단에 신속하게 대응하고 원활한 디지털 경험을 제공하는 데 도움이 되는 현대적 운영을 위한 필수적인 플랫폼을 고객에게 제공할 수 있도록 지원합니다."

-조나단 렌드, PagerDuty 제품 부문 SVP

지금 시작하기

안정적인 인프라는 클라우드 워크로드를 위해 필수적이며 Google은 기술, 제품, 프로세스 혁신을 통해 안정성의 기준을 지속적으로 높이고 있습니다. 안정석의 핵심 구성요소는 이슈 대응의 속도와 효율성입니다. 발생 가능성이 낮기는 하지만 만약 클라우드 서비스 이슈가 발생한다면 원활한 커뮤니케이션이 중요합니다. Personalized Service Health는 이슈 대응 커뮤니케이션을 한 단계 더 발전시키는 데 필요한 정보를 제공하므로 현재 일어나고 있는 상황을 신속하게 평가하고 애플리케이션에 대한 영향을 최소화하기 위한 조치를 취하고 이해관계자에게 계속 정보를 제공할 수 있습니다. 시작하려면 프로젝트 또는 조직 전반에서 Personalized Service Health를 사용 설정하세요. 

게시 위치