Stackdriver 투명성 서비스 수준 지표(SLI)

Google Cloud 서비스와 이들이 작업 부하에 미치는 영향을 모니터링합니다.

stackdriver-sre-hero-banner

최신 IT에서 수치가 가지는 중요성

이제 대부분의 IT 운영팀에서는 측정항목 기반의 포괄적인 접근 방식을 기본 목표로 삼았습니다. 많은 회사에서 현재 서비스 가용성 및 성능 측면에서 IT를 측정하고 있지만 클라우드 서비스를 이용하는 IT팀의 경우 외부 클라우드 서비스 제공업체에서 제공하는 서비스에 대한 믿을 수 있는 데이터를 확보하는 것이 어려울 수 있습니다. 문제가 발생했다면 발생 위치를 어떻게 찾을 수 있을까요? 스택으로 직접 찾는 게 나을까요, 아니면 서비스 제공업체를 통해서 찾는 게 나을까요? 투명성 SLI를 사용하면 Google Cloud 서비스와 이들이 작업 부하에 미치는 영향을 모니터링할 수 있으므로 서비스를 전체적으로 파악할 수 있습니다.

measure-all-the-things

모든 요소 측정

IT팀에서 모든 서비스 구성요소의 성능을 파악할 수 있도록 Google이 130개가 넘는 Google Cloud 서비스에 대한 자세한 API 수준의 측정항목을 제공합니다. 이러한 측정항목이 각 Google 서비스에 전송된 애플리케이션 요청의 지연 시간 및 오류 개수를 보여주므로 애플리케이션 및 관련 서비스의 상관관계와 이로 인한 영향을 확인하여 근본 원인 분석과 해결 시간을 단축시킬 수 있습니다.

real-transparency

진정한 투명성

SLI는 기존의 '서비스 상태' 개념 그 이상을 의미합니다. 서비스 간의 구체적인 상호작용을 확인하고 환경 데이터와의 연관성을 찾을 수 있습니다. 이를 통해 서비스 위치, 서비스를 호출하는 앱의 사용자 인증 정보, 버전, 응답 코드 등의 다양한 속성별로 서비스 측정항목을 교차 분석하여 상관관계를 살펴보고 원인과 영향을 확인할 수 있습니다.

투명성 SLI 사용 실습

  • 서비스에 대한 모든 호출이 사용자 1명에게만 실패하고 다른 사용자는 문제가 없다면 이 계정에 문제가 있을 가능성이 높으므로 직접 손쉽게 해결할 수 있습니다.
  • 앱의 문제를 해결하는 중이며 애플리케이션의 성능 저하와 중요한 GCP 서비스의 지연 시간 증가의 상관관계를 찾았다면 Google에 문의하여 지원을 받아야 한다는 의미입니다.
  • GCP 서비스 보고서의 지연 시간이 양호하고 이전과 다르지 않다고 나오지만 인앱 측정항목 보고서에는 서비스 호출에 대한 지연 시간이 비정상적으로 높다고 나온다면 네트워크에 문제가 있을 수 있다는 의미입니다. 이때는 네트워크 제공업체(일부 경우 Google)에게 연락하여 디버깅 프로세스를 시작하세요.

투명성을 위한 Google의 노력

Google Cloud는 서비스에 대한 자세한 성능 정보를 공유하기 위해 최선을 다하고 있습니다. 이 정보는 Google SRE에서 서비스를 유지하고 실행하기 위해 사용하는 데이터와 유사합니다. 공유된 데이터를 사용하여 성능을 손쉽게 모니터링할 수 있으므로 서비스 티켓을 제출하여 Google의 지원을 받을 때 양측에서 동일한 정보를 활용할 수 있습니다. 투명성 SLI는 기술 지원 환경을 개선하고 클라우드 컴퓨팅에 대한 신뢰도를 높입니다.

Google Cloud

시작하기

투명성 서비스 측정항목을 수집하고 살펴보려면 Stackdriver 측정항목 탐색기로 이동하여 리소스 유형으로 '사용된 API'를 선택하세요. 애플리케이션에서 사용하는 제품과 서비스를 바탕으로 차트를 작성할 수 있는 측정항목 목록이 표시됩니다. 그런 다음 환경에 가장 적합한 측정항목을 선택할 수 있습니다. 모니터링할 서비스, 메소드, 위치, 사용자 인증 정보, 오류 코드를 지정하여 표시할 데이터의 범위를 좁히세요.

앱에서 가장 중요한 측정항목을 결정하면 문제의 일반적인 원인을 분류하는 데 필요한 항목을 한곳에서 볼 수 있도록 Google 데이터로 주요 지표의 차트를 작성하는 커스텀 대시보드를 만들어야 합니다. 마지막으로 Google 서비스가 트래픽에서 어떻게 작동하는지, 앱의 허용 범위가 어느 정도인지 장기간에 걸쳐 적합한 기준을 확보했다면 장기적인 동작에 편차가 있을 경우에 알려주는 알림을 설정하는 것이 좋습니다.

시작하기