알림 개요

알림을 통해 오프라인 배포의 상태와 성능에 관한 최신 정보를 확인할 수 있습니다. 특정 조건이 충족되면 적시에 알림을 제공하여 다음 작업을 할 수 있습니다.

  • 문제를 사전 대응: 사용자 또는 비즈니스 운영에 영향을 주기 전에 문제를 감지하고 대응합니다.
  • 다운타임 감소: 신속하게 시정 조치를 취하여 서비스 중단을 최소화합니다.
  • 서비스 수준 유지: 애플리케이션이 성능 및 가용성 목표를 충족하는지 확인합니다.
  • 운영 통계 획득: 환경의 추세와 패턴을 파악하여 리소스 사용률과 성능을 최적화합니다.

이 페이지에서는 Google Distributed Cloud (GDC) 오프라인 환경에서 알림을 만들고 관리하는 방법을 간략히 설명합니다. 모니터링 데이터를 사용하여 애플리케이션 및 인프라 내에서 중요한 이벤트를 사전 대응하는 방법을 설명합니다.

알림 정책 유형

측정항목 기반 알림 정책은 모니터링 데이터를 추적하고 리소스가 사전 설정된 조건을 충족하면 특정 사용자에게 알림을 보냅니다. 예를 들어 가상 머신의 CPU 사용률을 모니터링하는 알림 정책은 이벤트가 정책을 활성화할 때 알림을 보낼 수 있습니다. 또는 업타임 체크를 모니터링하는 정책은 긴급 대기팀 및 개발팀에 알릴 수 있습니다.

반면에 시간에 따라 로그에서 반복되는 이벤트를 모니터링하려면 로그 기반 측정항목을 사용하여 알림 정책을 만드세요. 로그 기반 측정항목은 로깅 데이터에서 숫자 데이터를 생성합니다. 로그 기반 측정항목은 다음을 수행하려는 경우에 적합합니다.

  • 로그에서 경고 또는 오류와 같은 메시지 발생 횟수를 셉니다. 이벤트 수가 기준점을 초과하면 알림을 받습니다.
  • 로그의 지연 시간 값 등의 데이터 추세를 관찰합니다. 값이 허용되지 않는 범위로 변경되면 알림을 받습니다.
  • 로그에서 추출한 숫자 데이터를 표시하는 차트 만들기

GDC에서 알림은 심각한 오류에 대한 페이지와 티켓을 생성할 수 있습니다. 페이지는 운영자의 즉각적인 주의가 필요한 반면 티켓은 긴급성이 낮습니다.

주요 구성요소

GDC 알림 서비스는 다음 구성요소를 사용합니다.

  • Prometheus: 측정항목을 수집하고 저장하는 데 널리 사용되는 오픈소스 모니터링 시스템입니다. 알림 규칙을 정의하기 위한 강력한 쿼리 언어 (PromQL)를 제공합니다.
  • 모니터링 플랫폼: Prometheus를 비롯한 다양한 소스에서 측정항목을 수집하는 관리형 모니터링 서비스입니다. Grafana 대시보드, 맞춤 측정항목, 알림과 같은 고급 기능을 제공합니다.
  • Alertmanager: 알림을 수신, 처리, 라우팅하는 구성요소입니다. 알림을 그룹화하고, 무음으로 설정하고, 억제하여 소음을 줄이고 효율성을 개선할 수 있습니다.

알림 워크플로

GDC는 다양한 모니터링 도구 및 서비스와 통합되는 알림 프레임워크를 제공합니다. 일반적인 워크플로에는 다음 단계가 포함됩니다.

  1. 데이터 수집: Prometheus, Fluent Bit과 같은 도구를 사용하여 애플리케이션, 인프라, Kubernetes에서 측정항목과 로그를 수집합니다.
  2. 모니터링: 수집된 데이터를 Grafana 대시보드에 저장하고 시각화합니다.
  3. 알림 규칙: CPU 사용량이 기준점을 초과하거나 애플리케이션 오류가 특정 비율을 초과하는 등 특정 조건을 기반으로 알림 규칙을 정의합니다.
  4. Alertmanager: Alertmanager는 정의된 규칙에 의해 트리거된 알림을 수신하고 알림 라우팅 및 무음 모드를 처리합니다.
  5. 알림: 이메일, 메시지, 웹훅 등 다양한 채널을 통해 알림을 받습니다.

권장사항

알림을 설정할 때는 다음 권장사항을 고려하세요.

  • 명확하고 실행 가능한 알림 정의: 알림에서 문제에 관한 구체적인 정보를 제공하고 적절한 조치를 제안해야 합니다.
  • 적절한 심각도 수준 설정: 영향 및 긴급성에 따라 알림을 분류하여 대응 노력의 우선순위를 정합니다.
  • 알림 피로 방지: 알림 규칙을 미세 조정하여 거짓양성과 불필요한 알림을 최소화합니다.
  • 정기적으로 알림 테스트: 알림이 올바르게 트리거되고 알림이 예상대로 전송되는지 확인합니다.
  • 알림 전략 문서화: 알림 규칙, 알림 채널, 에스컬레이션 절차를 문서화합니다.