예상 소요 시간: 5일
작동 가능한 구성요소 소유자: OLT
기술 프로필: 배포 엔지니어
버전 1.14부터는 관측 가능성 및 모니터링 스택 대시보드에 대해 배포 완료가 확인됩니다.
ServiceNow 인시던트 대시보드 확인
- 배포와 관련된 신규 또는 해결되지 않은 인시던트가 있는지 확인합니다.
Grafana AlertManager 대시보드 확인
- 활성 상태의 알림을 찾습니다.
새 인시던트 및 알림 분류 새 ServiceNow 인시던트 또는 트리거된 Grafana 알림의 경우 다음 단계를 따르세요.
- 알려진 문제 문서와 문제를 교차 참조합니다.
- 문제가 알려진 문제로 나열되지 않은 경우 엔지니어링팀에 에스컬레이션하여 향후 진행 방향을 평가합니다. 해결을 위해 다음을 완료해야 할 수 있습니다.
- 근본적인 문제를 해결합니다.
- 거짓양성인 경우와 같이 알림을 새로운 알려진 문제로 문서화합니다.
37.1. 시스템 상태 확인
배포 후 시스템 상태의 기본 지표는 ServiceNow (SNOW) 문제 대시보드와 Grafana AlertManager 대시보드 모두에 새롭고 예상치 못한 문제와 알림이 없는 것입니다.
37.1.1. ServiceNow Incidents Dashboard(ServiceNow 인시던트 대시보드)
ServiceNow 대시보드는 시스템에서 자동으로 티켓팅한 중요한 문제에 대한 개요를 제공합니다. 배포 후에는 이 대시보드에 새로운 심각한 사고가 표시되지 않아야 합니다.
목표는 새롭고 문서화되지 않은 인시던트가 트리거되지 않았는지 확인하는 것입니다. 표시되는 모든 문제는 이미 알려진 문제 섹션에 나열되어 있어야 합니다.
37.1.2. Grafana AlertManager 대시보드
AlertManager 대시보드는 활성으로 트리거되는 알림을 표시하여 시스템 상태를 더 즉각적이고 실시간으로 보여줍니다. ServiceNow 인시던트가 생성되기 전에 문제가 여기에 표시되는 경우가 많습니다.
정상적인 시스템에는 새로 발생한 알림이 표시되지 않습니다. 활성 상태인 알림은 알려진 문제 페이지와 비교하여 예상되는 동작인지 확인해야 합니다.
37.1.3. 결과 해석
두 대시보드 모두에 새 문제와 문서화되지 않은 문제가 표시되지 않으면 배포가 성공적이었고 시스템이 안정적이라는 강력한 확인이 됩니다.
알려진 문제 페이지에 나열되지 않은 사고 또는 알림을 발견한 경우 이전에 언급한 체크리스트에 설명된 트리아지 및 에스컬레이션 단계를 진행합니다. 새로운 거짓양성은 엔지니어링팀에 보고하여 적절하게 해결하고 문서화해야 합니다.
37.2. 선별 워크플로 예
새 알림에 조사가 필요한 경우 Grafana AlertManager의 일반적인 트리아지 프로세스에는 다음 단계가 포함됩니다.
우선순위별로 그룹화: 먼저 알림을 그룹화하여 가장 중요한 문제에 집중합니다.

티켓 할당: 소유권과 추적을 위해 알림에 티켓을 할당합니다.

알림 규칙 검토: 트리거된 특정 알림 규칙을 조사하여 조건과 목적을 파악합니다.

트리거 상태 확인: 대시보드에서 트리거 경고의 세부정보와 상태를 검사합니다.

알림 확인: 마지막으로 에스컬레이션 절차를 진행하기 전에 알림이 활성 상태로 트리거되고 유효한 문제를 나타내는지 확인합니다.
