Google Cloud 아키텍처 프레임워크의 이 문서에서는 안정적인 서비스를 실행하는 데 도움이 되는 알림을 만들기 위한 운영 원칙을 제공합니다. 서비스 작동 방식에 대한 정보가 많을수록 문제가 있을 때 정보에 입각한 결정을 내릴 수 있습니다. 사용자에게 영향을 미치는 모든 시스템 문제를 조기에 정확하게 감지할 수 있도록 알림을 설계하고 거짓양성을 최소화합니다.
알림 지연 최적화
운영팀이 업무 부담을 느낄 정도로 너무 빨리 전송되는 알림과 서비스 중단 기간이 길어질 만큼 너무 늦은 알림 사이의 균형을 찾아야 합니다. 모니터링 시스템에서 사용자에게 문제를 알리기 전에 알림 지연을 조정하여 신호 대 잡음 비율을 최대화하는 동시에 감지 시간을 최소화합니다. 오류 예산 소비율을 기준으로 최적의 알림 구성을 생성합니다.
원인이 아닌 증상에 대한 알림
사용자 환경에 미치는 직접적인 영향을 기준으로 알림을 트리거합니다. 전역 또는 고객별 SLO를 준수하지 않으면 직접적인 영향이 있음을 나타냅니다. 특히 영향이 단일 복제본으로 제한되는 경우 가능한 모든 근본 원인에 대해 알림을 보내지 마세요. 잘 설계된 분산 시스템은 단일 복제본 장애로부터 원활하게 복구됩니다.
평균이 아닌 이상점 값에 대한 알림
지연 시간을 모니터링할 때 SLO를 정의하고 평균 또는 50번째 백분위수 지연 시간이 아닌 90번째, 95번째 또는 99번째 백분위수 지연 시간(3개 중 2개 선택)에 대한 알림을 설정합니다. 양호한 평균 또는 중앙값 지연 시간 값은 매우 부정적인 사용자 경험을 초래할 수 있는 90번째 백분위수 또는 그 이상의 허용할 수 없는 높은 값을 숨길 수 있습니다. 따라서 웹 서버와의 요청-응답 상호작용, 데이터 처리 파이프라인의 일괄 완료, 스토리지 서비스의 읽기 또는 쓰기 작업과 같은 중요한 작업의 지연 시간을 모니터링할 때 이상점 값에 알림 원칙을 적용해야 합니다.