서비스 수준 목표(SLO)에 대한 알림 정책을 만들어 SLO를 위반할 위험이 있는지 알려줄 수 있습니다. 모니터링할 SLO를 선택한 다음 알림 정책을 구성하여 해당 SLO를 모니터링합니다. 일반적으로 조건은 위반을 구성하는 임곗값과 위반이 허용되는 기간을 선택하여 표현합니다. 임곗값이 허용된 기간을 초과하면 알림 정책이 트리거됩니다.
이 페이지에서는 오류 예산의 소진율에 대해 설명합니다. 알림 정책에 대해서는 자세히 다루지 않습니다. 즉, 여기서는 조건 및 알림 채널의 기본 개념에 이미 익숙하다고 가정합니다.
알림 정책 및 알림 정책을 만드는 방법에 대한 일반적인 내용은 알림 정책 사용을 참조하세요.
SLO 기반 알림 정책 만들기에 대한 자세한 단계는 다음을 참조하세요.
오류 예산의 소진율
규정 준수 기간의 오류 예산은 (1 - SLO 목표) × (규정 준수 기간의 대상 이벤트)입니다. SLO 목표가 95%이면 SLO 목표를 놓치기 전에 SLI에서 측정한 이벤트 중 5%는 실패해도 괜찮습니다.
소진율은 규정 준수 기간 동안 오류 예산을 얼마나 빠르게 사용하고 있는지 알려줍니다. 소진율은 요건을 충족하는 이벤트 수 및 규정 준수 기간에 수신된 오류 이벤트 수에 따라 달라집니다. 예를 들어 발생하는 오류 이벤트가 없으면 오류 예산이 소비되지 않고 소진율이 0입니다. 모든 요청이 실패한다고 가정하여 서비스의 최대 다운타임을 계산하는 방법을 보여주는 예시는 SLO 소진율을 참조하세요.
1보다 큰 소진율은 측정된 오류율이 향후 규정 준수 기간 동안 지속되는 경우 해당 서비스가 이 기간 동안 SLO에서 제외된다는 것을 나타내도록 소진율 측정항목이 정규화됩니다. 자세한 내용은 오류 예산을 참조하세요.
소진율 측정항목은 시계열 선택기 select_slo_burn_rate
로 검색합니다. 소진율 알림 정책은 알림의 규정 준수 기간 동안 측정하며 사용자가 정의한 임곗값보다 오류 예산이 빠르게 소진될 때 알려줍니다. 다른 시계열 선택기도 있으며 자세한 내용은 SLO 데이터 가져오기를 참조하세요.
이러한 다른 시계열 선택기를 사용하는 알림 정책을 만들 수 있지만 Cloud Monitoring API를 사용하여 만들어야 합니다.
SLO에서 알림 정책 만들기 개요
SLO에 대한 알림 정책 만들기는 측정항목 알림 정책 만들기와 유사합니다. 이 섹션에서는 알림 정책을 만드는 일반적인 단계를 검토합니다.
SLO에 대한 알림 정책을 만들려면 다음 단계를 수행하세요.
알림 정책의 기반이 되는 SLO를 식별합니다.
선택한 SLO를 사용하는 알림 정책의 조건을 구성합니다. 조건에서는 SLO 데이터 검색에 사용할 시계열 선택기를 지정합니다. 또한 SLO가 규정 준수를 위반하게 되는 시점을 결정하는 기간, 임곗값, 비교를 지정합니다.
예를 들어 소진율에 시계열 선택기를 사용하는 경우 검색된 데이터에는 선택한 SLO의 오류 예산 소진율이 반영됩니다.
또한 조건에서 경고를 트리거하기 전에 SLO 위반의 임곗값과 기간을 지정합니다. 예를 들어 알림을 트리거하기 전에 소진율이 일정 기간 동안 원하는 속도를 약간 상회해야 합니다. '약간 상회'의 값은 조건의 임곗값이고 '일정 기간'의 값은 조건의 기간입니다.
알림 정책에 사용할 알림 채널을 식별하거나 만듭니다.
사용자에게 알림 정책을 트리거한 내용을 설명하는 문서를 제공합니다.
알림 정책 및 알림 정책을 만드는 방법에 대한 일반적인 내용은 알림 정책 사용을 참조하세요.
알림 정책 및 전환 확인 기간
알림 정책의 SLO 데이터를 검색할 때 SLO 및 전환 확인 기간의 식별자를 지정합니다. 전환 확인 기간에 따라 데이터를 가져올 기간이 결정됩니다. 중요한 것은 전환 확인 기간은 SLO 성능 및 오류 예산을 계산하기 위한 규정 준수 기간으로도 사용됩니다.
현재는 규정 준수 기간이 24시간을 초과하는 SLO의 오류 예산 소비율을 기준으로 알림을 생성할 수 없습니다. 대부분의 경우 장기(예: 28일 또는 30일) 규정 준수 기간을 24시간 미만으로 유지하면 중단을 감지하고 단기 운영 응답을 유도하는 데 충분합니다.
규정 준수 기간이 짧으면 문제를 더 빠르게 감지할 수 있지만 하루 동안 트래픽과 오류율이 크게 변경되면 트래픽이 적을 때 과도하게 알림을 받을 수 있습니다. 이 시간 동안 알림 민감도를 줄이려면 1보다 훨씬 큰 소진율 임곗값을 사용하는 것이 좋습니다.
오류 예산 알림의 유형
오류 예산을 모니터링하도록 알림 정책을 설정할 때 다음 두 가지 관련 알림 정책을 설정하는 것이 좋습니다.
빠른 소진 알림: 급격한 소비 변화를 시정하지 않으면 오류 예산이 빠르게 소진된다는 경고입니다. '지금 이 속도라면 한 달의 오류 예산을 2일 만에 소진할 것입니다!.'
빠른 소진 알림의 경우 더 짧은 전환 확인 기간을 사용하여 짧게라도 잠재적인 심각한 상황이 발생하고 지속되었는지 가능한 빨리 알림을 받습니다. 정말 심각한 상황이라면 빨리 알림을 받아야 할 것입니다.
여기에서 알리는 소비율의 임곗값은 전환 확인 기간에 적합한 기준보다 훨씬 높습니다.
느린 소진 알림: 소비 속도를 바꾸지 않으면 규정 준수 기간이 끝나기 전에 오류 예산이 소진될 것이라는 경고입니다. 이러한 유형의 조건은 빠른 소진 조건보다 덜 긴급합니다. '현재 이달에 도달하고 싶은 위치를 약간 초과하지만 아직 큰 문제가 아닙니다.'
느린 소진 알림에서는 더 긴 전환 확인 기간을 사용하여 단기 소비의 변동을 완화합니다.
느린 소진 알림에서 알리는 임곗값은 전환 확인 기간의 이상적인 성능보다 높지만 훨씬 더 높지는 않습니다. 높은 임곗값을 가진 짧은 전환 확인 기간을 기반으로 하는 정책은 장기 소비가 균등하더라도 알림을 너무 많이 생성할 수 있습니다. 하지만 약간 높은 상태의 소비량이 장기간 이어지면 결국 모든 오류 예산을 소비하게 됩니다.
다음 단계
- Google Cloud 콘솔을 사용하여 SLO 기반 알림 정책을 만들려면 알림 정책 만들기(Google Cloud 콘솔)를 참조하세요.
- Monitoring API를 사용하여 SLO 기반 알림 정책을 만들려면 알림 정책(API) 만들기를 참조하세요.