알림 정책 만들기

이 페이지에서는 GKE On-Prem 클러스터에 대해 알림 정책을 만드는 방법을 보여줍니다.

시작하기 전에

알림 정책을 만들려면 다음 권한이 있어야 합니다.

  • monitoring.alertPolicies.create
  • monitoring.alertPolicies.delete
  • monitoring.alertPolicies.update

이러한 권한은 다음 역할 중 하나에 포함됩니다.

  • monitoring.alertPolicyEditor
  • monitoring.editor
  • 프로젝트 편집자
  • 프로젝트 소유자

역할을 확인하려면 Google Cloud Console에서 IAM 페이지로 이동합니다.

정책 만들기: 관리자 클러스터 API 서버 작동 중지

이 연습에서는 관리자 클러스터의 Kubernetes API 서버에 대한 알림 정책을 만듭니다. 이 정책을 사용하면 관리자 클러스터의 API 서버가 작동 중지될 때마다 알림을 받을 수 있습니다.

  1. 정책 구성 파일 admin-cluster-apiserver-down.json을 다운로드합니다.

  2. 정책을 만듭니다.

    gcloud alpha monitoring policies create --policy-from-file=POLICY_CONFIG
    

    POLICY_CONFIG를 바로 전에 다운로드한 구성 파일의 경로로 바꿉니다.

  3. 알림 정책을 확인합니다.

    콘솔

    1. Google Cloud Console에서 Monitoring 페이지로 이동합니다.

      Monitoring으로 이동

    2. 왼쪽에서 알림을 선택합니다.

    3. 정책 아래에서 알림 정책 목록을 볼 수 있습니다.

      목록에서 GKE On-Prem 관리자 클러스터 API 서버 작동 중지(중요)를 선택하여 새 정책에 대한 세부정보를 확인합니다. 조건에서 정책에 대한 설명을 확인할 수 있습니다. 예를 들면 다음과 같습니다.

      Policy violates when ANY condition is met
      Anthos On-Prem Admin Cluster API Server is up
      Violates when: Any kubernetes.io/anthos/up stream is absent for greater
      than 5 minutes
      

    gcloud

    gcloud alpha monitoring policies list

    출력에 정책에 대한 자세한 정보가 표시됩니다. 예를 들면 다음과 같습니다.

    combiner: OR
    conditions:
    – conditionAbsent:
        aggregations:
        - alignmentPeriod: 60s
          crossSeriesReducer: REDUCE_SUM
          groupByFields:
          - resource.label.project_id
          - resource.label.location
          - resource.label.cluster_name
          perSeriesAligner: ALIGN_MEAN
        duration: 300s
        filter: resource.type="k8s_container" AND metric.type="kubernetes.io/anthos/up"
          AND resource.label."container_name"=monitoring.regex.full_match("kube-apiserver")
        trigger:
          count: 1
      ...
    displayName: GKE on-prem admin cluster API server down (critical)
    enabled: true
    ...
    name: projects/xxxxxx/alertPolicies/12331540576820203183

추가 알림 정책 만들기

이 섹션에서는 일련의 권장 알림 정책에 대한 설명과 구성 파일을 제공합니다.

정책을 만들려면 이전 연습에 사용한 것과 동일한 단계를 따릅니다.

  1. 오른쪽 열의 링크를 클릭하여 구성 파일을 다운로드합니다.

  2. gcloud alpha monitoring policies create를 실행하여 정책을 만듭니다.

관리자 클러스터 제어 영역 구성요소 가용성

알림 이름 설명 Cloud Monitoring의 알림 정책 정의
GKE On-Prem 관리자 클러스터 API 서버 작동 중지(중요) 관리자 클러스터 API 서버가 측정항목 대상 검색에서 사라졌습니다. admin-cluster-apiserver-down.json
GKE On-Prem 관리자 클러스터 스케줄러 작동 중지(중요) 관리자 클러스터 스케줄러가 측정항목 대상 검색에서 사라졌습니다. admin-cluster-scheduler-down.json
GKE On-Prem 관리자 클러스터 컨트롤러 관리자 작동 중지(중요) 관리자 클러스터 컨트롤러 관리자가 측정항목 대상 검색에서 사라졌습니다. admin-cluster-controller-manager-down.json
GKE On-Prem 관리자 클러스터 컨트롤러 관리자 작동 중지(중요) 관리자 클러스터 컨트롤러 관리자가 측정항목 대상 검색에서 사라졌습니다. admin-cluster-etcd-down.json

사용자 클러스터 제어 영역 구성요소 가용성

사용자 클러스터 제어 영역 알림은 측정항목을 기반으로 합니다. 대부분의 클러스터 측정항목의 경우 cluster_name 필드는 클러스터 자체의 이름입니다. 하지만 사용자 클러스터 제어 영역 측정항목의 경우 cluster_name 필드는 관리자 클러스터의 이름이고 namespace_name 필드는 사용자 클러스터의 이름입니다.

제어 영역 상태 대시보드 만들기의 스크린샷에서 이를 확인할 수 있습니다.

알림 이름 설명 Cloud Monitoring의 알림 정책 정의
GKE On-Prem 사용자 클러스터 API 서버 작동 중지(중요) 사용자 클러스터 API 서버가 측정항목 대상 검색에서 사라졌습니다. user-cluster-apiserver-down.json
GKE On-Prem 사용자 클러스터 스케줄러 작동 중지(중요) 사용자 클러스터 스케줄러가 측정항목 대상 검색에서 사라졌습니다. user-cluster-scheduler-down.json
GKE On-Prem 사용자 클러스터 컨트롤러 관리자 작동 중지(중요) 사용자 클러스터 컨트롤러 관리자가 측정항목 대상 검색에서 사라졌습니다. user-cluster-controller-manager-down.json
GKE On-Prem 사용자 클러스터 etcd 작동 중지(중요) 사용자 클러스터 etcd가 측정항목 대상 검색에서 사라졌습니다. user-cluster-etcd-down.json

Kubernetes 시스템

알림 이름 설명 Cloud Monitoring의 알림 정책 정의
GKE On-Prem 포드 비정상 종료 루프(중요) 포드가 비정상 종료 루프 상태입니다. pod-crash-looping.json
GKE On-Prem 포드가 1시간 이상 준비되지 않음(중요) 포드가 1시간 이상 준비되지 않은 상태입니다. pod-not-ready-1h.json
GKE On-Prem 영구 볼륨 사용량 높음(중요) 클레임된 영구 볼륨이 높게 채워질 것으로 예상됩니다. persistent-volume-usage-high.json
GKE On-Prem 노드가 1시간 이상 준비되지 않음(중요) 노드가 1시간 이상 준비되지 않은 상태입니다. node-not-ready-1h.json

Kubernetes 성능

알림 이름 설명 Cloud Monitoring의 알림 정책 정의
GKE On-Prem 관리자 클러스터 API 서버 오류 횟수 비율 10% 초과(중요) 관리자 클러스터 API 서버가 요청 중 10% 이상에 대해 오류를 반환하는 중입니다. admin-cluster-apiserver-error-ratio-10-percent.json
GKE On-Prem 관리자 클러스터 API 서버 오류 횟수 비율 5% 초과(경고) 관리자 클러스터 API 서버가 요청 중 5% 이상에 대해 오류를 반환하는 중입니다. admin-cluster-apiserver-error-ratio-5-percent.json
GKE On-Prem 사용자 클러스터 API 서버 오류 횟수 비율 10% 초과(중요) 사용자 클러스터 API 서버가 요청 중 10% 이상에 대해 오류를 반환하는 중입니다. user-cluster-apiserver-error-ratio-10-percent.json
GKE On-Prem 사용자 클러스터 API 서버 오류 횟수 비율 5% 초과(경고) 사용자 클러스터 API 서버가 요청 중 5% 이상에 대해 오류를 반환하는 중입니다. user-cluster-apiserver-error-ratio-5-percent.json

알림 받기

알림 정책을 만든 후 정책에 대해 하나 이상의 알림 채널을 정의할 수 있습니다. 알림 채널에는 여러 종류가 있습니다. 예를 들어 이메일, Slack 채널, 모바일 앱을 통해 알림을 받을 수 있습니다. 자신의 요구에 맞게 채널을 선택할 수 있습니다.

알림 채널을 구성하는 방법은 알림 채널 관리를 참조하세요.