Crea políticas de alertas

En esta página, se muestra cómo crear políticas de alertas para clústeres de Anthos alojados en clústeres de VMware (GKE On-Prem).

Antes de comenzar

Debes contar con los siguientes permisos para crear políticas de alertas:

  • monitoring.alertPolicies.create
  • monitoring.alertPolicies.delete
  • monitoring.alertPolicies.update

Tendrás estos permisos si tienes una de las siguientes funciones:

  • monitoring.alertPolicyEditor
  • monitoring.editor
  • Editor del proyecto
  • Propietario del proyecto

Para verificar tus roles, ve a la página de IAM en la consola de Google Cloud.

Crea una política: Baja del servidor de la API del clúster de administrador

En este ejercicio, crearás una política de alertas para los servidores de la API de Kubernetes de los clústeres de administrador. Con esta política implementada, puedes configurarla para recibir notificaciones siempre que el servidor de API de un clúster de administrador deje de funcionar.

  1. Descarga el archivo de configuración de la política: admin-cluster-apiserver-down.json.

  2. Crea la política:

    gcloud alpha monitoring policies create --policy-from-file=POLICY_CONFIG
    

    Reemplaza POLICY_CONFIG por la ruta de acceso del archivo de configuración que acabas de descargar.

  3. Visualiza tus políticas de alertas:

    Console

    1. En la consola de Google Cloud, ve a la página Supervisión.

      Ir a Monitoring

    2. A la izquierda, selecciona Alertas.

    3. En Políticas, puedes ver una lista de tus políticas de alertas.

      En la lista, selecciona Baja del servidor de API del clúster de administrador de GKE On-Prem (crítico) para ver detalles sobre tu política nueva. En Condiciones, puedes ver una descripción de la política. Por ejemplo:

      Policy violates when ANY condition is met
      Anthos On-Prem Admin Cluster API Server is up
      Violates when: Any kubernetes.io/anthos/up stream is absent for greater
      than 5 minutes
      

    gcloud

    gcloud alpha monitoring policies list

    El resultado muestra información detallada sobre la política. Por ejemplo:

    combiner: OR
    conditions:
    – conditionAbsent:
        aggregations:
        - alignmentPeriod: 60s
          crossSeriesReducer: REDUCE_SUM
          groupByFields:
          - resource.label.project_id
          - resource.label.location
          - resource.label.cluster_name
          perSeriesAligner: ALIGN_MEAN
        duration: 300s
        filter: resource.type="k8s_container" AND metric.type="kubernetes.io/anthos/up"
          AND resource.label."container_name"=monitoring.regex.full_match("kube-apiserver")
        trigger:
          count: 1
      ...
    displayName: GKE on-prem admin cluster API server down (critical)
    enabled: true
    ...
    name: projects/xxxxxx/alertPolicies/12331540576820203183

Crea políticas de alertas adicionales

En esta sección, se proporcionan descripciones y archivos de configuración para un conjunto de políticas de alertas recomendadas.

Para crear una política, sigue los mismos pasos que usaste en el ejercicio anterior:

  1. Haz clic en el vínculo de la columna de la derecha para descargar el archivo de configuración.

  2. Ejecuta gcloud alpha monitoring policies create para crear la política.

Disponibilidad de los componentes del plano de control del clúster de administrador

Nombre de la alerta Descripción Definición de la política de alertas en Cloud Monitoring
Baja del servidor de la API del clúster de administrador de GKE On-Prem (crítico) El servidor de la API del clúster de administrador desapareció del descubrimiento del objetivo de métricas admin-cluster-apiserver-down.json
Baja del programador de clústeres de administrador de GKE On-Prem (crítico) El programador de clústeres de administrador desapareció del descubrimiento de objetivos de las métricas admin-cluster-scheduler-down.json
Baja del administrador del controlador de clúster administrador de GKE On-Prem (crítico) El administrador de controlador del clúster de administrador desapareció del descubrimiento de objetivos de las métricas admin-cluster-controller-manager-down.json
Baja del etcd de clústeres de usuario de GKE On-Prem (crítico) El etcd del clúster de administrador desapareció del descubrimiento de objetivos de las métricas admin-cluster-etcd-down.json

Disponibilidad de componentes del plano de control del clúster de usuario

Las alertas del plano de control del clúster de usuarios se basan en las métricas. Para la mayoría de las métricas de clúster, el campo cluster_name es el nombre del clúster. Sin embargo, para las métricas del plano de control del clúster de usuario, el campo cluster_name es el nombre del clúster de administrador, y el campo namespace_name es el nombre del clúster de usuario.

Puedes ver esto en una captura de pantalla, en Crea un panel de estado del plano de control.

Nombre de la alerta Descripción Definición de la política de alertas en Cloud Monitoring
Baja del servidor de la API del clúster de usuario local de GKE (crítico) El servidor de la API del clúster de usuario desapareció del descubrimiento de objetivos de las métricas user-cluster-apiserver-down.json
Baja del programador de clústeres de usuario de GKE On-Prem (crítico) El programador de clústeres de usuario desapareció del descubrimiento de objetivos de las métricas user-cluster-scheduler-down.json
Baja del administrador del controlador de clúster usuario de GKE On-Prem (crítico) El administrador de controlador del clúster de usuario desapareció del descubrimiento de objetivos de las métricas user-cluster-controller-manager-down.json
Baja del etcd de clústeres de usuario de GKE On-Prem (crítico) El etcd del clúster de usuario desapareció del descubrimiento de objetivos de las métricas user-cluster-etcd-down.json

Sistema de Kubernetes

Nombre de la alerta Descripción Definición de la política de alertas en Cloud Monitoring
Bucle de fallas del pod de GKE On-Prem (crítico) El pod está en estado de bucle de fallas pod-crash-looping.json
El pod de GKE On-Prem ha pasado más de una hora en estado no listo (crítico) El pod ha pasado más de una hora en estado no listo pod-not-ready-1h.json
Uso alto del volumen persistente de GKE On-Prem (crítico) Se espera que el volumen persistente se llene persistent-volume-usage-high.json
El nodo de GKE On-Prem ha pasado más de una hora en estado no listo (crítico) El nodo ha pasado más de una hora en estado no listo node-not-ready-1h.json

Rendimiento de Kubernetes

Nombre de la alerta Descripción Definición de la política de alertas en Cloud Monitoring
La tasa de error de servidor de la API del clúster de administrador de GKE On-Prem supera el 10 % (crítico) El servidor de la API del clúster de administrador muestra errores para más del 10% de las solicitudes admin-cluster-apiserver-error-ratio-10-percent.json
La tasas de error de servidor de la API de clúster de administrador de GKE On-Prem supera el 5% (advertencia) El servidor de la API del clúster de administrador muestra errores para más del 5% de las solicitudes admin-cluster-apiserver-error-ratio-5-percent.json
La tasa de error de servidor de la API del clúster de administrador de GKE On-Prem supera el 10 % (crítico) El servidor de la API del clúster de usuario muestra errores para más del 10% de las solicitudes user-cluster-apiserver-error-ratio-10-percent.json
La tasas de error de servidor de la API de clúster de usuario de GKE On-Prem supera el 5% (advertencia) El servidor de la API del clúster de usuario muestra errores para más del 5% de las solicitudes user-cluster-apiserver-error-ratio-5-percent.json

Recibe notificaciones

Después de crear una política de alertas, puedes definir uno o más canales de notificación para la política. Hay varios tipos de canales de notificación. Por ejemplo, puedes recibir notificaciones por correo electrónico, un canal de Slack o una app para dispositivos móviles. Puedes elegir los canales que se adapten a tus necesidades.

Para obtener instrucciones sobre cómo configurar canales de notificación, consulta Administra canales de notificaciones.