Se usó la API de Cloud Translation para traducir esta página.

Crea políticas de alertas

En esta página, se muestra cómo crear políticas de alertas basadas en métricas para los clústeres de Google Distributed Cloud. Proporcionamos varios ejemplos descargables que te ayudarán a configurar políticas de alertas para situaciones comunes. Para obtener más información sobre las políticas de alertas basadas en métricas, consulta Crea políticas de alertas de umbral de métricas en la documentación de Google Cloud Observability.

Antes de comenzar

Debes contar con los siguientes permisos para crear políticas de alertas:

monitoring.alertPolicies.create
monitoring.alertPolicies.delete
monitoring.alertPolicies.update

Tienes estos permisos si tienes alguna de las siguientes funciones:

monitoring.alertPolicyEditor
monitoring.editor
Editor de proyecto
Propietario del proyecto

Si deseas crear políticas de alertas basadas en registros mediante Google Cloud CLI, también debes tener la función serviceusage.serviceUsageConsumer. Si quieres obtener instrucciones para configurar políticas de alertas basadas en registros, consulta Configura alertas basadas en registros en la documentación de Google Cloud Observability.

Para verificar tus funciones, ve a la página de IAM en la consola de Google Cloud.

Crea una política de ejemplo: El servidor de la API no está disponible

En este ejercicio, crearás una política de alertas para los servidores de la API de Kubernetes de los clústeres de administrador. Con esta política implementada, puedes configurarla para recibir notificaciones siempre que el servidor de API de un clúster no esté disponible.

Descarga el archivo de configuración de la política: apiserver-unavailable.json.
Crea la política:
```
gcloud alpha monitoring policies create --policy-from-file=POLICY_CONFIG
```
Reemplaza POLICY_CONFIG por la ruta de acceso del archivo de configuración que acabas de descargar.

Visualiza tus políticas de alertas:

Console

En la consola de Google Cloud, ve a la página Supervisión.

Ir a Monitoring
A la izquierda, selecciona Alertas.
En Políticas, puedes ver una lista de tus políticas de alertas.

En la lista, selecciona Servidor de la API del clúster de Anthos no disponible (crítico) para ver los detalles de la política nueva. En Condiciones, puedes ver una descripción de la política. Por ejemplo:
```
Policy violates when ANY condition is met
Anthos cluster API server uptime is absent for 5m
```

gcloud

gcloud alpha monitoring policies list

El resultado muestra información detallada sobre la política. Por ejemplo:

combiner: OR
conditions:
- conditionAbsent:
    aggregations:
    - alignmentPeriod: 60s
      crossSeriesReducer: REDUCE_MEAN
      groupByFields:
      - resource.label.project_id
      - resource.label.location
      - resource.label.cluster_name
      - resource.label.namespace_name
      - resource.label.container_name
      - resource.label.pod_name
      perSeriesAligner: ALIGN_MAX
    duration: 300s
    filter: resource.type = "k8s_container" AND metric.type = "kubernetes.io/anthos/container/uptime"
      AND resource.label."container_name"=monitoring.regex.full_match("kube-apiserver")
    trigger:
      count: 1
  displayName: Anthos cluster API server uptime is absent for 5m
  name: projects/…/alertPolicies/…/conditions/…
displayName: Anthos cluster API server unavailable (critical)
enabled: true
mutationRecord:
  mutateTime: …
  mutatedBy: …
name: projects/…/alertPolicies/…

Crea políticas de alertas adicionales

En esta sección, se proporcionan descripciones y archivos de configuración para un conjunto de políticas de alertas recomendadas.

Para crear una política, sigue los mismos pasos que usaste en el ejercicio anterior:

Para descargar el archivo de configuración, haz clic en el vínculo en la columna de la derecha.
De manera opcional, ajusta las condiciones para que se ajusten mejor a tus necesidades específicas. Por ejemplo, puedes agregar filtros adicionales para un subconjunto de clústeres o ajustar los valores de los umbrales a fin de equilibrar el ruido y la importancia.
Para crear la política, ejecuta gcloud alpha monitoring policies create.

Puedes descargar y, luego, instalar todas las muestras de políticas de alertas que se describen en este documento con la siguiente secuencia de comandos:

# 1. Create a directory named alert_samples:

mkdir alert_samples && cd alert_samples
declare -a alerts=("apiserver-unavailable.json" "controller-manager-unavailable.json" "scheduler-unavailable.json" \
  "pod-crash-looping.json" "pod-not-ready-1h.json" "container-cpu-usage-high-reaching-limit.json" \
  "container-memory-usage-high-reaching-limit.json" "persistent-volume-usage-high.json" "node-cpu-usage-high.json" \
  "node-disk-usage-high.json" "node-memory-usage-high.json" "node-not-ready-1h.json" "apiserver-error-ratio-high.json" \
  "etcd-leader-changes-or-proposal-failures-frequent.json" "etcd-server-not-in-quorum.yaml" "etcd-storage-usage-high.json")

# 2. Download all alert samples into the alert_samples/ directory:

for x in "${alerts[@]}"
do
  wget https://cloud.google.com/anthos/clusters/docs/bare-metal/latest/samples/${x}
done

# 3. (optional) Uncomment and provide your project ID to set the default project
# for gcloud commands:

# gcloud config set project <PROJECT_ID>

# 4. Create alert policies for each of the downloaded samples:

for x in "${alerts[@]}"
do
  gcloud alpha monitoring policies create --policy-from-file=${x}
done

Disponibilidad de los componentes del plano de control

Nombre de la alerta	Descripción	Definición de la política de alertas en Cloud Monitoring
El servidor de la API no está disponible (fundamental)	La métrica de tiempo de actividad del servidor de la API no está disponible	apiserver-unavailable.json
Programador no disponible (fundamental)	La métrica de tiempo de actividad del programador no está disponible	scheduler-unavailable.json
El administrador del controlador no está disponible (fundamental)	La métrica de tiempo de actividad del administrador del controlador no está disponible	controller-manager-unavailable.json

Sistema de Kubernetes

Nombre de la alerta	Descripción	Definición de la política de alertas en Cloud Monitoring
Repetición de la falla del Pod (advertencia)	El Pod se sigue reiniciando y puede estar en un estado de bucle de falla	pod-crash-looping.json
El Pod no está listo durante más de una hora (fundamental)	El pod ha pasado más de una hora en estado no listo	pod-not-ready-1h.json
El uso de la CPU del contenedor supera el 80% (advertencia)	El uso de CPU de los contenedores supera el 80% del límite	container-cpu-usage-high-reaching-limit.json
El uso de memoria del contenedor supera el 85% (advertencia)	El uso de memoria de los contenedores supera el 85% del límite	container-memory-usage-high-reaching-limit.json
Uso elevado de volumen persistente (crítico)	El volumen persistente reclamado tiene menos del 3% de espacio libre	persistent-volume-usage-high.json
El uso de la CPU del nodo supera el 80% (advertencia)	El uso de la CPU del nodo supera el 80% del total asignable para 5 m	node-cpu-usage-high.json
El uso del disco del nodo supera el 85% (advertencia)	Menos del 15% está libre por punto de activación de disco durante 10 min	node-disk-usage-high.json
El uso de memoria del nodo supera el 80% (advertencia)	El uso de memoria del nodo supera el 80% del total asignable para 5 min	node-memory-usage-high.json
El nodo no está listo durante más de una hora (fundamental)	El nodo ha pasado más de una hora en estado no listo	node-not-ready-1h.json

Rendimiento de Kubernetes

Nombre de la alerta	Descripción	Definición de la política de alertas en Cloud Monitoring
La proporción de errores del servidor de la API supera el 20% (fundamental)	El servidor de la API genera errores 5xx o 429 en más del 20% de todas las solicitudes por verbo durante 15 m	apiserver-error-ratio-high.json
El cambio del líder de ETCD o el error de la propuesta son demasiado frecuentes (advertencia)	Los cambios de líder `etcd` o los errores de la propuesta ocurren con demasiada frecuencia	etcd-leader-changes-or-proposal-failures-frequent.json
El servidor ETCD no está en quórum (crítico)	No hay propuestas de servidor de `etcd` comprometidas durante 5 min, por lo que podría haber perdido quórum	etcd-server-not-in-quorum.yaml
El almacenamiento de ETCD supera el límite del 90% (advertencia)	El uso de almacenamiento de `etcd` supera el 90% del límite	etcd-storage-usage-high.json

Políticas de alertas con PromQL

Las consultas en las políticas de alertas también se pueden expresar en PromQL en lugar de MQL. Por ejemplo, la versión de PromQL de la política API server error ratio exceeds 20 percent (critical) está disponible para descargar: apiserver-error-ratio-high-promql.json.

Si quieres obtener más información, consulta la documentación de Usa el servicio administrado para Prometheus en Google Distributed Cloud y Políticas de alertas con PromQL en la documentación de Cloud Monitoring.

Recibe notificaciones

Después de crear una política de alertas, puedes definir uno o más canales de notificación para la política. Hay varios tipos de canales de notificación. Por ejemplo, puedes recibir notificaciones por correo electrónico, un canal de Slack o una app para dispositivos móviles. Puedes elegir los canales que se adapten a tus necesidades.

Para obtener instrucciones sobre cómo configurar canales de notificación, consulta Administra canales de notificaciones.