Creazione di criteri di avviso

Questa pagina mostra come creare criteri di avviso per i cluster Anthos su cluster Bare Metal.

Prima di iniziare

Devi disporre delle seguenti autorizzazioni per creare i criteri di avviso:

monitoring.alertPolicies.create
monitoring.alertPolicies.delete
monitoring.alertPolicies.update

Disponi di queste autorizzazioni se hai uno dei seguenti ruoli:

monitoring.alertPolicyEditor
monitoring.editor
Editor progetto
Proprietario progetto

Per verificare i ruoli, vai alla pagina IAM nella console Google Cloud.

Creazione di un criterio: Anthos sul server API del cluster Bare Metal non disponibile

In questo esercizio creerai un criterio di avviso per i server API dei cluster Kubernetes. Dopo aver impostato questo criterio, puoi decidere di ricevere una notifica ogni volta che il server API di un cluster non è disponibile.

Scarica il file di configurazione dei criteri: apiserver-unavailable.json
Crea il criterio:
```
gcloud alpha monitoring policies create --policy-from-file=POLICY_CONFIG
```
Sostituisci POLICY_CONFIG con il percorso del file di configurazione appena scaricato.

Visualizza i criteri di avviso:

Console

Nella console Google Cloud, vai alla pagina Monitoring.

Vai a Monitoring
A sinistra, seleziona Avvisi.
In Criteri puoi vedere un elenco dei tuoi criteri di avviso.

Seleziona Anthos sul server API Baremetal cluster non disponibile (importante) per visualizzare i dettagli del nuovo criterio. In Condizioni, puoi visualizzare una descrizione del criterio. Ad esempio:
```
Policy violates when ANY condition is met
Anthos on baremetal cluster API server uptime is absent
Anthos on baremetal cluster API server uptime is less than 99.99% per minute
```

gcloud

gcloud alpha monitoring policies list

L'output mostra informazioni dettagliate sul criterio. Ad esempio:

combiner: OR
conditions:
- conditionAbsent:
    aggregations:
    - alignmentPeriod: 60s
      crossSeriesReducer: REDUCE_MEAN
      groupByFields:
      - resource.label.project_id
      - resource.label.location
      - resource.label.cluster_name
      - resource.label.namespace_name
      - resource.label.container_name
      - resource.label.pod_name
      perSeriesAligner: ALIGN_MAX
    duration: 300s
    filter: resource.type = "k8s_container" AND resource.labels.namespace_name = "kube-system"
      AND metric.type = "kubernetes.io/anthos/container/uptime" AND resource.label."container_name"=monitoring.regex.full_match("kube-apiserver")
    trigger:
      count: 1
  displayName: Anthos on baremetal cluster API server uptime is absent
  name: projects/…/alertPolicies/12404845535868002666/conditions/12404845535868003603
- conditionThreshold:
    aggregations:
    - alignmentPeriod: 120s
      crossSeriesReducer: REDUCE_MEAN
      groupByFields:
      - resource.label.project_id
      - resource.label.location
      - resource.label.cluster_name
      - resource.label.namespace_name
      - resource.label.container_name
      - resource.label.pod_name
      perSeriesAligner: ALIGN_MAX
    comparison: COMPARISON_LT
    duration: 300s
    filter: resource.type = "k8s_container" AND resource.labels.namespace_name = "kube-system"
      AND metric.type = "kubernetes.io/anthos/container/uptime" AND resource.label."container_name"=monitoring.regex.full_match("kube-apiserver")
    thresholdValue: 119.0
    trigger:
      count: 1
  displayName: Anthos on baremetal cluster API server uptime is less than 99.99% per
    minute
  name: projects/…/alertPolicies/12404845535868002666/conditions/12404845535868004540
creationRecord:
  mutateTime: …
  mutatedBy: …
displayName: Anthos on baremetal cluster API server unavailable (critical)
enabled: true
mutationRecord:
  mutateTime: …
  mutatedBy: …
name: projects/…/alertPolicies/12404845535868002666

Creazione di criteri di avviso aggiuntivi

Questa sezione fornisce descrizioni e file di configurazione per un insieme di criteri di avviso consigliati.

Per creare un criterio, segui gli stessi passaggi utilizzati nell'esercizio precedente:

Per scaricare il file di configurazione, fai clic sul link nella colonna destra.
Per creare il criterio, esegui gcloud alpha monitoring policies create.

Puoi scaricare e installare tutti gli esempi di criteri di avviso descritti in questo documento con il seguente script:

# 1. Create a directory named alert_samples:

mkdir alert_samples && cd alert_samples
declare -a alerts=("apiserver-unavailable.json" "scheduler-unavailable.json" "controller-manager-unavailable.json" "pod-crash-looping.json" "container-memory-usage-high-reaching-limit.json"
"container-cpu-usage-high-reaching-limit.json" "pod-not-ready-1h.json" "persistent-volume-usage-high.json" "node-not-ready-1h.json" "node-cpu-usage-high.json" "node-memory-usage-high.json"
"node-disk-usage-high.json" "api-server-error-ratio-10-percent.json" "api-server-error-ratio-5-percent.json" "etcd-leader-changes-too-frequent.json" "etcd-proposals-failed-too-frequent.json"
"etcd-server-not-in-quorum.json" "etcd-storage-usage-high.json")

# 2. Download all alert samples into the alert_samples/ directory:

for x in "${alerts[@]}"
do
  wget https://cloud.google.com/anthos/clusters/docs/bare-metal/1.13/samples/${x}
done

# 3. (optional) Uncomment and provide your project ID to set the default project
# for gcloud commands:

# gcloud config set project <PROJECT_ID>

# 4. Create alert policies for each of the downloaded samples:

for x in "${alerts[@]}"
do
  gcloud alpha monitoring policies create --policy-from-file=${x}
done

Disponibilità dei componenti del piano di controllo

Nome avviso	Descrizione	Definizione dei criteri di avviso in Cloud Monitoring
Il server Anthos su cluster dell'API Bare Metal non è disponibile	Il server API non è attivo o il tempo di attività è inferiore al 99,99% al minuto	apiserver-unavailable.json
Lo scheduler del cluster Anthos su Bare Metal non è disponibile (importante)	Lo scheduler non è attivo o il tempo di attività è inferiore al 99,99% al minuto	scheduler-unavailable.json
Anthos su gestore controller Bare Metal non disponibile (importante)	Il gestore del controller è scomparso dal rilevamento delle metriche di destinazione	controller-manager-unavailable.json

Sistema Kubernetes

Nome avviso	Descrizione	Definizione dei criteri di avviso in Cloud Monitoring
Anthos sul loop di arresti anomali di pod Bare Metal	Il pod è stato riavviato e potrebbe essere in stato di arresto anomalo	pod-crash-looping.json
L'utilizzo della memoria di Anthos su Baremetal Container supera l'85% (avviso)	L'utilizzo della memoria del container supera l'85% del limite	container-memory-usage-high-reaching-limit.json
L'utilizzo della CPU di Anthos su Baremetal supera l'80% (avviso)	L'utilizzo della CPU del container supera l'80% del limite	container-cpu-usage-high-reaching-limit.json
Anthos su pod Bare Metal non pronto per più di un'ora (criterio)	Il pod è in stato non pronto per più di un'ora	pod-non-pronta-1h.json
Anthos su volume permanente con volume permanente (utilizzo critico)	È previsto che il volume permanente rivendicato si esaurisca	persistent-volume-usage-high.json
Anthos su nodo Bare Metal non pronto per più di un'ora (critico)	Il nodo è in stato non pronto da più di un'ora	nodo-non-pronto-1h.json
L'utilizzo della CPU dei nodi Anthos su Bare Metal supera l'80% (valore critico)	L'utilizzo della CPU del nodo è superiore all'80%	node-cpu-usage-high.json
L'utilizzo della memoria dei nodi Anthos su Bare Metal supera l'80% (valore critico)	L'utilizzo della memoria del nodo è superiore all'80%	node-memory-usage-high.json
L'utilizzo di disco su Anthos Baremetal supera l'80% (valore critico)	L'utilizzo del disco del nodo è superiore all'80%	node-disk-usage-high.json

Prestazioni Kubernetes

Nome avviso	Descrizione	Definizione dei criteri di avviso in Cloud Monitoring
Il rapporto del numero di errori del server API Anthos su Bare Metal supera il 10% (valore critico)	Il server API restituisce errori per oltre il 10% delle richieste	api-server-error-ratio-10-percent.json
Il rapporto del numero di errori del server API Anthos su Bare Metal supera il 5% (avviso)	Il server API restituisce errori per oltre il 5% delle richieste	api-server-error-ratio-5-percent.json
Le modifiche ad Anthos su leader Bare Metal e troppo frequenti (importanti)	Il leader `etcd` cambia troppo spesso	etcd-leader-modifiche-troppo-frequenti.json
Anthos sulle proposte bardet e così via non è andato a buon fine (frequente)	Le proposte `etcd` non vengono pubblicate spesso	e
Anthos su server etcd Baremetal non è in quorum (importante)	Il server `etcd` non è in quorum	server-etcd-non-in-quorum.json
Anthos su spazio di archiviazione Bare Metal e così via supera il limite del 90% (valore critico)	L'utilizzo dello spazio di archiviazione di `etcd` supera il 90% del limite	etcd-storage-usage-high.json

Ricevere notifiche

Dopo aver creato un criterio di avviso, puoi definire uno o più canali di notifica per il criterio. Esistono diversi tipi di canali di notifica. Ad esempio, puoi ricevere una notifica via email, su un canale Slack o su un'app per dispositivi mobili. Puoi scegliere i canali più adatti alle tue esigenze.

Per istruzioni su come configurare i canali di notifica, consulta Gestire i canali di notifica.