Versione 1.11. Questa versione non è più supportata. Per ulteriori informazioni, consulta le norme relative all'assistenza per le versioni. Per informazioni su come eseguire l'upgrade alla versione 1.12, consulta la pagina relativa all'upgrade di Anthos su Bare Metal nella documentazione della versione 1.12.

Versioni supportate disponibili: 1.14 | 1.13 | 1.12

Creazione di criteri di avviso

Questa pagina mostra come creare criteri di avviso per i cluster Anthos su cluster Bare Metal.

Prima di iniziare

Devi disporre delle seguenti autorizzazioni per creare i criteri di avviso:

monitoring.alertPolicies.create
monitoring.alertPolicies.delete
monitoring.alertPolicies.update

Disponi di queste autorizzazioni se hai uno dei seguenti ruoli:

monitoring.alertPolicyEditor
monitoring.editor
Editor progetto
Proprietario progetto

Per verificare i ruoli, vai alla pagina IAM nella console Google Cloud.

Creazione di un criterio: Anthos sul server API del cluster Bare Metal non disponibile

In questo esercizio creerai un criterio di avviso per i server API dei cluster Kubernetes. Dopo aver impostato questo criterio, puoi decidere di ricevere una notifica ogni volta che il server API di un cluster non è disponibile.

Scarica il file di configurazione dei criteri: apiserver-unavailable.json
Crea il criterio:
```
gcloud alpha monitoring policies create --policy-from-file=POLICY_CONFIG
```
Sostituisci POLICY_CONFIG con il percorso del file di configurazione appena scaricato.

Visualizza i criteri di avviso:

Console

Nella console Google Cloud, vai alla pagina Monitoring.

Vai a Monitoring
A sinistra, seleziona Avvisi.
In Criteri puoi vedere un elenco dei tuoi criteri di avviso.

Seleziona Anthos sul server API Baremetal cluster non disponibile (importante) per visualizzare i dettagli del nuovo criterio. In Condizioni, puoi visualizzare una descrizione del criterio. Ad esempio:
```
Policy violates when ANY condition is met
Anthos on baremetal cluster API server uptime is absent
Anthos on baremetal cluster API server uptime is less than 99.99% per minute
```

gcloud

gcloud alpha monitoring policies list

L'output mostra informazioni dettagliate sul criterio. Ad esempio:

combiner: OR
conditions:
- conditionAbsent:
    aggregations:
    - alignmentPeriod: 60s
      crossSeriesReducer: REDUCE_MEAN
      groupByFields:
      - resource.label.project_id
      - resource.label.location
      - resource.label.cluster_name
      - resource.label.namespace_name
      - resource.label.container_name
      - resource.label.pod_name
      perSeriesAligner: ALIGN_MAX
    duration: 300s
    filter: resource.type = "k8s_container" AND resource.labels.namespace_name = "kube-system"
      AND metric.type = "kubernetes.io/anthos/container/uptime" AND resource.label."container_name"=monitoring.regex.full_match("kube-apiserver")
    trigger:
      count: 1
  displayName: Anthos on baremetal cluster API server uptime is absent
  name: projects/…/alertPolicies/12404845535868002666/conditions/12404845535868003603
- conditionThreshold:
    aggregations:
    - alignmentPeriod: 120s
      crossSeriesReducer: REDUCE_MEAN
      groupByFields:
      - resource.label.project_id
      - resource.label.location
      - resource.label.cluster_name
      - resource.label.namespace_name
      - resource.label.container_name
      - resource.label.pod_name
      perSeriesAligner: ALIGN_MAX
    comparison: COMPARISON_LT
    duration: 300s
    filter: resource.type = "k8s_container" AND resource.labels.namespace_name = "kube-system"
      AND metric.type = "kubernetes.io/anthos/container/uptime" AND resource.label."container_name"=monitoring.regex.full_match("kube-apiserver")
    thresholdValue: 119.0
    trigger:
      count: 1
  displayName: Anthos on baremetal cluster API server uptime is less than 99.99% per
    minute
  name: projects/…/alertPolicies/12404845535868002666/conditions/12404845535868004540
creationRecord:
  mutateTime: …
  mutatedBy: …
displayName: Anthos on baremetal cluster API server unavailable (critical)
enabled: true
mutationRecord:
  mutateTime: …
  mutatedBy: …
name: projects/…/alertPolicies/12404845535868002666

Creazione di criteri di avviso aggiuntivi

Questa sezione fornisce descrizioni e file di configurazione per un insieme di criteri di avviso consigliati.

Per creare un criterio, segui gli stessi passaggi utilizzati nell'esercizio precedente:

Per scaricare il file di configurazione, fai clic sul link nella colonna destra.
Per creare il criterio, esegui gcloud alpha monitoring policies create.

Puoi scaricare e installare tutti gli esempi di criteri di avviso descritti in questo documento con il seguente script:

# 1. Create a directory named alert_samples:

mkdir alert_samples && cd alert_samples
declare -a alerts=("apiserver-unavailable.json" "scheduler-unavailable.json" "controller-manager-unavailable.json" "pod-crash-looping.json" "container-memory-usage-high-reaching-limit.json"
"container-cpu-usage-high-reaching-limit.json" "pod-not-ready-1h.json" "persistent-volume-usage-high.json" "node-not-ready-1h.json" "node-cpu-usage-high.json" "node-memory-usage-high.json"
"node-disk-usage-high.json" "api-server-error-ratio-10-percent.json" "api-server-error-ratio-5-percent.json" "etcd-leader-changes-too-frequent.json" "etcd-proposals-failed-too-frequent.json"
"etcd-server-not-in-quorum.json" "etcd-storage-usage-high.json")

# 2. Download all alert samples into the alert_samples/ directory:

for x in "${alerts[@]}"
do
  wget https://cloud.google.com/anthos/clusters/docs/bare-metal/1.11/samples/${x}
done

# 3. (optional) Uncomment and provide your project ID to set the default project
# for gcloud commands:

# gcloud config set project <PROJECT_ID>

# 4. Create alert policies for each of the downloaded samples:

for x in "${alerts[@]}"
do
  gcloud alpha monitoring policies create --policy-from-file=${x}
done

Disponibilità dei componenti del piano di controllo

Nome avviso	Descrizione	Definizione dei criteri di avviso in Cloud Monitoring
Il server Anthos su cluster dell'API Bare Metal non è disponibile	Il server API non è attivo o il tempo di attività è inferiore al 99,99% al minuto	apiserver-unavailable.json
Lo scheduler del cluster Anthos su Bare Metal non è disponibile (importante)	Lo scheduler non è attivo o il tempo di attività è inferiore al 99,99% al minuto	scheduler-unavailable.json
Anthos su gestore controller Bare Metal non disponibile (importante)	Il gestore del controller è scomparso dal rilevamento delle metriche di destinazione	controller-manager-unavailable.json

Sistema Kubernetes

Nome avviso	Descrizione	Definizione dei criteri di avviso in Cloud Monitoring
Anthos sul loop di arresti anomali di pod Bare Metal	Il pod è stato riavviato e potrebbe essere in stato di arresto anomalo	pod-crash-looping.json
L'utilizzo della memoria di Anthos su Baremetal Container supera l'85% (avviso)	L'utilizzo della memoria del container supera l'85% del limite	container-memory-usage-high-reaching-limit.json
L'utilizzo della CPU di Anthos su Baremetal supera l'80% (avviso)	L'utilizzo della CPU del container supera l'80% del limite	container-cpu-usage-high-reaching-limit.json
Anthos su pod Bare Metal non pronto per più di un'ora (criterio)	Il pod è in stato non pronto per più di un'ora	pod-non-pronta-1h.json
Anthos su volume permanente con volume permanente (utilizzo critico)	È previsto che il volume permanente rivendicato si esaurisca	persistent-volume-usage-high.json
Anthos su nodo Bare Metal non pronto per più di un'ora (critico)	Il nodo è in stato non pronto da più di un'ora	nodo-non-pronto-1h.json
L'utilizzo della CPU dei nodi Anthos su Bare Metal supera l'80% (valore critico)	L'utilizzo della CPU del nodo è superiore all'80%	node-cpu-usage-high.json
L'utilizzo della memoria dei nodi Anthos su Bare Metal supera l'80% (valore critico)	L'utilizzo della memoria del nodo è superiore all'80%	node-memory-usage-high.json
L'utilizzo di disco su Anthos Baremetal supera l'80% (valore critico)	L'utilizzo del disco del nodo è superiore all'80%	node-disk-usage-high.json

Prestazioni Kubernetes

Nome avviso	Descrizione	Definizione dei criteri di avviso in Cloud Monitoring
Il rapporto del numero di errori del server API Anthos su Bare Metal supera il 10% (valore critico)	Il server API restituisce errori per oltre il 10% delle richieste	api-server-error-ratio-10-percent.json
Il rapporto del numero di errori del server API Anthos su Bare Metal supera il 5% (avviso)	Il server API restituisce errori per oltre il 5% delle richieste	api-server-error-ratio-5-percent.json
Le modifiche ad Anthos su leader Bare Metal e troppo frequenti (importanti)	Il leader `etcd` cambia troppo spesso	etcd-leader-modifiche-troppo-frequenti.json
Anthos sulle proposte bardet e così via non è andato a buon fine (frequente)	Le proposte `etcd` non vengono pubblicate spesso	e
Anthos su server etcd Baremetal non è in quorum (importante)	Il server `etcd` non è in quorum	server-etcd-non-in-quorum.json
Anthos su spazio di archiviazione Bare Metal e così via supera il limite del 90% (valore critico)	L'utilizzo dello spazio di archiviazione di `etcd` supera il 90% del limite	etcd-storage-usage-high.json

Ricevere notifiche

Dopo aver creato un criterio di avviso, puoi definire uno o più canali di notifica per il criterio. Esistono diversi tipi di canali di notifica. Ad esempio, puoi ricevere una notifica via email, su un canale Slack o su un'app per dispositivi mobili. Puoi scegliere i canali più adatti alle tue esigenze.

Per istruzioni su come configurare i canali di notifica, consulta Gestire i canali di notifica.