Cluster Anthos on bare metal kini menjadi Google Distributed Cloud (khusus software) untuk bare metal. Untuk mengetahui informasi selengkapnya, lihat ringkasan produk.

Halaman ini diterjemahkan oleh Cloud Translation API.

Membuat kebijakan pemberitahuan

Halaman ini menunjukkan cara membuat kebijakan pemberitahuan berbasis metrik untuk cluster Google Distributed Cloud. Kami telah menyediakan beberapa contoh yang dapat didownload untuk membantu Anda menyiapkan kebijakan pemberitahuan untuk skenario umum. Untuk informasi selengkapnya tentang kebijakan pemberitahuan berbasis metrik, lihat Membuat kebijakan pemberitahuan batas metrik dalam dokumentasi Google Cloud Observability.

Sebelum memulai

Anda harus memiliki izin berikut untuk membuat kebijakan pemberitahuan:

monitoring.alertPolicies.create
monitoring.alertPolicies.delete
monitoring.alertPolicies.update

Anda memiliki izin ini jika memiliki salah satu peran berikut:

monitoring.alertPolicyEditor
monitoring.editor
Editor Project
Pemilik Project

Jika ingin membuat kebijakan pemberitahuan berbasis log menggunakan Google Cloud CLI, Anda juga harus memiliki peran serviceusage.serviceUsageConsumer. Untuk petunjuk cara menyiapkan kebijakan pemberitahuan berbasis log, lihat Mengonfigurasi pemberitahuan berbasis log dalam dokumentasi Google Cloud Observability.

Untuk memeriksa peran Anda, buka halaman IAM di Konsol Google Cloud.

Membuat contoh kebijakan: Server API tidak tersedia

Dalam latihan ini, Anda akan membuat kebijakan pemberitahuan untuk server Kubernetes API cluster. Dengan kebijakan ini, Anda dapat mengatur untuk mendapatkan notifikasi setiap kali server API cluster tidak tersedia.

Download file konfigurasi kebijakan: apiserver-unavailable.json
Buat kebijakan:
```
gcloud alpha monitoring policies create --policy-from-file=POLICY_CONFIG
```
Ganti POLICY_CONFIG dengan jalur file konfigurasi yang baru saja Anda download.

Lihat kebijakan pemberitahuan Anda:

Konsol

Di konsol Google Cloud, buka halaman Monitoring.

Buka Monitoring
Di sebelah kiri, pilih Pemberitahuan.
Di bagian Kebijakan, Anda dapat melihat daftar kebijakan pemberitahuan.

Dalam daftar, pilih Server API cluster Anthos tidak tersedia (penting) untuk melihat detail tentang kebijakan baru Anda. Di bagian Conditions, Anda dapat melihat deskripsi kebijakan. Contoh:
```
Policy violates when ANY condition is met
Anthos cluster API server uptime is absent for 5m
```

gcloud

gcloud alpha monitoring policies list

Output menampilkan informasi mendetail tentang kebijakan. Contoh:

combiner: OR
conditions:
- conditionAbsent:
    aggregations:
    - alignmentPeriod: 60s
      crossSeriesReducer: REDUCE_MEAN
      groupByFields:
      - resource.label.project_id
      - resource.label.location
      - resource.label.cluster_name
      - resource.label.namespace_name
      - resource.label.container_name
      - resource.label.pod_name
      perSeriesAligner: ALIGN_MAX
    duration: 300s
    filter: resource.type = "k8s_container" AND metric.type = "kubernetes.io/anthos/container/uptime"
      AND resource.label."container_name"=monitoring.regex.full_match("kube-apiserver")
    trigger:
      count: 1
  displayName: Anthos cluster API server uptime is absent for 5m
  name: projects/…/alertPolicies/…/conditions/…
displayName: Anthos cluster API server unavailable (critical)
enabled: true
mutationRecord:
  mutateTime: …
  mutatedBy: …
name: projects/…/alertPolicies/…

Membuat kebijakan pemberitahuan tambahan

Bagian ini memberikan deskripsi dan file konfigurasi untuk serangkaian kebijakan pemberitahuan yang direkomendasikan.

Untuk membuat kebijakan, ikuti langkah-langkah yang sama dengan yang Anda gunakan dalam latihan sebelumnya:

Untuk mendownload file konfigurasi, klik link di kolom kanan.
Secara opsional, sesuaikan kondisi agar lebih sesuai dengan kebutuhan spesifik Anda, misalnya, Anda dapat menambahkan filter tambahan untuk subset cluster, atau menyesuaikan nilai nilai minimum untuk menyeimbangkan antara derau dan tingkat kritisitas.
Untuk membuat kebijakan, jalankan gcloud alpha monitoring policies create.

Anda dapat mendownload dan menginstal semua contoh kebijakan pemberitahuan yang dijelaskan dalam dokumen ini dengan skrip berikut:

# 1. Create a directory named alert_samples:

mkdir alert_samples && cd alert_samples
declare -a alerts=("apiserver-unavailable.json" "controller-manager-unavailable.json" "scheduler-unavailable.json" \
  "pod-crash-looping.json" "pod-not-ready-1h.json" "container-cpu-usage-high-reaching-limit.json" \
  "container-memory-usage-high-reaching-limit.json" "persistent-volume-usage-high.json" "node-cpu-usage-high.json" \
  "node-disk-usage-high.json" "node-memory-usage-high.json" "node-not-ready-1h.json" "apiserver-error-ratio-high.json" \
  "etcd-leader-changes-or-proposal-failures-frequent.json" "etcd-server-not-in-quorum.yaml" "etcd-storage-usage-high.json")

# 2. Download all alert samples into the alert_samples/ directory:

for x in "${alerts[@]}"
do
  wget https://cloud.google.com/kubernetes-engine/distributed-cloud/bare-metal/docs/samples/${x}
done

# 3. (optional) Uncomment and provide your project ID to set the default project
# for gcloud commands:

# gcloud config set project <PROJECT_ID>

# 4. Create alert policies for each of the downloaded samples:

for x in "${alerts[@]}"
do
  gcloud alpha monitoring policies create --policy-from-file=${x}
done

Ketersediaan komponen bidang kontrol

Nama notifikasi	Deskripsi	Definisi kebijakan pemberitahuan di Cloud Monitoring
Server API tidak tersedia (penting)	Metrik waktu aktif server API tidak tersedia	apiserver-unavailable.json
Penjadwal tidak tersedia (penting)	Metrik waktu aktif penjadwal tidak tersedia	scheduler-unavailable.json
Pengelola pengontrol tidak tersedia (penting)	Metrik waktu aktif pengelola pengontrol tidak tersedia	controller-manager-unavailable.json

Sistem Kubernetes

Nama notifikasi	Deskripsi	Definisi kebijakan pemberitahuan di Cloud Monitoring
Looping error pod (peringatan)	Pod terus dimulai ulang dan mungkin dalam status loop error	pod-crash-looping.json
Pod tidak siap selama lebih dari satu jam (penting)	Pod berada dalam status tidak siap selama lebih dari satu jam	pod-not-ready-1h.json
Penggunaan CPU container melebihi 80 persen (peringatan)	Penggunaan CPU container melebihi 80% batas	container-cpu-usage-high-reaching-limit.json
Penggunaan memori penampung melebihi 85 persen (peringatan)	Penggunaan memori penampung melebihi 85% batas	container-memory-usage-high-reaching-limit.json
Penggunaan volume persisten yang tinggi (penting)	Volume persisten yang diklaim memiliki ruang kosong kurang dari 3 persen	persistent-volume-usage-high.json
Penggunaan CPU node melebihi 80 persen (peringatan)	Penggunaan CPU node lebih dari 80% dari total yang dapat dialokasikan selama 5 menit	node-cpu-usage-high.json
Penggunaan disk node melebihi 85 persen (peringatan)	Kurang dari 15 persen ruang kosong per titik pemasangan disk selama 10 menit	node-disk-usage-high.json
Penggunaan memori node melebihi 80 persen (peringatan)	Penggunaan memori node lebih dari 80% dari total yang dapat dialokasikan selama 5 menit	node-memory-usage-high.json
Node tidak siap selama lebih dari satu jam (penting)	Node dalam status tidak siap selama lebih dari satu jam	node-not-ready-1h.json

Performa Kubernetes

Nama notifikasi	Deskripsi	Definisi kebijakan pemberitahuan di Cloud Monitoring
Rasio error server API melebihi 20 persen (penting)	Server API menampilkan error 5xx atau 429 pada lebih dari 20% dari semua permintaan per kata kerja selama 15 menit	apiserver-error-ratio-high.json
Perubahan pemimpin ETCD atau kegagalan proposal terlalu sering (peringatan)	Perubahan pemimpin `etcd` atau kegagalan proposal terjadi terlalu sering	etcd-leader-changes-or-proposal-failures-frequent.json
Server ETCD tidak dalam kuorum (kritis)	Tidak ada proposal server `etcd` yang di-commit selama 5 menit, sehingga proposal tersebut mungkin telah kehilangan kuorum	etcd-server-not-in-quorum.yaml
Penyimpanan ETCD melebihi batas 90 persen (peringatan)	Penggunaan penyimpanan `etcd` lebih dari 90% batas	etcd-storage-usage-high.json

Kebijakan Pemberitahuan dengan PromQL

Kueri dalam kebijakan pemberitahuan juga dapat dinyatakan dalam PromQL, bukan MQL. Misalnya, versi PromQL dari kebijakan API server error ratio exceeds 20 percent (critical) tersedia untuk didownload: apiserver-error-ratio-high-promql.json.

Untuk informasi selengkapnya, lihat artikel Menggunakan Managed Service for Prometheus untuk dokumentasi Google Distributed Cloud dan artikel Kebijakan pemberitahuan dengan PromQL untuk dokumentasi Cloud Monitoring.

Mendapatkan notifikasi

Setelah membuat kebijakan pemberitahuan, Anda dapat menentukan satu atau beberapa saluran pemberitahuan untuk kebijakan tersebut. Ada beberapa jenis saluran notifikasi. Misalnya, Anda dapat diberi tahu melalui email, saluran Slack, atau aplikasi seluler. Anda dapat memilih saluran yang sesuai dengan kebutuhan Anda.

Untuk petunjuk tentang cara mengonfigurasi saluran notifikasi, lihat Mengelola saluran notifikasi.