Dokumen ini menjelaskan cara mengidentifikasi kegagalan deployment dan insiden operasional yang mungkin Anda alami di perangkat air-gapped Google Distributed Cloud (GDC) dan berisi deskripsi semua pemberitahuan yang ditampilkan dalam sistem untuk membantu Anda memecahkan masalah umum dengan komponen logging dan pemantauan.
Mengidentifikasi komponen Observability
Platform Observability men-deploy komponennya ke namespace obs-system
di cluster infrastruktur organisasi.
Instance Grafana Infrastructure Operator (IO) menyediakan akses ke metrik tingkat organisasi untuk memantau komponen infrastruktur seperti pemakaian CPU dan konsumsi penyimpanan. Layanan ini juga memberikan akses ke log operasional dan audit. Selain itu, alat ini memberikan akses ke pemberitahuan, log, dan metrik dari komponen yang dapat dioperasikan GDC.
Stack pemantauan dan logging GDC menggunakan solusi open source sebagai bagian dari platform Observability. Komponen ini mengumpulkan log dan metrik dari pod Kubernetes, mesin bare metal, switch jaringan, penyimpanan, dan layanan terkelola.
Tabel berikut berisi deskripsi semua komponen yang mengintegrasikan platform Observability:
Komponen | Deskripsi |
---|---|
Prometheus |
Prometheus adalah database deret waktu untuk mengumpulkan dan menyimpan metrik serta mengevaluasi pemberitahuan. Prometheus menyimpan metrik di instance Cortex dari cluster infrastruktur organisasi untuk penyimpanan jangka panjang. Prometheus menambahkan label sebagai key-value pair dan mengumpulkan metrik dari node Kubernetes, pod, mesin bare metal, switch jaringan, dan peralatan penyimpanan. |
Alertmanager |
Alertmanager adalah sistem pengelola yang ditentukan pengguna yang mengirimkan pemberitahuan saat log atau metrik menunjukkan bahwa komponen sistem gagal atau tidak beroperasi secara normal. Aplikasi ini mengelola perutean, penonaktifan, dan penggabungan pemberitahuan Prometheus. |
Loki |
Loki adalah database deret waktu yang menyimpan dan menggabungkan log dari berbagai sumber. Layanan ini mengindeks log untuk pembuatan kueri yang efisien. |
Grafana |
Grafana menyediakan antarmuka pengguna (UI) untuk melihat metrik yang dikumpulkan Prometheus dan membuat kueri log audit dan operasional dari instance Loki yang sesuai. UI memungkinkan Anda memvisualisasikan dasbor metrik dan pemberitahuan. |
Fluent Bit |
Fluent Bit adalah prosesor yang menarik log dari berbagai komponen atau lokasi dan mengirimkannya ke Loki. Agen ini berjalan di setiap node dari semua cluster. |
Mengidentifikasi kegagalan deployment
Jika deployment Anda berjalan dan responsif, komponen akan berjalan dalam status READY
.
Lakukan langkah-langkah berikut untuk mengidentifikasi kegagalan deployment:
Konfirmasi status komponen saat ini:
kubectl get -n obs-system TYPE/COMPONENT
Ganti kode berikut:
TYPE
: jenis komponenCOMPONENT
: nama komponen
Anda akan mendapatkan output yang mirip dengan berikut ini:
NAME READY AGE COMPONENT 1/1 23h
Jika komponen dalam kondisi baik, kolom
READY
pada output akan menampilkanN/N
sebagai nilai. Jika kolomREADY
tidak menampilkan nilai, hal ini tidak selalu menunjukkan kegagalan. Layanan mungkin membutuhkan lebih banyak waktu untuk diproses.Periksa pod di setiap komponen:
kubectl get pods -n obs-system | awk 'NR==1 | /COMPONENT/'
Ganti
COMPONENT
dengan nama komponen.Anda akan mendapatkan output yang mirip dengan berikut ini:
NAME READY STATUS RESTARTS AGE COMPONENT 1/1 Running 0 23h
Pastikan kolom
READY
menampilkanN/N
sebagai nilai, kolomSTATUS
menampilkan nilaiRunning
, dan jumlahRESTARTS
tidak melebihi nilai2
.Jumlah mulai ulang yang tinggi menunjukkan gejala berikut:
- Pod gagal dan Kubernetes akan memulainya ulang.
- Kolom
STATUS
menampilkan nilaiCrashLoopBackoff
.
Untuk mengatasi status gagal, lihat log pod.
Jika pod dalam status
PENDING
, status ini menunjukkan satu atau beberapa gejala berikut:- Pod sedang menunggu akses jaringan untuk mendownload penampung yang diperlukan.
- Masalah konfigurasi mencegah pod dimulai. Misalnya, nilai
Secret
yang diperlukan pod tidak ada. - Cluster Kubernetes Anda telah kehabisan resource untuk menjadwalkan pod, yang terjadi jika banyak aplikasi berjalan di cluster.
Menentukan penyebab status
PENDING
:kubectl describe -n obs-system pod/POD_NAME
Ganti
POD_NAME
dengan nama pod yang menampilkan statusPENDING
.Output menampilkan detail selengkapnya tentang pod.
Buka bagian
Events
dari output untuk melihat tabel yang mencantumkan peristiwa terbaru pod dan ringkasan penyebab statusEvents
.PENDING
Output berikut menunjukkan contoh bagian
Events
untuk objekStatefulSet
Grafana:Events: Type Reason Age From Message ---- ------ ---- ---- ------- Normal SuccessfulCreate 13s (x3 over 12d) statefulset-controller create Pod grafana-0 in StatefulSet grafana successful
Jika tidak ada peristiwa di pod atau resource lain dalam waktu yang lama, Anda akan menerima output berikut:
Events: <none>
Pastikan stack logging Observability sedang berjalan
Lakukan langkah-langkah berikut untuk memverifikasi bahwa stack logging sedang berjalan:
Pastikan semua instance atau pod Loki telah disisipkan sidecar Istio. Pastikan semua pod Fluent Bit yang bernama
anthos-audit-logs-forwarder-SUFFIX
dananthos-log-forwarder-SUFFIX
telah disisipkan sidecar Istio.Pastikan semua instance Loki berjalan tanpa error di cluster infrastruktur org.
Periksa status objek
anthos-audit-logs-forwarder
dananthos-log-forwarder
DaemonSet
untuk memverifikasi bahwa semua instance berjalan di semua node tanpa error.Pastikan Anda mendapatkan log operasional dari container
kube-apiserver-SUFFIX
dan log audit dari server Kubernetes API selama lima menit terakhir di semua cluster. Untuk melakukannya, jalankan kueri berikut di instance Grafana:- Log operasional:
sum (count_over_time({service_name="apiserver"} [5m])) by (cluster, fluentbit_pod)
- Log audit:
sum (count_over_time({cluster=~".+"} [5m])) by (cluster, node)
Anda harus mendapatkan nilai non-nol untuk semua node bidang kontrol di cluster infrastruktur org.
- Log operasional:
Memeriksa apakah stack pemantauan Observability sedang berjalan
Lakukan langkah-langkah berikut untuk memverifikasi bahwa stack pemantauan sedang berjalan:
Periksa apakah instance Grafana berjalan di cluster infrastruktur org. Pod
grafana-0
harus berjalan tanpa error di namespace berikut:obs-system
infra-obs-obs-system
platform-obs-obs-system
Pastikan semua komponen pemantauan berada di Istio Service Mesh. Ikuti langkah-langkah di bagian Mengidentifikasi kegagalan deployment. Setiap pod berikut harus menunjukkan bahwa semua container siap di kolom
READY
. Misalnya, nilai3/3
berarti tiga dari tiga penampung sudah siap. Selain itu, pod harus memiliki penampungistio-proxy
. Jika pod tidak memenuhi kondisi ini, mulai ulang pod:Nama pod Jumlah container yang siap cortex-
2/2
cortex-etcd-0
2/2
cortex-proxy-server-
2/2
cortex-tenant-
2/2
meta-blackbox-exporter-
2/2
meta-grafana-0
3/3
meta-grafana-proxy-server-
2/2
meta-prometheus-0
4/4
cortex-alertmanager-
2/2
cortex-compactor-
2/2
cortex-distributor-
2/2
cortex-etcd-0
2/2
cortex-ingester-
2/2
cortex-querier-
2/2
cortex-query-frontend-
2/2
cortex-query-scheduler-
2/2
cortex-ruler-
2/2
cortex-store-gateway-
2/2
cortex-tenant-
2/2
grafana-proxy-server-
2/2
meta-blackbox-exporter-
2/2
meta-grafana-0
3/3
meta-grafana-proxy-server-*
2/2
meta-prometheus-0
4/4
Pastikan Cortex berjalan tanpa error.
Mengambil log Observability
Tabel berikut berisi perintah yang harus Anda jalankan untuk mengambil log setiap komponen yang di-deploy oleh platform Observability.
Komponen | Perintah pengambilan log |
---|---|
grafana |
kubectl logs -n obs-system statefulset/grafana |
anthos-prometheus-k8s |
kubectl logs -n obs-system statefulset/anthos-prometheus-k8s |
alertmanager |
kubectl logs -n obs-system statefulset/alertmanager |
ops-logs-loki-io |
kubectl logs -n obs-system statefulset/ops-logs-loki-io |
ops-logs-loki-io-read |
kubectl logs -n obs-system statefulset/ops-logs-loki-io-read |
ops-logs-loki-all |
kubectl logs -n obs-system statefulset/ops-logs-loki-all |
ops-logs-loki-all-read |
kubectl logs -n obs-system statefulset/ops-logs-loki-all-read |
audit-logs-loki-io |
kubectl logs -n obs-system statefulset/audit-logs-loki-io |
audit-logs-loki-io-read |
kubectl logs -n obs-system statefulset/audit-logs-loki-io-read |
audit-logs-loki-pa |
kubectl logs -n obs-system statefulset/audit-logs-loki-pa |
audit-logs-loki-pa-read |
kubectl logs -n obs-system statefulset/audit-logs-loki-pa-read |
audit-logs-loki-all |
kubectl logs -n obs-system statefulset/audit-logs-loki-all |
audit-logs-loki-all-read |
kubectl logs -n obs-system statefulset/audit-logs-loki-all-read |
anthos-log-forwarder |
kubectl logs -n obs-system daemonset/anthos-log-forwarder |
anthos-audit-logs-forwarder |
kubectl logs -n obs-system daemonset/anthos-audit-logs-forwarder |
oplogs-forwarder |
kubectl logs -n obs-system daemonset/oplogs-forwarder |
logmon-operator |
kubectl logs -n obs-system deployment/logmon-operator |
Untuk melihat log instance komponen sebelumnya, tambahkan flag -p
di
akhir setiap perintah. Dengan menambahkan tanda -p
, Anda dapat meninjau log instance sebelumnya yang gagal, bukan instance yang sedang berjalan saat ini.
Melihat konfigurasi
Stack Observability menggunakan resource kustom Kubernetes API untuk mengonfigurasi pipeline pemantauan dan logging.
Resource kustom LoggingPipeline
di-deploy di cluster infrastruktur org dan mengonfigurasi instance Loki.
Perintah berikut menunjukkan tindakan yang tersedia yang dapat Anda lakukan pada pipeline logging:
Lihat konfigurasi deployment pipeline logging Anda saat ini:
kubectl get loggingpipeline -n obs-system default -o yaml
Ubah konfigurasi deployment pipeline logging Anda:
kubectl edit loggingpipeline -n obs-system default
GDC menggunakan operator logging dan pemantauan bernama logmon-operator
untuk mengelola deployment komponen Observability seperti Prometheus dan Fluent Bit. API ke komponen logmon-operator
adalah definisi resource kustom logmon
. Definisi resource kustom logmon
menginstruksikan logmon-operator
tentang cara mengonfigurasi Observability untuk deployment Anda. Definisi resource kustom ini mencakup properti volume untuk menyimpan metrik, aturan pemberitahuan untuk Alertmanager, konfigurasi Prometheus untuk mengumpulkan metrik, dan konfigurasi Grafana untuk dasbor.
Perintah berikut menunjukkan tindakan yang tersedia yang dapat Anda lakukan pada definisi resource kustom logmon
:
Melihat konfigurasi saat ini untuk deployment Observability Anda:
kubectl get logmon -n obs-system logmon-default -o yaml
Ubah konfigurasi deployment Observability Anda:
kubectl edit logmon -n obs-system logmon-default
Output dari menjalankan salah satu perintah dapat mereferensikan beberapa objek ConfigMap
Kubernetes untuk konfigurasi lebih lanjut. Misalnya, Anda dapat mengonfigurasi
aturan Alertmanager dalam objek ConfigMap
terpisah, yang direferensikan dalam
definisi resource kustom logmon
berdasarkan nama. Anda dapat mengubah dan melihat konfigurasi Alertmanager melalui definisi resource kustom logmon
bernama gpc-alertmanager-config
.
Untuk melihat konfigurasi Alertmanager, jalankan:
kubectl get configmap -n obs-system gpc-alertmanager-config -o yaml
Masalah umum
Bagian ini berisi masalah umum yang mungkin Anda hadapi saat men-deploy platform Observability.
Anda tidak dapat mengakses Grafana
Secara default, Grafana tidak diekspos ke mesin di luar cluster Kubernetes Anda. Untuk mengakses antarmuka Grafana dari luar cluster infrastruktur org untuk sementara, Anda dapat meneruskan port Service
ke localhost. Untuk meneruskan port
Service
, jalankan:
kubectl port-forward -n gpc-system service/grafana 33000\:3000
Di browser web Anda, buka http://localhost:33000
untuk melihat dasbor Grafana
untuk deployment Anda. Untuk mengakhiri proses, tekan tombol Control+C.
Grafana berjalan lambat
Grafana berjalan lambat menunjukkan hal berikut:
- Kueri ke Prometheus atau Loki menampilkan data yang berlebihan.
- Kueri menampilkan lebih banyak data daripada yang wajar untuk ditampilkan dalam satu grafik.
Untuk mengatasi kecepatan lambat dalam Grafana, periksa kueri di dasbor Grafana kustom Anda. Jika kueri menampilkan lebih banyak data daripada yang wajar untuk ditampilkan pada satu grafik, pertimbangkan untuk mengurangi jumlah data yang ditampilkan guna meningkatkan performa dasbor.
Dasbor Grafana tidak menampilkan metrik atau log
Grafana yang tidak menampilkan metrik atau log dapat disebabkan oleh alasan berikut:
- Sumber data Grafana tidak disetel dengan benar.
- Sistem mengalami masalah konektivitas ke sumber data pemantauan atau logging.
- Sistem tidak mengumpulkan metrik atau log.
Untuk melihat log dan metrik, ikuti langkah-langkah berikut:
- Di antarmuka pengguna Grafana, klik Dashboard settings.
- Pilih Sumber Data.
- Di halaman Sumber Data, pastikan Anda melihat sumber berikut:
Nama | Organisasi | URL |
---|---|---|
Audit Logs |
All |
http://audit-logs-loki-io-read.obs-system.svc:3100 |
Operational Logs |
Root |
http://ops-logs-loki-io-read.obs-system.svc:3100 |
Operational Logs |
Org |
http://ops-logs-loki-all-read.obs-system.svc:3100 |
prometheus |
http://anthos-prometheus-k8s.obs-system.svc:9090 |
Tidak adanya sumber data ini menunjukkan bahwa stack Observability gagal mengonfigurasi Grafana dengan benar.
Jika Anda telah mengonfigurasi sumber data dengan benar, tetapi tidak ada data yang ditampilkan, hal ini mungkin menunjukkan masalah pada objek Service
yang mengumpulkan metrik atau log untuk dimasukkan ke Prometheus atau Loki.
Saat mengumpulkan metrik, Prometheus mengikuti model pull untuk membuat kueri objek Service
Anda secara berkala untuk mengumpulkan metrik dan menyimpan nilai yang ditemukan. Agar Prometheus dapat menemukan objek Service
untuk pengumpulan metrik, hal berikut harus benar:
Semua pod untuk objek
Service
dianotasi dengan'monitoring.gke.io/scrape: "true"'
.Format metrik Prometheus mengekspos metrik pod melalui HTTP. Secara default, Prometheus mencari metrik ini di endpoint
http://POD_NAME:80/metrics
. Jika perlu, Anda dapat mengganti port, endpoint, dan skema melalui anotasi.
Fluent Bit mengumpulkan log dan ditujukan untuk berjalan di setiap node cluster Kubernetes Anda. Fluent Bit mengirim log ke Loki untuk penyimpanan jangka panjang.
Jika tidak ada log di Grafana, coba solusi berikut:
Periksa log instance Loki untuk memastikan instance berjalan tanpa error.
Jika instance Loki berjalan dengan benar, tetapi log tidak muncul, periksa log di Fluent Bit untuk memastikan layanan berfungsi seperti yang diharapkan. Untuk meninjau cara menarik log, lihat Mengambil log Observability.
Alertmanager tidak membuka pemberitahuan
Jika Alertmanager gagal membuka pemberitahuan, lakukan langkah-langkah berikut:
- Di objek
configMap
dalam namespacegpc-system
, pastikan labellogmon: system_metrics
ada. - Pastikan bagian data
configMap
menyertakan kunci bernamaalertmanager.yml
. Nilai untuk kuncialertmanager.yml
harus berupa aturan pemberitahuan yang ada dalam file konfigurasi Alertmanager yang valid. Pastikan definisi resource kustom
logmon
bernamalogmon-default
di namespacegpc-system
berisi referensi ke objekconfigMap
. Definisi resource kustomlogmon-default
harus berisi nama objekconfigMap
seperti yang ditunjukkan dalam contoh berikut:apiVersion: addons.gke.io/v1 kind: Logmon spec: system_metrics: outputs: default_prometheus: deployment: components: alertmanager: alertmanagerConfigurationConfigmaps: - alerts-config
Nilai
alerts-config
dalam contoh adalah nama objekconfigMap
Anda.
Alertmanager tidak mengirimkan pemberitahuan ke saluran notifikasi yang dikonfigurasi
Error konfigurasi dapat mencegah Anda menerima notifikasi di software eksternal yang Anda konfigurasi sebagai saluran notifikasi, seperti Slack, meskipun Alertmanager menghasilkan pemberitahuan di instance Grafana.
Untuk menerima pemberitahuan di software eksternal Anda, ikuti langkah-langkah berikut:
Pastikan nilai dalam file konfigurasi Alertmanager Anda diformat dengan benar. Saat memicu pemberitahuan, Alertmanager akan mengkueri webhook pada software eksternal.
Pastikan URL webhook yang terhubung ke software eksternal sudah benar. Jika URL sudah benar, pastikan software dikonfigurasi untuk menerima webhook. Anda mungkin perlu membuat kunci API untuk mengakses API layanan eksternal, atau kunci API Anda saat ini mungkin sudah tidak berlaku, dan Anda perlu memperbaruinya.
Jika layanan eksternal berada di luar deployment appliance GDC yang terisolasi dari internet, pastikan cluster infrastruktur organisasi Anda telah mengonfigurasi aturan traffic keluarnya. Konfigurasi ini memungkinkan Alertmanager mengirim permintaan ke layanan di luar jaringan Kubernetes internal. Jika aturan keluar tidak diverifikasi, Alertmanager tidak akan dapat menemukan software eksternal.
Anda tidak dapat melihat metrik dari workload yang tercakup dalam project
Ikuti langkah-langkah berikut untuk menerapkan solusi sementara dan mendapatkan metrik dari beban kerja Anda:
- Pastikan resource kustom
MonitoringTarget
memiliki statusReady
. - Untuk meng-scrape workload, Anda harus mendeklarasikan semua informasi target yang ditentukan ke
MonitoringTarget
dalam spesifikasi pod workload. Misalnya, jika Anda menyatakan bahwa metrik tersedia di port8080
, pod workload harus menyatakan kepada Kubernetes bahwa port8080
terbuka. Jika tidak, Prometheus akan mengabaikan workload. - Prometheus menjalankan beberapa shard, yang berarti tidak semua pod Prometheus diharapkan untuk meng-scrape pod Anda. Anda dapat mengidentifikasi nomor bagian dalam nama setiap pod Prometheus. Sebagai contoh,
primary-prometheus-shard0-replica0-0
adalah bagian dari shard0
. Periksa pod yang ingin Anda ambil dari setiap shard Prometheus:- Teruskan port pod
primary-prometheus-shardSHARD_NUMBER-replica0-0
Prometheus di namespaceobs-system
untuk mendapatkan akses ke UI Prometheus. GantiSHARD_NUMBER
di nama pod dengan angka yang bertambah setiap kali Anda memeriksa shard baru. - Buka UI Prometheus di browser web Anda dan ikuti langkah-langkah berikut:
- Klik Status > Target.
- Pastikan pod yang ingin Anda ambil datanya ada dalam daftar. Jika tidak, periksa shard berikutnya. Jika tidak ada lagi shard yang perlu diperiksa, validasi ulang bahwa Prometheus memiliki informasi yang cukup untuk menemukannya.
- Verifikasi bahwa pod
primary-prometheus-shardSHARD_NUMBER-replica0-0
Prometheus mencatat error di namespaceobs-system
.
- Teruskan port pod
- Verifikasi bahwa log pod
cortex-tenant
menampilkan error di namespaceobs-system
.
Dasbor tidak dibuat
Ikuti langkah-langkah berikut untuk menerapkan solusi dan mencari tahu alasan dasbor tidak dibuat:
- Tinjau status resource kustom
Dashboard
untuk mencari error. Resource kustom harus memiliki statusReady
. - Pastikan Anda memeriksa instance Grafana yang benar. Misalnya, jika Anda men-deploy dasbor di namespace project bernama
my-namespace
, dasbor harus berada di instance Grafana di endpointhttps://GDCH_URL/my-namespace/grafana
. - Periksa log
fleet-admin-controller
di namespacegpc-system
. Cari kesalahan terkait dasbor dengan menelusuri nama dasbor di log. Jika Anda menemukan error, file JSON dalam objekconfigMap
Anda memiliki format yang salah, dan Anda harus memperbaikinya. - Periksa log Grafana di namespace
PROJECT_NAME-obs-system
untuk mencari error. Dasbor membuat kueri Grafana REST API, jadi Grafana harus berfungsi agar dasbor dapat dibuat.
Pemberitahuan Anda tidak terbuka
Lakukan langkah-langkah berikut untuk menerapkan solusi dan mencari tahu alasan pemberitahuan tidak terbuka:
- Pastikan Cortex dan Loki berada dalam mode bucket storage. Aturan tidak akan berfungsi kecuali jika backend didukung oleh penyimpanan bucket.
- Verifikasi bahwa status resource kustom
MonitoringRule
danLoggingRule
adalahReady
. - Periksa kondisi pemberitahuan berikut:
- Ekspresi PromQL dan LogQL: Bandingkan semua fungsi yang Anda gunakan dengan dokumentasi Membuat aturan pemberitahuan untuk memastikan aturan Anda dikonfigurasi sesuai keinginan Anda. Pastikan ekspresi menampilkan nilai
true
ataufalse
. - Durasi: Bidang
for
resource kustom menentukan berapa lama suatu kondisi harus terpenuhi. Kolominterval
menentukan seberapa sering kondisi dievaluasi. Periksa nilai kolom ini satu sama lain dan pastikan kondisi Anda logis.
- Ekspresi PromQL dan LogQL: Bandingkan semua fungsi yang Anda gunakan dengan dokumentasi Membuat aturan pemberitahuan untuk memastikan aturan Anda dikonfigurasi sesuai keinginan Anda. Pastikan ekspresi menampilkan nilai
- Periksa UI Grafana untuk melihat apakah notifikasi terbuka menggunakan halaman Alerts.
- Jika Grafana menunjukkan bahwa pemberitahuan terbuka, periksa saluran notifikasi Anda dan pastikan Alertmanager dapat menghubungi saluran tersebut untuk menghasilkan pemberitahuan.
Log yang diharapkan tidak tersedia
Lakukan langkah-langkah berikut jika Anda tidak melihat log operasional dari komponen Anda:
- Periksa apakah komponen Anda berjalan dan menghasilkan log.
- Periksa apakah log komponen Anda harus dikumpulkan sebagai fungsi bawaan. Jika tidak, pastikan Anda telah men-deploy resource kustom
LoggingTarget
dengan spesifikasi yang valid dan dengan statusReady
.
Lakukan langkah-langkah berikut jika Anda tidak melihat log audit dari komponen Anda:
- Jika komponen Anda menulis log ke file, pastikan file tersebut benar-benar ada di sistem file node pada jalur
/var/log/audit/SERVICE_NAME/NAMESPACE/ACCESS_LEVEL/audit.log
. - Pastikan pod
anthos-audit-logs-forwarder-SUFFIX
di node yang sama tidak memiliki error. - Jika komponen Anda menggunakan endpoint syslog untuk menerima log, pastikan Anda telah men-deploy resource kustom
AuditLoggingTarget
dengan spesifikasi yang valid dan dengan statusReady
.
Mengidentifikasi aturan pemberitahuan yang telah ditetapkan
Bagian ini berisi informasi tentang aturan pemberitahuan standar yang ada di komponen Observability untuk memberi tahu Anda tentang kegagalan sistem.
Aturan pemberitahuan yang telah ditetapkan di Loki
Tabel berikut menyediakan aturan pemberitahuan yang telah diinstal sebelumnya di Loki untuk kegagalan logging audit:
Nama | Jenis | Deskripsi |
---|---|---|
FluentBitAuditLoggingWriteFailure |
Kritis | Fluent Bit gagal meneruskan log audit dalam lima menit terakhir. |
LokiAuditLoggingWriteFailure |
Kritis | Loki gagal menulis log audit ke penyimpanan backend. |
Jika satu atau beberapa pemberitahuan ini ditampilkan, sistem telah kehilangan setidaknya satu catatan audit.
Aturan pemberitahuan yang telah ditentukan sebelumnya di Prometheus
Tabel berikut menyediakan aturan pemberitahuan yang telah diinstal sebelumnya di Prometheus untuk komponen Kubernetes:
Nama | Jenis | Deskripsi |
---|---|---|
KubeAPIDown |
Kritis | Kube API telah menghilang dari penemuan target Prometheus selama 15 menit. |
KubeClientErrors |
Peringatan | Rasio error dari klien server Kubernetes API telah lebih besar dari 0,01 selama 15 menit. |
KubeClientErrors |
Kritis | Rasio error dari klien server Kubernetes API telah lebih besar dari 0,1 selama 15 menit. |
KubePodCrashLooping |
Peringatan | Pod telah berada dalam status error berulang selama lebih dari 15 menit. |
KubePodNotReady |
Peringatan | Pod telah dalam status belum siap selama lebih dari 15 menit. |
KubePersistentVolumeFillingUp |
Kritis | Byte gratis objek PersistentVolume yang diklaim kurang dari 0,03. |
KubePersistentVolumeFillingUp |
Peringatan | Byte kosong dari objek PersistentVolume yang diklaim kurang dari 0,15. |
KubePersistentVolumeErrors |
Kritis | Volume persisten telah berada dalam fase Failed atau Pending selama lima menit. |
KubeNodeNotReady |
Peringatan | Node belum siap selama lebih dari 15 menit. |
KubeNodeCPUUsageHigh |
Kritis | Penggunaan CPU node lebih besar dari 80%. |
KubeNodeMemoryUsageHigh |
Kritis | Penggunaan memori node lebih besar dari 80%. |
NodeFilesystemSpaceFillingUp |
Peringatan | Penggunaan sistem file node lebih dari 60%. |
NodeFilesystemSpaceFillingUp |
Kritis | Penggunaan sistem file node lebih dari 85%. |
CertManagerCertExpirySoon |
Peringatan | Masa berlaku sertifikat akan berakhir dalam 21 hari. |
CertManagerCertNotReady |
Kritis | Sertifikat tidak siap melayani traffic setelah 10 menit. |
CertManagerHittingRateLimits |
Kritis | Anda mencapai batas kecepatan saat membuat atau memperpanjang sertifikat selama lima menit. |
DeploymentNotReady |
Kritis | Deployment di cluster infrastruktur org telah berada dalam status tidak siap selama lebih dari 15 menit. |
StatefulSetNotReady |
Kritis | Objek StatefulSet di cluster infrastruktur org telah berada dalam status tidak siap (non-ready) selama lebih dari 15 menit. |
AuditLogsForwarderDown |
Kritis | DaemonSet anthos-audit-logs-forwarder tidak berfungsi selama lebih dari 15 menit. |
AuditLogsLokiDown |
Kritis | audit-logs-loki StatefulSet telah dalam status tidak siap selama lebih dari 15 menit. |