Halaman ini memberikan petunjuk mendetail tentang cara membuat kueri dan memvisualisasikan pemberitahuan terbuka menggunakan konsol GDC dan alat curl
untuk endpoint Cortex guna mendapatkan informasi tentang masalah dan menyelesaikan masalah.
Setelah membuat aturan pemberitahuan
berdasarkan log dan metrik dari lingkungan appliance air-gapped Google Distributed Cloud (GDC), Anda
dapat mulai memantau pemberitahuan terbuka dari project Anda. Anda dapat memvisualisasikan dan memfilter pemberitahuan yang dipicu oleh peristiwa sistem di konsol GDC atau mengaksesnya langsung dari Cortex menggunakan alat curl
untuk pembuatan skrip dan otomatisasi yang fleksibel.
Anda dapat mengakses pemberitahuan terbuka dengan salah satu dari dua metode berikut:
- Konsol GDC: Visualisasikan data pemberitahuan di panel terintegrasi yang berisi informasi seperti jumlah pemberitahuan untuk sumber data tertentu, tingkat keparahan, durasi, status, pesan, dan label. Konsol GDC menyediakan antarmuka yang mudah digunakan untuk memfilter dan menganalisis pemberitahuan dari komponen sistem Anda.
- Endpoint Cortex Alertmanager: Untuk kasus penggunaan yang lebih canggih, kueri instance Cortex project Anda secara langsung menggunakan alat
curl
di command line. Cortex menyimpan pemberitahuan Alertmanager project Anda dan menyediakan endpoint HTTP untuk akses terprogram. Akses ini memungkinkan Anda mengekspor data, mengotomatiskan tugas, mengonfigurasi cron job, dan membuat integrasi kustom.
Sebelum memulai
Untuk mendapatkan izin yang Anda perlukan untuk membuat kueri dan memvisualisasikan pemberitahuan, minta Admin IAM Project Anda untuk memberi Anda salah satu peran Project Cortex Alertmanager terkait di namespace project Anda. Bergantung pada tingkat akses dan izin yang Anda perlukan, Anda mungkin mendapatkan peran editor atau pelihat untuk resource ini dalam project.
Untuk mendapatkan izin yang diperlukan untuk mengekspor log, minta Admin IAM Project Anda untuk memberi Anda peran Project Grafana Viewer (project-grafana-viewer
). Proses kontrol akses berbasis peran ini memungkinkan Anda mengakses visualisasi data dengan aman. Untuk mengetahui informasi selengkapnya tentang peran ini, lihat Siapkan izin IAM.
Endpoint Grafana
Untuk Operator Aplikasi (AO):
Buka URL berikut untuk mengakses endpoint project Anda:
https://GDC_URL/PROJECT_NAMESPACE/grafana
Ganti kode berikut:
- GDC_URL: URL organisasi Anda di GDC.
- PROJECT_NAMESPACE: Namespace project Anda.
UI project berisi dasbor default seperti dasbor Alerts - Overview dengan informasi tentang pemberitahuan. Dengan membuat kueri pemberitahuan dari UI, Anda dapat mengambil informasi pemberitahuan secara visual dari project dan mendapatkan tampilan terintegrasi dari resource untuk mengetahui dan menyelesaikan masalah dengan cepat.
Untuk Admin Platform (PA):
Buka URL berikut untuk mengakses endpoint project platform-obs
Anda:
https://GDC_URL/platform-obs/grafana
Ganti GDC_URL dengan URL organisasi Anda di GDC.
Antarmuka pengguna (UI) instance pemantauan sistem berisi dasbor default seperti dasbor Alerts - Overview dengan informasi tentang pemberitahuan untuk kemampuan pengamatan data. Dengan membuat kueri pemberitahuan dari UI, Anda dapat mengambil informasi pemberitahuan secara visual dari project dan mendapatkan tampilan terintegrasi dari resource untuk mengetahui dan menyelesaikan masalah dengan cepat.
Gambar 1. Dasbor Alerts - Overview di UI Grafana.
Melihat dan memfilter pemberitahuan yang belum diselesaikan
Pilih salah satu metode berikut untuk membuat kueri dan memfilter pemberitahuan terbuka dari namespace project Anda:
Konsol
Melihat pemberitahuan terbuka dalam project dari konsol GDC:
- Login ke konsol GDC.
- Di konsol GDC, pilih project Anda.
- Di menu navigasi, pilih Operations > Alerting.
- Pilih tab Peringatan.
- Melihat daftar notifikasi.
- Di bagian Peringatan yang dibuka, klik Filter untuk hanya menampilkan peringatan yang belum ditutup. Anda juga dapat memfilter notifikasi berdasarkan nama atau nilai properti lainnya.
- Klik nama pemberitahuan untuk melihat detail pemberitahuan.
Endpoint Cortex
Bagian ini menjelaskan cara mengakses pemberitahuan menggunakan endpoint Cortex Alertmanager.
Mengidentifikasi endpoint Cortex Anda
URL berikut adalah endpoint instance Cortex project Anda:
https://GDC_URL/PROJECT_NAMESPACE/cortex/alertmanager/
Ganti kode berikut:
GDC_URL
: URL organisasi Anda di GDC.PROJECT_NAMESPACE
: namespace project Anda.Misalnya, endpoint Cortex untuk project
platform-obs
di organisasiorg-1
adalahhttps://org-1/platform-obs/cortex/alertmanager/
.
Mengautentikasi permintaan curl
- Download dan instal gdcloud CLI.
Tetapkan properti gdcloud
core/organization_console_url
:gdcloud config set core/organization_console_url https://GDC_URL
Login dengan penyedia identitas yang dikonfigurasi:
gdcloud auth login
Gunakan nama pengguna dan sandi Anda untuk mengautentikasi dan login.
Jika login berhasil, Anda dapat menggunakan header otorisasi dalam permintaan cURL melalui perintah
gdcloud auth print-identity-token
. Untuk mengetahui informasi selengkapnya, lihat gdcloud auth.
Panggil endpoint Cortex
Selesaikan langkah-langkah berikut untuk menjangkau endpoint Cortex menggunakan alat curl
:
- Lakukan autentikasi permintaan
curl
. Gunakan
curl
untuk memanggil endpoint Cortex dan memperluas URL menggunakan spesifikasi Alertmanager API standar (https://prometheus.io/docs/prometheus/latest/querying/api/#alertmanagers) untuk mengkueri pemberitahuan.Berikut adalah contoh permintaan
curl
:curl https://GDC_URL/PROJECT_NAME/cortex/alertmanager/api/v1/alertmanagers \ -H "Authorization: Bearer $(gdcloud auth print-identity-token \ --audiences=https://GDC_URL)"
Anda akan mendapatkan output setelah menjalankan perintah. Respons API dalam format JSON.
Alertmanager
Alertmanager memungkinkan Anda memantau notifikasi pemberitahuan dari aplikasi klien. Anda dapat memeriksa dan menonaktifkan notifikasi menggunakan Alertmanager, serta memfilter atau mengelompokkan notifikasi:
Gambar 2. Opsi menu untuk membuat kueri log audit dari Alertmanager.
Kebijakan pemberitahuan yang telah ditentukan sebelumnya
Tabel berikut mencantumkan aturan pemberitahuan yang telah diinstal sebelumnya di Prometheus:
Nama | Deskripsi |
---|---|
KubeAPIDown (kritis) | KubeAPI telah menghilang dari penemuan target Prometheus selama 15 menit. |
KubeClientErrors (peringatan) | Rasio error klien server Kubernetes API > 0,01 selama 15 menit. |
KubeClientErrors (kritis) | Rasio error klien server Kubernetes API > 0,1 selama 15 menit. |
KubePodCrashLooping (peringatan) | Pod telah berada dalam status error berulang selama lebih dari 15 menit. |
KubePodNotReady (peringatan) | Pod telah berada dalam status tidak siap selama lebih dari 15 menit. |
KubePersistentVolumeFillingUp (kritis) | Byte kosong dari PersistentVolume yang diklaim < 0,03. |
KubePersistentVolumeFillingUp (peringatan) | Byte kosong dari PersistentVolume yang diklaim < 0,15. |
KubePersistentVolumeErrors (kritis) | Volume persisten berada dalam fase Gagal atau Tertunda selama lima menit. |
KubeNodeNotReady (peringatan) | Node belum siap selama lebih dari 15 menit. |
KubeNodeCPUUsageHigh (kritis) | Penggunaan CPU node > 80%. |
KubeNodeMemoryUsageHigh (kritis) | Penggunaan memori node > 80%. |
NodeFilesystemSpaceFillingUp (peringatan) | Penggunaan sistem file node > 60%. |
NodeFilesystemSpaceFillingUp (kritis) | Penggunaan sistem file node > 85%. |
CertManagerCertExpirySoon (peringatan) | Masa berlaku sertifikat akan berakhir dalam 21 hari. |
CertManagerCertNotReady (kritis) | Sertifikat tidak siap melayani traffic setelah 10 menit. |
CertManagerHittingRateLimits (kritis) | Batas kecepatan telah tercapai saat membuat dan memperpanjang sertifikat selama lima menit. |
DeploymentNotReady (kritis). | Deployment di cluster admin org telah berada dalam status tidak siap selama lebih dari 15 menit. |
Contoh alertmanagerConfigurationConfigmaps
Sintaksis konfigurasi di ConfigMaps yang tercantum dalam alertmanagerConfigurationConfigmaps
harus mengikuti https://prometheus.io/docs/alerting/latest/configuration/
apiVersion: observability.gdc.goog/v1alpha1
kind: ObservabilityPipeline
metadata:
# Choose namespace that matches the project's namespace
namespace: kube-system
name: observability-config
# Configure Alertmanager
alerting:
# Storage size for alerting data within organization
# Permission: PA
localStorageSize: 1Gi
# Permission: PA & AO
# alertmanager config must be under the key "alertmanager.yml" in the configMap
alertmanagerConfig: <configmap-for-alertmanager-config>
# Permission: PA
volumes:
- <volume referenced in volumeMounts>
# Permission: PA
volumeMounts:
- <volumeMount referenced in alertmanagerConfig>
Contoh konfigurasi aturan
# Configures either an alert or a target record for precomputation
apiVersion: monitoring.gdc.goog/v1alpha1
kind: MonitoringRule
metadata:
# Choose namespace that contains the metrics that rules are based on
# Note: alert/record will be produced in the same namespace
namespace: g-fleetns-a
name: alerting-config
spec:
# Rule evaluation interval
interval: <duration>
# Configure limit for number of alerts (0: no limit)
# Optional, Default: 0 (no limit)
limit: <int>
# Configure record rules
recordRules:
# Define which timeseries to write to (must be a valid metric name)
- record: <string>
# Define PromQL expression to evaluate for this rule
expr: <string>
# Define labels to add or overwrite
# Optional, Map of {key, value} pairs
labels:
<labelname>: <labelvalue>
# Configure alert rules
alertRules:
# Define alert name
- alert: <string>
# Define PromQL expression to evaluate for this rule
# https://prometheus.io/docs/prometheus/latest/configuration/alerting_rules/
expr: <string>
# Define when an active alert moves from pending to firing
# Optional, Default: 0s
for: <duration>
# Define labels to add or overwrite
# Required, Map of {key, value} pairs
# Required labels:
# severity: [error, critical, warning, info]
# code:
# resource: component/service/hardware related to alert
# additional labels are optional
labels:
severity: <enum: [error, critical, warning, info]>
code:
resource: <Short name of the related operable component>
<labelname>: <tmpl_string>
# Define annotations to add
# Optional, Map of {key, value} pairs
# Recommended annotations:
# message: value of Message field in UI
# expression: value of Rule field in UI
# runbookurl: URL for link in Actions to take field in UI
annotations:
<labelname>: <tmpl_string>
# Configures either an alert or a target record for precomputation
apiVersion: logging.gdc.goog/v1alpha1
kind: LoggingRule
metadata:
# Choose namespace that contains the logs that rules are based on
# Note: alert/record will be produced in the same namespace
namespace: g-fleetns-a
name: alerting-config
spec:
# Choose which log source to base alerts on (Operational/Audit/Security Logs)
# Optional, Default: Operational
source: <string>
# Rule evaluation interval
interval: <duration>
# Configure limit for number of alerts (0: no limit)
# Optional, Default: 0 (no limit)
limit: <int>
# Configure record rules
recordRules:
# Define which timeseries to write to (must be a valid metric name)
- record: <string>
# Define LogQL expression to evaluate for this rule
# https://grafana.com/docs/loki/latest/rules/
expr: <string>
# Define labels to add or overwrite
# Optional, Map of {key, value} pairs
labels:
<labelname>: <labelvalue>
# Configure alert rules
alertRules:
# Define alert name
- alert: <string>
# Define LogQL expression to evaluate for this rule
expr: <string>
# Define when an active alert moves from pending to firing
# Optional, Default: 0s
for: <duration>
# Define labels to add or overwrite
# Required, Map of {key, value} pairs
# Required labels:
# severity: [error, critical, warning, info]
# code:
# resource: component/service/hardware related to alert
# additional labels are optional
labels:
severity: <enum: [error, critical, warning, info]>
code:
resource: <Short name of the related operable component>
<labelname>: <tmpl_string>
# Define annotations to add
# Optional, Map of {key, value} pairs
# Recommended annotations:
# message: value of Message field in UI
# expression: value of Rule field in UI
# runbookurl: URL for link in Actions to take field in UI
annotations:
<labelname>: <tmpl_string>
Membuat kueri pemberitahuan dari HTTP API
Platform Observability mengekspos endpoint HTTP API untuk membuat kueri dan membaca metrik, pemberitahuan, dan data deret waktu lainnya dari project Anda untuk pemantauan sistem.Kueri pemberitahuan langsung dari Observability HTTP API untuk menyiapkan tugas otomatis, menyesuaikan respons, dan membuat integrasi sesuai dengan kasus penggunaan Anda. Misalnya, masukkan output ke perintah lain, ekspor detail ke format file teks, atau konfigurasi tugas cron Linux. Anda dapat memanggil Observability HTTP API dari antarmuka command line (CLI) atau browser web dan mendapatkan hasilnya dalam format JSON.
Bagian ini menjelaskan cara memanggil endpoint Observability HTTP API dari CLI menggunakan spesifikasi APIuntuk membuat kueri pemberitahuan.
Kueri pemberitahuan langsung dari Observability HTTP API untuk menyiapkan tugas otomatis, menyesuaikan respons, dan membuat integrasi sesuai dengan kasus penggunaan Anda. Misalnya, masukkan output ke perintah lain, ekspor detail ke format file teks, atau konfigurasi tugas cron Linux. Anda dapat memanggil Observability HTTP API dari antarmuka command line (CLI) atau browser web dan mendapatkan hasilnya dalam format JSON.
Bagian ini menjelaskan cara memanggil endpoint Observability HTTP API dari CLI menggunakan spesifikasi Alertmanager API untuk membuat kueri metrik.
Sebelum memulai
Untuk mendapatkan izin yang diperlukan untuk mengakses endpoint Observability HTTP API, minta Admin IAM Project Anda untuk memberi Anda peran Project Cortex Alertmanager Viewer (project-cortex-alertmanager-viewer
) di namespace project Anda.
Admin IAM Project dapat memberi Anda akses dengan membuat binding peran:
a. Root-Admin Operator Infrastruktur (IO) - Project Cortex Alertmanager Viewer
:
kubectl --kubeconfig $HOME/root-admin-kubeconfig create rolebinding
io-cortex-alertmanager-viewer-binding -n infra-obs
--user=fop-infrastructure-operator@example.com
--role=project-cortex-alertmanager-viewer
b. Admin Platform (PA) Admin Root - Project Cortex Alertmanager Viewer
:
kubectl --kubeconfig $HOME/root-admin-kubeconfig create rolebinding
pa-cortex-alertmanager-viewer-binding -n platform-obs
--user=fop-platform-admin@example.com
--role=project-cortex-alertmanager-viewer
c. Root-Admin Operator Aplikasi (AO) - Project Cortex Alertmanager Viewer: Project: $AO_PROJECT Nama Pengguna AO: $AO_USER
kubectl --kubeconfig $HOME/root-admin-kubeconfig create rolebinding
project-cortex-alertmanager-viewer-binding -n $AO_PROJECT
--user=$AO_USER
--role=project-cortex-alertmanager-viewer
Setelah binding peran dibuat, Anda dapat mengakses Alertmanager yang sesuai dengan nama pengguna login Anda.
Memverifikasi binding peran
kubectl --kubeconfig $HOME/org-1-admin-kubeconfig get rolebinding -n platform-obs
Untuk mengetahui informasi tentang cara menyetel binding peran dari konsol GDC, lihat Memberikan akses ke resource.
Endpoint Cortex
URL berikut adalah endpoint Cortex untuk mengakses pemberitahuan:
https://GDC_URL/PROJECT_NAME/cortex/alertmanager/
Ganti kode berikut:
- GDC_URL: URL organisasi Anda di GDC.
- PROJECT_NAME: Nama project Anda.
Panggil endpoint API
Ikuti langkah-langkah berikut untuk menjangkau endpoint Cortex API dari CLI dan mengkueri pemberitahuan:
- Pastikan Anda memenuhi prasyarat.
- Buka CLI.
Gunakan alat
curl
untuk memanggil URL endpoint Cortex dan memperluas URL menggunakan https://prometheus.io/docs/prometheus/latest/querying/api/#alertmanagers standar untuk mengkueri pemberitahuan. Contoh:curl https://console.org-1.zone1.google.gdch.test/alice/cortex/alertmanager/api/v1/alertmanagers
Anda akan mendapatkan output di CLI setelah menjalankan perintah. Format respons API adalah JSON.