Jalur Pembelajaran: Aplikasi skalabel - Memantau dengan Prometheus

Rangkaian tutorial ini ditujukan untuk administrator IT dan Operator yang ingin men-deploy, menjalankan, dan mengelola lingkungan aplikasi modern yang berjalan di edisi Google Kubernetes Engine (GKE) Enterprise. Seiring Anda menyelesaikan rangkaian tutorial ini, Anda akan mempelajari cara mengonfigurasi pemantauan dan pemberitahuan, menskalakan beban kerja, dan menyimulasikan kegagalan, semuanya menggunakan aplikasi microservice contoh Cymbal Bank:

Membuat cluster dan men-deploy aplikasi contoh
Memantau dengan Google Cloud Managed Service for Prometheus (tutorial ini)
Menskalakan beban kerja
Menyimulasikan kegagalan
Memusatkan manajemen perubahan

Ringkasan dan tujuan

Aplikasi contoh Cymbal Bank yang digunakan dalam rangkaian tutorial ini terdiri dari sejumlah microservice yang semuanya berjalan di cluster GKE. Masalah pada salah satu layanan ini dapat mengakibatkan pengalaman buruk bagi pelanggan bank, seperti tidak dapat mengakses aplikasi bank. Mempelajari masalah pada layanan sesegera mungkin berarti Anda dapat mulai memecahkan masalah dan menyelesaikannya dengan cepat.

Dalam tutorial ini, Anda akan mempelajari cara memantau beban kerja di cluster GKE menggunakan Google Cloud Managed Service for Prometheus dan Cloud Monitoring. Anda akan mempelajari cara menyelesaikan tugas-tugas berikut:

Membuat webhook Slack untuk Alertmanager.
Konfigurasikan Prometheus untuk memantau status aplikasi berbasis microservices contoh.
Simulasikan pemadaman layanan dan tinjau pemberitahuan yang dikirim menggunakan webhook Slack.

Biaya

Mengaktifkan GKE Enterprise dan men-deploy aplikasi contoh Cymbal Bank untuk rangkaian tutorial ini berarti Anda akan dikenai biaya per cluster untuk GKE Enterprise sebesar Google Cloud seperti yang tercantum di halaman Harga kami hingga Anda menonaktifkan GKE Enterprise atau menghapus project.

Anda juga bertanggung jawab atas biaya Google Cloud lainnya yang timbul saat menjalankan aplikasi contoh Cymbal Bank, seperti tagihan untuk VM Compute Engine dan Cloud Monitoring.

Sebelum memulai

Untuk mempelajari cara memantau beban kerja, Anda harus menyelesaikan tutorial pertama untuk membuat cluster GKE yang menggunakan Autopilot dan men-deploy aplikasi contoh berbasis microservice Cymbal Bank.

Sebaiknya selesaikan rangkaian tutorial ini untuk Cymbal Bank secara berurutan. Saat menyelesaikan serangkaian tutorial, Anda akan mempelajari keterampilan baru dan menggunakan produk dan layanan Google Cloud tambahan.

Untuk menunjukkan contoh cara cluster GKE Autopilot dapat menggunakan Google Cloud Managed Service for Prometheus untuk membuat pesan ke platform komunikasi, tutorial ini menggunakan Slack. Dalam deployment produksi Anda sendiri, Anda dapat menggunakan alat komunikasi pilihan organisasi untuk memproses dan mengirimkan pesan saat cluster GKE Anda mengalami masalah.

Bergabung ke ruang kerja Slack, dengan mendaftar menggunakan email Anda atau menggunakan undangan yang dikirim oleh Admin Workspace.

Catatan: Jika Anda bukan Admin untuk ruang kerja Slack, Anda mungkin memerlukan persetujuan dari Admin Workspace sebelum aplikasi di-deploy ke ruang kerja.

Membuat aplikasi Slack

Bagian penting dari penyiapan pemantauan adalah memastikan bahwa Anda diberi tahu saat peristiwa yang dapat ditindaklanjuti seperti pemadaman terjadi. Pola umum untuk hal ini adalah dengan mengirim notifikasi ke alat komunikasi seperti Slack, yang Anda gunakan dalam tutorial ini. Slack menyediakan fitur webhook yang memungkinkan aplikasi eksternal, seperti deployment produksi Anda, membuat pesan. Anda dapat menggunakan alat komunikasi lain di organisasi untuk memproses dan mengirimkan pesan saat cluster GKE mengalami masalah.

Cluster GKE yang menggunakan Autopilot menyertakan instance Google Cloud Managed Service for Prometheus. Instance ini dapat menghasilkan pemberitahuan saat terjadi sesuatu pada aplikasi Anda. Notifikasi ini kemudian dapat menggunakan webhook Slack untuk mengirim pesan ke ruang kerja Slack sehingga Anda menerima notifikasi prompt saat ada masalah.

Untuk menyiapkan notifikasi Slack berdasarkan pemberitahuan yang dihasilkan oleh Prometheus, Anda harus membuat aplikasi Slack, mengaktifkan Webhook Masuk untuk aplikasi, dan menginstal aplikasi ke ruang kerja Slack.

Login ke Slack menggunakan nama ruang kerja dan kredensial akun Slack Anda.
Membuat aplikasi Slack baru
1. Dalam dialog Create an app(Buat aplikasi), klik From scratch (Mulai dari langkah awal).
2. Tentukan App Name dan pilih ruang kerja Slack Anda.
3. Klik Create App.
4. Di bagian Tambahkan fitur dan fungsi, klik Webhook Masuk.
5. Klik tombol Aktifkan Webhook Masuk.
6. Di bagian Webhook URLs for Your Workspace, klik Add New Webhook to Workspace.
7. Di halaman otorisasi yang terbuka, pilih saluran yang akan menerima notifikasi.
8. Klik Izinkan.
9. Webhook untuk aplikasi Slack Anda akan ditampilkan di bagian Webhook URLs for Your Workspace. Simpan URL untuk nanti.

Mengonfigurasi Alertmanager

Di Prometheus, Alertmanager memproses peristiwa pemantauan yang dihasilkan deployment Anda. Alertmanager dapat melewati peristiwa duplikat, mengelompokkan peristiwa terkait, dan mengirim notifikasi, seperti menggunakan webhook Slack. Bagian ini menunjukkan cara mengonfigurasi Alertmanager untuk menggunakan webhook Slack baru. Menentukan cara Anda ingin Alertmanager memproses peristiwa yang akan dikirim akan dibahas di bagian tutorial berikutnya, Mengonfigurasi Prometheus.

Untuk mengonfigurasi Alertmanager agar menggunakan webhook Slack, selesaikan langkah-langkah berikut:

Ubah direktori ke repositori Git yang menyertakan semua contoh manifes untuk Cymbal Bank dari tutorial sebelumnya:
```
cd ~/bank-of-anthos/
```
Jika perlu, ubah lokasi direktori ke tempat Anda sebelumnya meng-clone repositori.
Perbarui manifes YAML contoh Alertmanager dengan URL webhook aplikasi Slack Anda:
```
sed -i "s@SLACK_WEBHOOK_URL@SLACK_WEBHOOK_URL@g" "extras/prometheus/gmp/alertmanager.yaml"
```
Ganti SLACK_WEBHOOK_URL dengan URL webhook dari bagian sebelumnya.
Untuk menggunakan URL webhook Slack unik secara dinamis tanpa perubahan pada kode aplikasi, Anda dapat menggunakan Secret Kubernetes. Kode aplikasi membaca nilai Secret ini. Dalam aplikasi yang lebih kompleks, kemampuan ini memungkinkan Anda mengubah, atau merotasi, nilai untuk alasan keamanan atau kepatuhan.

Buat secret Kubernetes untuk Alertmanager menggunakan contoh manifes YAML yang berisi URL webhook Slack:
```
kubectl create secret generic alertmanager \
  -n gmp-public \
  --from-file=extras/prometheus/gmp/alertmanager.yaml
```
Prometheus dapat menggunakan eksportir untuk mendapatkan metrik dari aplikasi tanpa perubahan kode. Pengekspor blackbox Prometheus memungkinkan Anda memeriksa endpoint seperti HTTP atau HTTPS. Eksporter ini berfungsi dengan baik jika Anda tidak ingin, atau tidak dapat, mengekspos cara kerja internal aplikasi Anda ke Prometheus. Pengekspor blackbox Prometheus dapat berfungsi tanpa perubahan pada kode aplikasi Anda untuk mengekspos metrik ke Prometheus.

Deploy Prometheus blackbox exporter ke cluster Anda:
```
kubectl apply -f extras/prometheus/gmp/blackbox-exporter.yaml
```

Mengonfigurasi Prometheus

Setelah mengonfigurasi Alertmanager untuk menggunakan webhook Slack, Anda perlu memberi tahu Prometheus apa yang harus dipantau di Cymbal Bank, dan jenis peristiwa yang ingin dikirimi notifikasi oleh Alertmanager menggunakan webhook Slack.

Dalam aplikasi contoh Cymbal Bank yang Anda gunakan dalam tutorial ini, ada berbagai microservice yang berjalan di cluster GKE. Salah satu masalah yang mungkin ingin Anda ketahui sesegera mungkin adalah jika salah satu layanan Cymbal Bank berhenti merespons permintaan secara normal, yang mungkin berarti pelanggan Anda tidak dapat mengakses aplikasi. Anda dapat mengonfigurasi Prometheus untuk merespons peristiwa berdasarkan kebijakan organisasi Anda.

Probe

Anda dapat mengonfigurasi pemeriksaan Prometheus untuk resource yang ingin dipantau. Prober ini dapat menghasilkan pemberitahuan berdasarkan respons yang diterima probe. Dalam aplikasi contoh Cymbal Bank, Anda dapat menggunakan probe HTTP yang memeriksa kode respons level 200 dari Layanan. Respons tingkat HTTP 200 menunjukkan bahwa Layanan berjalan dengan benar dan dapat merespons permintaan. Jika ada masalah dan probe tidak menerima respons yang diharapkan, Anda dapat menentukan aturan Prometheus yang menghasilkan pemberitahuan untuk Alertmanager guna memproses dan melakukan tindakan tambahan.

Buat beberapa probe Prometheus untuk memantau status HTTP dari berbagai microservice aplikasi contoh Cymbal Bank. Tinjau manifes contoh berikut:

# Copyright 2023 Google LLC
#
# Licensed under the Apache License, Version 2.0 (the "License");
# you may not use this file except in compliance with the License.
# You may obtain a copy of the License at
#
#      http://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an "AS IS" BASIS,
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
# See the License for the specific language governing permissions and
# limitations under the License.
---
apiVersion: monitoring.googleapis.com/v1
kind: PodMonitoring
metadata:
  name: frontend-probe
  labels:
    app.kubernetes.io/name: frontend-probe
spec:
  selector:
    matchLabels:
      app: blackbox-exporter
  endpoints:
  - port: metrics
    path: /probe
    params:
      target: [frontend:80]
      module: [http_2xx]
    timeout: 30s
    interval: 60s
---
apiVersion: monitoring.googleapis.com/v1
kind: PodMonitoring
metadata:
  name: userservice-probe
  labels:
    app.kubernetes.io/name: userservice-probe
spec:
  selector:
    matchLabels:
      app: blackbox-exporter
  endpoints:
  - port: metrics
    path: /probe
    params:
      target: [userservice:8080/ready]
      module: [http_2xx]
    timeout: 30s
    interval: 60s
---
apiVersion: monitoring.googleapis.com/v1
kind: PodMonitoring
metadata:
  name: balancereader-probe
  labels:
    app.kubernetes.io/name: balancereader-probe
spec:
  selector:
    matchLabels:
      app: blackbox-exporter
  endpoints:
  - port: metrics
    path: /probe
    params:
      target: [balancereader:8080/ready]
      module: [http_2xx]
    timeout: 30s
    interval: 60s
---
apiVersion: monitoring.googleapis.com/v1
kind: PodMonitoring
metadata:
  name: contacts-probe
  labels:
    app.kubernetes.io/name: contacts-probe
spec:
  selector:
    matchLabels:
      app: blackbox-exporter
  endpoints:
  - port: metrics
    path: /probe
    params:
      target: [contacts:8080/ready]
      module: [http_2xx]
    timeout: 30s
    interval: 60s
---
apiVersion: monitoring.googleapis.com/v1
kind: PodMonitoring
metadata:
  name: ledgerwriter-probe
  labels:
    app.kubernetes.io/name: ledgerwriter-probe
spec:
  selector:
    matchLabels:
      app: blackbox-exporter
  endpoints:
  - port: metrics
    path: /probe
    params:
      target: [ledgerwriter:8080/ready]
      module: [http_2xx]
    timeout: 30s
    interval: 60s
---
apiVersion: monitoring.googleapis.com/v1
kind: PodMonitoring
metadata:
  name: transactionhistory-probe
  labels:
    app.kubernetes.io/name: transactionhistory-probe
spec:
  selector:
    matchLabels:
      app: blackbox-exporter
  endpoints:
  - port: metrics
    path: /probe
    params:
      target: [transactionhistory:8080/ready]
      module: [http_2xx]
    timeout: 30s
    interval: 60s

Seperti yang ditunjukkan dalam file manifes ini, praktik terbaiknya adalah setiap PodMonitoring Prometheus liveness probe memantau setiap Deployment secara terpisah.

Untuk membuat pemeriksaan keaktifan Prometheus, terapkan manifes ke cluster Anda:
```
kubectl apply -f extras/prometheus/gmp/probes.yaml
```

Aturan

Prometheus perlu mengetahui tindakan yang ingin Anda lakukan berdasarkan respons yang diterima probe yang Anda buat di langkah sebelumnya. Anda menentukan respons ini menggunakan aturan Prometheus.

Dalam tutorial ini, Anda akan membuat aturan Prometheus untuk membuat pemberitahuan, bergantung pada respons terhadap pemeriksaan keaktifan. Alertmanager kemudian memproses output aturan ini untuk membuat notifikasi menggunakan webhook Slack.

Buat aturan yang menghasilkan peristiwa berdasarkan respons terhadap probe keaktifan. Tinjau manifes contoh berikut:

# Copyright 2023 Google LLC
#
# Licensed under the Apache License, Version 2.0 (the "License");
# you may not use this file except in compliance with the License.
# You may obtain a copy of the License at
#
#      http://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an "AS IS" BASIS,
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
# See the License for the specific language governing permissions and
# limitations under the License.
---
apiVersion: monitoring.googleapis.com/v1
kind: Rules
metadata:
  name: uptime-rule
spec:
  groups:
  - name: Micro services uptime
    interval: 60s
    rules:
    - alert: BalancereaderUnavailable
      expr: probe_success{job="balancereader-probe"} == 0
      for: 1m
      annotations:
        summary: Balance Reader Service is unavailable
        description: Check Balance Reader pods and its logs
      labels:
        severity: 'critical'
    - alert: ContactsUnavailable
      expr: probe_success{job="contacts-probe"} == 0
      for: 1m
      annotations:
        summary: Contacts Service is unavailable
        description: Check Contacts pods and its logs
      labels:
        severity: 'warning'
    - alert: FrontendUnavailable
      expr: probe_success{job="frontend-probe"} == 0
      for: 1m
      annotations:
        summary: Frontend Service is unavailable
        description: Check Frontend pods and its logs
      labels:
        severity: 'critical'
    - alert: LedgerwriterUnavailable
      expr: probe_success{job="ledgerwriter-probe"} == 0
      for: 1m
      annotations:
        summary: Ledger Writer Service is unavailable
        description: Check Ledger Writer pods and its logs
      labels:
        severity: 'critical'
    - alert: TransactionhistoryUnavailable
      expr: probe_success{job="transactionhistory-probe"} == 0
      for: 1m
      annotations:
        summary: Transaction History Service is unavailable
        description: Check Transaction History pods and its logs
      labels:
        severity: 'critical'
    - alert: UserserviceUnavailable
      expr: probe_success{job="userservice-probe"} == 0
      for: 1m
      annotations:
        summary: User Service is unavailable
        description: Check User Service pods and its logs
      labels:
        severity: 'critical'

Manifes ini menjelaskan PrometheusRule dan mencakup kolom berikut:

spec.groups.[*].name: nama grup aturan.
spec.groups.[*].interval: seberapa sering aturan dalam grup dievaluasi.
spec.groups.[*].rules[*].alert: nama pemberitahuan.
spec.groups.[*].rules[*].expr: ekspresi PromQL yang akan dievaluasi.
spec.groups.[*].rules[*].for: jumlah waktu yang harus ditampilkan melalui pemberitahuan sebelum dianggap diaktifkan.
spec.groups.[*].rules[*].annotations: daftar anotasi yang akan ditambahkan ke setiap pemberitahuan. Ini hanya valid untuk aturan pemberitahuan.
spec.groups.[*].rules[*].labels: label yang akan ditambahkan atau ditimpa.

Untuk membuat aturan, terapkan manifes ke cluster Anda:
```
kubectl apply -f extras/prometheus/gmp/rules.yaml
```

Menyimulasikan pemadaman layanan

Untuk memastikan konfigurasi pemeriksaan, aturan, dan Alertmanager Prometheus Anda sudah benar, Anda harus menguji apakah pemberitahuan dan pemberitahuan dikirim saat ada masalah. Jika tidak menguji alur ini, Anda mungkin tidak menyadari bahwa layanan produksi Anda mengalami gangguan saat terjadi masalah.

Untuk menyimulasikan pemadaman layanan salah satu microservice, skalakan Deployment contacts ke nol. Tanpa instance Layanan, aplikasi contoh Cymbal Bank tidak dapat membaca informasi kontak untuk pelanggan:
```
kubectl scale deployment contacts --replicas 0
```
GKE mungkin memerlukan waktu hingga 5 menit untuk menskalakan Deployment.

Periksa status Deployment di cluster Anda dan pastikan Deployment contacts diskalakan dengan benar:

kubectl get deployments

Dalam contoh output berikut, Deployment contacts telah berhasil diskalasikan ke instance 0:

NAME                 READY   UP-TO-DATE   AVAILABLE   AGE
balancereader        1/1     1            1           17m
blackbox-exporter    1/1     1            1           5m7s
contacts             0/0     0            0           17m
frontend             1/1     1            1           17m
ledgerwriter         1/1     1            1           17m
loadgenerator        1/1     1            1           17m
transactionhistory   1/1     1            1           17m
userservice          1/1     1            1           17m

Setelah Deployment contacts diskalakan ke nol, probe Prometheus akan melaporkan kode error HTTP. Error HTTP ini menghasilkan pemberitahuan untuk Alertmanager yang kemudian akan diproses.

Periksa saluran ruang kerja Slack Anda untuk menemukan pesan notifikasi pemadaman layanan dengan teks yang mirip dengan contoh berikut:
```
[FIRING:1] ContactsUnavailable
Severity: Warning :warning:
Summary: Contacts Service is unavailable
Namespace: default
Check Contacts pods and it's logs
```
Dalam skenario pemadaman layanan yang sebenarnya, setelah menerima notifikasi di Slack, Anda akan mulai memecahkan masalah dan memulihkan layanan. Untuk tutorial ini, simulasikan proses ini dan pulihkan Deployment contacts dengan menskalakan kembali jumlah replika:
```
kubectl scale deployment contacts --replicas 1
```
Mungkin perlu waktu hingga 5 menit untuk menskalakan Deployment dan agar probe Prometheus menerima respons HTTP 200. Anda memeriksa status Deployment menggunakan perintah kubectl get deployments.

Saat respons yang sehat terhadap pemeriksaan Prometheus diterima, Alertmanager akan menghapus peristiwa. Anda akan melihat pesan pemberitahuan resolusi pemberitahuan di saluran ruang kerja Slack yang mirip dengan contoh berikut:
```
[RESOLVED] ContactsUnavailable
Severity: Warning :warning:
Summary: Contacts Service is unavailable
Namespace: default
Check Contacts pods and it's logs
```

Pembersihan

Jika Anda ingin beristirahat sebelum melanjutkan ke tutorial berikutnya dan menghindari biaya pada akun Google Cloud untuk resource yang digunakan dalam tutorial ini, hapus project yang Anda buat.

Perhatian: Menghapus project memiliki efek berikut:

Semua hal dalam project akan dihapus. Jika menggunakan project yang sudah ada untuk tugas dalam dokumen ini, saat Anda menghapusnya, pekerjaan lain yang telah Anda lakukan dalam project tersebut juga akan terhapus.
Project ID kustom hilang. Saat membuat project ini, Anda mungkin telah membuat project ID kustom yang ingin digunakan di masa mendatang. Untuk mempertahankan URL yang menggunakan project ID, seperti URL appspot.com, hapus resource yang dipilih di dalam project, bukan menghapus seluruh project.

Jika Anda berencana mempelajari beberapa arsitektur, tutorial atau panduan memulai, dengan menggunakan kembali project dapat membantu Anda agar tidak melampaui batas kuota project.

In the Google Cloud console, go to the Manage resources page.
Go to Manage resources
In the project list, select the project that you want to delete, and then click Delete.
In the dialog, type the project ID, and then click Shut down to delete the project.

Langkah berikutnya

Pelajari cara menskalakan deployment di GKE Enterprise dalam tutorial berikutnya.