Menggunakan dasbor pemantauan

Cloud Composer 1 | Cloud Composer 2

Halaman ini menjelaskan cara mengakses dan menggunakan dasbor pemantauan untuk lingkungan Cloud Composer.

Mengakses dasbor pemantauan

Dasbor pemantauan berisi metrik dan diagram untuk memantau tren dalam DAG yang dijalankan di lingkungan Anda, serta mengidentifikasi masalah pada komponen Airflow dan resource Cloud Composer.

Untuk mengakses dasbor pemantauan lingkungan Anda:

  1. Di konsol Google Cloud, buka halaman Environments.

    Buka Lingkungan

  2. Pada daftar lingkungan, klik nama lingkungan Anda. Halaman Detail lingkungan akan terbuka.

  3. Buka tab Pemantauan.

Menyiapkan pemberitahuan untuk metrik

Anda dapat menyiapkan pemberitahuan untuk metrik dengan mengklik ikon lonceng di sudut kartu pemantauan.

Buat pemberitahuan untuk metrik yang ditampilkan di dasbor pemantauan
Gambar 1. Buat pemberitahuan untuk metrik yang ditampilkan di dasbor pemantauan (klik untuk memperbesar)

Melihat metrik di Monitoring

Anda dapat melihat metrik lebih dekat dengan melihatnya di Monitoring.

Untuk membukanya dari dasbor pemantauan Cloud Composer, klik ikon tiga titik di pojok kanan atas kartu metrik, lalu pilih View in Metrics Explorer.

Melihat metrik dari dasbor pemantauan di Metrics Explorer
Gambar 2. Lihat metrik dari dasbor pemantauan di Metrics Explorer (klik untuk memperbesar)

Deskripsi metrik

Setiap lingkungan Cloud Composer memiliki dasbor pemantauannya sendiri. Metrik yang ditampilkan di dasbor pemantauan untuk lingkungan tertentu hanya melacak pengoperasian DAG, komponen Airflow, dan detail lingkungan untuk lingkungan ini saja. Misalnya, jika Anda memiliki dua lingkungan, dasbor tidak menggabungkan metrik dari kedua lingkungan tersebut.

Ringkasan lingkungan

Metrik lingkungan Deskripsi
Kesehatan lingkungan (DAG pemantauan aliran udara) Linimasa yang menunjukkan kondisi deployment Composer. Status hijau hanya mencerminkan status deployment Composer. Ini tidak berarti bahwa semua komponen Airflow beroperasi dan DAG dapat berjalan.
Heartbeat scheduler Linimasa yang menunjukkan detak jantung penjadwal Airflow. Periksa area berwarna merah untuk mengidentifikasi masalah penjadwal Airflow. Jika lingkungan Anda memiliki lebih dari satu penjadwal, maka status detak jantung sehat selama setidaknya satu penjadwal merespons.
Kesehatan server web Linimasa yang menunjukkan status server web Airflow. Status ini dibuat berdasarkan kode status HTTP yang ditampilkan oleh server web Airflow.
Kesehatan database Linimasa yang menunjukkan status koneksi ke instance Cloud SQL yang menghosting Airflow DB.
Operasi lingkungan Linimasa yang menunjukkan operasi yang mengubah lingkungan, seperti menjalankan update konfigurasi atau memuat snapshot lingkungan.
Operasi pemeliharaan Linimasa yang menunjukkan periode saat operasi pemeliharaan dilakukan di cluster lingkungan.
Dependensi lingkungan Linimasa yang menunjukkan status keterjangkauan dan pemeriksaan izin untuk operasi lingkungan.

Statistik DAG

Metrik lingkungan Deskripsi
Operasi DAG berhasil Jumlah total operasi yang berhasil untuk semua DAG di lingkungan selama rentang waktu yang dipilih. Jika jumlah operasi DAG yang berhasil turun di bawah tingkat yang diharapkan, hal ini mungkin menunjukkan kegagalan (lihat Jalankan DAG yang gagal) atau masalah penjadwalan.
DAG gagal dijalankan Tugas yang gagal Jumlah total operasi yang gagal untuk semua DAG di lingkungan selama rentang waktu yang dipilih. Jumlah total tugas yang gagal di lingkungan selama rentang waktu yang dipilih. Tugas yang gagal tidak selalu menyebabkan pengoperasian DAG gagal, tetapi dapat menjadi sinyal yang berguna untuk memecahkan masalah error DAG.
Operasi DAG selesai Jumlah keberhasilan dan kegagalan DAG untuk interval dalam rentang waktu yang dipilih. Hal ini dapat membantu mengidentifikasi masalah sementara saat DAG dijalankan dan menghubungkannya dengan peristiwa lain, seperti penghapusan Pod Pekerja.
Tugas yang diselesaikan Jumlah tugas yang diselesaikan di lingkungan dengan perincian tugas yang berhasil dan gagal.
Median dari durasi berjalan DAG Durasi median operasi DAG. Diagram ini dapat membantu mengidentifikasi masalah performa dan mengenali tren dalam durasi DAG.
Tugas Airflow Jumlah tugas dalam status berjalan, dalam antrean, atau ditangguhkan pada waktu tertentu. Tugas Airflow adalah tugas yang berada dalam status antrean di Airflow. Tugas ini dapat masuk ke antrean broker Celery atau Kubernetes Executor. Tugas dalam antrean seledri adalah contoh tugas yang dimasukkan ke dalam antrean broker Celery.
Tugas zombie dihentikan Jumlah tugas zombie yang dihentikan dalam jangka waktu singkat. Tugas zombie sering disebabkan oleh penghentian proses Airflow secara eksternal. Penjadwal Airflow membunuh tugas zombie secara berkala, yang tercermin dalam diagram ini.
Ukuran bag DAG Jumlah DAG yang di-deploy ke bucket lingkungan Anda dan diproses oleh Airflow pada waktu tertentu. Hal ini dapat berguna saat menganalisis bottleneck performa. Misalnya, peningkatan jumlah deployment DAG dapat menurunkan performa karena beban yang berlebihan.
Error prosesor DAG Jumlah error dan waktu tunggu per detik yang ditemukan saat memproses file DAG. Nilai ini menunjukkan frekuensi error yang dilaporkan oleh pemroses DAG (nilainya berbeda dari jumlah DAG yang gagal).
Total waktu penguraian untuk semua DAG Diagram yang menunjukkan total waktu yang diperlukan Airflow untuk memproses semua DAG di lingkungan. Peningkatan waktu penguraian dapat memengaruhi efisiensi penjadwalan. Lihat Perbedaan antara waktu penguraian DAG dan waktu eksekusi DAG untuk mengetahui informasi selengkapnya.

Statistik Scheduler

Metrik lingkungan Deskripsi
Hearbeat Scheduler Lihat Ringkasan lingkungan.
Total penggunaan CPU penjadwal Total penggunaan inti vCPU oleh container yang berjalan di semua pod penjadwal Airflow, dan batas vCPU gabungan untuk semua penjadwal.
Total penggunaan memori penjadwal Total penggunaan memori oleh container yang berjalan di semua pod penjadwal Airflow, dan batas vCPU gabungan untuk semua penjadwal.
Total penggunaan disk penjadwal Total penggunaan kapasitas disk oleh container yang berjalan di semua pod penjadwal Airflow, dan batas kapasitas disk gabungan untuk semua penjadwal.
Penampung penjadwalan dimulai ulang Jumlah total mulai ulang untuk setiap container penjadwal.
Penghapusan Pod Scheduler Jumlah penghapusan Pod penjadwal Airflow. Penghapusan pod dapat terjadi saat Pod tertentu di cluster lingkungan Anda mencapai batas resource-nya.

Statistik pekerja

Metrik lingkungan Deskripsi
Total penggunaan CPU pekerja Total penggunaan inti vCPU oleh container yang berjalan di semua pod pekerja Airflow, dan batas vCPU gabungan untuk semua pekerja.
Total penggunaan memori pekerja Total penggunaan memori oleh container yang berjalan di semua pod pekerja Airflow, dan batas vCPU gabungan untuk semua pekerja.
Total penggunaan disk pekerja Total penggunaan kapasitas disk oleh container yang berjalan di semua pod pekerja Airflow, dan batas kapasitas disk gabungan untuk semua pekerja.
Pekerja yang aktif Jumlah pekerja saat ini di lingkungan Anda. Di Cloud Composer 2, lingkungan Anda akan otomatis menskalakan jumlah pekerja aktif.
Container pekerja dimulai ulang Jumlah total mulai ulang untuk setiap container pekerja.
Penghapusan Pod Pekerja Jumlah penghapusan Pod pekerja Airflow. Penghapusan pod dapat terjadi saat Pod tertentu di cluster lingkungan Anda mencapai batas resource-nya. Jika Pod pekerja Airflow dikeluarkan, semua instance tugas yang berjalan di Pod tersebut akan terganggu, lalu ditandai sebagai gagal oleh Airflow.
Tugas Airflow Lihat Ringkasan lingkungan.
Waktu tunggu publikasi broker seledri Jumlah total error AirflowTaskTimeout yang muncul saat memublikasikan tugas ke Celery Brokers. Metrik ini sesuai dengan metrik Airflow celery.task_timeout_error.
Kegagalan perintah eksekusi Celery Jumlah total kode keluar bukan nol dari tugas Celery. Metrik ini sesuai dengan metrik Airflow celery.execute_command.failure.
Tugas yang dihentikan sistem Jumlah tugas alur kerja saat runner tugas dihentikan dengan SIGKILL (misalnya karena memori pekerja atau masalah detak jantung).

Statistik server web

Metrik lingkungan Deskripsi
Kesehatan server web Lihat Ringkasan lingkungan.
Penggunaan CPU server web Total penggunaan inti vCPU oleh container yang berjalan di semua instance server web Airflow, dan batas gabungan vCPU untuk semua server web.
Penggunaan memori server web Total penggunaan memori menurut container yang berjalan di semua instance server web Airflow, dan batas vCPU gabungan untuk semua server web.
Total penggunaan disk server web Total penggunaan kapasitas disk menurut container yang berjalan di semua instance server web Airflow, dan batas kapasitas disk gabungan untuk semua server web.

Statistik database SQL

Metrik lingkungan Deskripsi
Kesehatan database Lihat Ringkasan lingkungan.
Penggunaan CPU database Penggunaan inti CPU oleh instance database Cloud SQL di lingkungan Anda.
Penggunaan memori database Total penggunaan memori oleh instance database Cloud SQL di lingkungan Anda.
Penggunaan disk database Total penggunaan memori oleh instance database Cloud SQL di lingkungan Anda.
Koneksi database Jumlah total koneksi aktif ke database, dan batas total koneksi.
Ukuran database metadata Airflow Ukuran database metadata Airflow. Untuk informasi selengkapnya tentang mengelola database metadata Airflow, lihat Membersihkan database Airflow

Perbedaan antara waktu penguraian DAG dan waktu eksekusi DAG

Dasbor pemantauan lingkungan menampilkan total waktu yang diperlukan untuk mengurai semua DAG di lingkungan Cloud Composer Anda dan waktu rata-rata yang diperlukan untuk menjalankan DAG.

Mengurai DAG dan menjadwalkan tugas dari DAG untuk dieksekusi adalah dua operasi terpisah yang dilakukan oleh penjadwal Airflow.

Penguraian DAG dan penjadwalan tugas yang dilakukan oleh penjadwal Airflow
Gambar 3. Penguraian DAG dan penjadwalan tugas yang dilakukan oleh penjadwal Airflow (klik untuk memperbesar)

Waktu penguraian DAG adalah jumlah waktu yang diperlukan Airflow Scheduler untuk membaca file DAG dan mengurainya.

Sebelum penjadwal Airflow dapat menjadwalkan tugas apa pun dari DAG, penjadwal harus mengurai file DAG untuk menemukan struktur DAG dan tugas yang ditentukan. Setelah file DAG diuraikan, penjadwal dapat mulai menjadwalkan tugas dari DAG.

Waktu eksekusi DAG adalah jumlah semua waktu eksekusi tugas untuk DAG.

Untuk melihat waktu yang diperlukan untuk menjalankan tugas Airflow tertentu dari DAG, di Airflow web interface, pilih DAG dan buka tab Task duration. Tab ini menampilkan waktu eksekusi tugas untuk jumlah operasi DAG terakhir yang ditentukan.