Menggunakan dasbor pemantauan

Cloud Composer 1 | Cloud Composer 2 | Cloud Composer 3

Halaman ini menjelaskan cara mengakses dan menggunakan dasbor pemantauan untuk lingkungan Cloud Composer.

Mengakses dasbor pemantauan

Dasbor pemantauan berisi metrik dan diagram untuk memantau tren dalam DAG yang berjalan di lingkungan Anda, dan mengidentifikasi masalah pada komponen Airflow dan resource Cloud Composer.

Untuk mengakses dasbor pemantauan untuk lingkungan Anda:

  1. Di konsol Google Cloud, buka halaman Environments.

    Buka Lingkungan

  2. Di daftar lingkungan, klik nama lingkungan Anda. Halaman Environment details akan terbuka.

  3. Buka tab Monitoring.

Menyiapkan pemberitahuan untuk metrik

Anda dapat menyiapkan pemberitahuan untuk metrik dengan mengklik ikon lonceng di sudut kartu monitoring.

Membuat pemberitahuan untuk metrik yang ditampilkan di dasbor pemantauan
Gambar 1. Membuat pemberitahuan untuk metrik yang ditampilkan di dasbor pemantauan (klik untuk memperbesar)

Melihat metrik di Monitoring

Anda dapat melihat metrik lebih dekat dengan melihatnya di Monitoring.

Untuk membukanya dari dasbor pemantauan Cloud Composer, klik tiga titik di pojok kanan atas kartu metrik, lalu pilih Lihat di Metrics Explorer.

Melihat metrik dari dasbor pemantauan di Metrics Explorer
Gambar 2. Melihat metrik dari dasbor pemantauan di Metrics Explorer (klik untuk memperbesar)

Deskripsi metrik

Setiap lingkungan Cloud Composer memiliki dasbor pemantauannya sendiri. Metrik yang ditampilkan di dasbor pemantauan untuk lingkungan tertentu hanya melacak operasi DAG, komponen Airflow, dan detail lingkungan untuk lingkungan ini saja. Misalnya, jika Anda memiliki dua lingkungan, dasbor tidak akan menggabungkan metrik dari kedua lingkungan tersebut.

Ringkasan lingkungan

Metrik lingkungan Deskripsi
Kesehatan lingkungan (DAG pemantauan alur data) Linimasa yang menunjukkan kondisi deployment Composer. Status hijau hanya mencerminkan status deployment Composer. Hal ini tidak berarti semua komponen Airflow beroperasi dan DAG dapat berjalan.
Heartbeat scheduler Linimasa yang menampilkan heartbeat penjadwal Airflow. Periksa area merah untuk mengidentifikasi masalah penjadwal Airflow. Jika lingkungan Anda memiliki lebih dari satu penjadwal, status heartbeat akan sehat selama setidaknya satu penjadwal merespons.
Kesehatan server web Linimasa yang menampilkan status server web Airflow. Status ini dibuat berdasarkan kode status HTTP yang ditampilkan oleh server web Airflow.
Kesehatan database Linimasa yang menunjukkan status koneksi ke instance Cloud SQL yang menghosting DB Airflow.
Operasi lingkungan Linimasa yang menampilkan operasi yang mengubah lingkungan, seperti melakukan update konfigurasi atau memuat snapshot lingkungan.
Operasi pemeliharaan Linimasa yang menunjukkan periode saat operasi pemeliharaan dilakukan di cluster lingkungan.
Dependensi lingkungan Linimasa yang menampilkan status jangkauan dan pemeriksaan izin untuk operasi lingkungan.

Statistik DAG

Metrik lingkungan Deskripsi
Operasi DAG berhasil Jumlah total operasi yang berhasil untuk semua DAG di lingkungan selama rentang waktu yang dipilih. Jika jumlah operasi DAG yang berhasil turun di bawah level yang diharapkan, hal ini mungkin menunjukkan kegagalan (lihat Operasi DAG yang gagal) atau masalah penjadwalan.
Operasi DAG gagal Tugas gagal Jumlah total operasi yang gagal untuk semua DAG di lingkungan selama rentang waktu yang dipilih. Jumlah total tugas yang gagal di lingkungan selama rentang waktu yang dipilih. Tugas yang gagal tidak selalu menyebabkan DAG gagal dijalankan, tetapi dapat menjadi sinyal yang berguna untuk memecahkan masalah error DAG.
Operasi DAG selesai Jumlah keberhasilan dan kegagalan DAG untuk interval dalam rentang waktu yang dipilih. Hal ini dapat membantu mengidentifikasi masalah sementara pada operasi DAG dan menghubungkannya dengan peristiwa lain, seperti penghapusan Pod Pekerja.
Tugas yang diselesaikan Jumlah tugas yang diselesaikan di lingkungan dengan pengelompokan tugas yang berhasil dan gagal.
Median dari durasi berjalan DAG Durasi median operasi DAG. Diagram ini dapat membantu mengidentifikasi masalah performa dan menemukan tren dalam durasi DAG.
Tugas Airflow Jumlah tugas dalam status berjalan, dalam antrean, atau ditangguhkan pada waktu tertentu. Tugas Airflow adalah tugas yang berada dalam status antrean di Airflow, yang dapat masuk ke antrean broker Celery atau Kubernetes Executor. Tugas yang diantrekan Celery adalah instance tugas yang dimasukkan ke dalam antrean broker Celery.
Tugas zombie dihentikan Jumlah tugas zombie yang dihentikan dalam jangka waktu singkat. Tugas zombie sering kali disebabkan oleh penghentian eksternal proses Airflow. Penjadwal Airflow menghentikan tugas zombie secara berkala, yang tercermin dalam diagram ini.
Ukuran bag DAG Jumlah DAG yang di-deploy ke bucket lingkungan Anda dan diproses oleh Airflow pada waktu tertentu. Hal ini dapat membantu saat menganalisis bottleneck performa. Misalnya, peningkatan jumlah deployment DAG dapat menurunkan performa karena beban yang berlebihan.
Error pemroses DAG Jumlah error dan waktu tunggu per detik yang terjadi saat memproses file DAG. Nilai ini menunjukkan frekuensi error yang dilaporkan oleh pemroses DAG (nilai ini berbeda dengan jumlah DAG yang gagal).
Waktu penguraian total untuk semua DAG Diagram yang menunjukkan total waktu yang diperlukan Airflow untuk memproses semua DAG di lingkungan. Peningkatan waktu penguraian dapat memengaruhi efisiensi penjadwalan. Lihat Perbedaan antara waktu penguraian DAG dan waktu eksekusi DAG untuk mengetahui informasi selengkapnya.

Statistik penjadwal

Metrik lingkungan Deskripsi
Heartbeat penjadwal Lihat Ringkasan lingkungan.
Total penggunaan CPU penjadwal Total penggunaan core vCPU oleh penampung yang berjalan di semua pod penjadwal Airflow, dan batas vCPU gabungan untuk semua penjadwal.
Total penggunaan memori penjadwal Total penggunaan memori oleh penampung yang berjalan di semua pod penjadwal Airflow, dan batas vCPU gabungan untuk semua penjadwal.
Total penggunaan disk penjadwal Total penggunaan ruang disk oleh penampung yang berjalan di semua pod penjadwal Airflow, dan batas ruang disk gabungan untuk semua penjadwal.
Container scheduler dimulai ulang Jumlah total mulai ulang untuk setiap penampung penjadwal.
Penghapusan Pod Penjadwal Jumlah penghapusan Pod Airflow scheduler. Penghapusan Pod dapat terjadi saat Pod tertentu di cluster lingkungan Anda mencapai batas resource-nya.

Statistik pekerja

Metrik lingkungan Deskripsi
Total penggunaan CPU pekerja Total penggunaan core vCPU oleh penampung yang berjalan di semua pod pekerja Airflow, dan batas vCPU gabungan untuk semua pekerja.
Total penggunaan memori pekerja Total penggunaan memori oleh penampung yang berjalan di semua pod pekerja Airflow, dan batas vCPU gabungan untuk semua pekerja.
Total penggunaan disk pekerja Total penggunaan ruang disk oleh penampung yang berjalan di semua pod pekerja Airflow, dan batas ruang disk gabungan untuk semua pekerja.
Pekerja yang aktif Jumlah pekerja saat ini di lingkungan Anda. Di Cloud Composer 2, lingkungan Anda akan otomatis menskalakan jumlah pekerja aktif.
Mulai ulang penampung pekerja Jumlah total mulai ulang untuk setiap penampung pekerja.
Penghapusan Pod Pekerja Jumlah penghapusan Pod pekerja Airflow. Penghapusan Pod dapat terjadi saat Pod tertentu di cluster lingkungan Anda mencapai batas resource-nya. Jika Pod pekerja Airflow dihapus, semua instance tugas yang berjalan di Pod tersebut akan terganggu, dan kemudian ditandai sebagai gagal oleh Airflow.
Tugas Airflow Lihat Ringkasan lingkungan.
Waktu tunggu publikasi broker Celery Jumlah total error AirflowTaskTimeout yang ditampilkan saat memublikasikan tugas ke Celery Brokers. Metrik ini sesuai dengan metrik Alur Data celery.task_timeout_error.
Kegagalan perintah eksekusi Celery Jumlah total kode keluar non-nol dari tugas Celery. Metrik ini sesuai dengan metrik Aliran Data celery.execute_command.failure.
Tugas yang dihentikan sistem Jumlah tugas alur kerja saat runner tugas dihentikan dengan SIGKILL (misalnya karena masalah memori pekerja atau heartbeat).

Statistik server web

Metrik lingkungan Deskripsi
Kesehatan server web Lihat Ringkasan lingkungan.
Penggunaan CPU server web Total penggunaan core vCPU oleh penampung yang berjalan di semua instance server web Airflow, dan batas vCPU gabungan untuk semua server web.
Penggunaan memori server web Total penggunaan memori oleh penampung yang berjalan di semua instance server web Airflow, dan batas vCPU gabungan untuk semua server web.
Total penggunaan disk server web Total penggunaan kapasitas disk oleh penampung yang berjalan di semua instance server web Airflow, dan batas kapasitas disk gabungan untuk semua server web.

Statistik database SQL

Metrik lingkungan Deskripsi
Kesehatan database Lihat Ringkasan lingkungan.
Penggunaan CPU database Penggunaan core CPU oleh instance database Cloud SQL di lingkungan Anda.
Penggunaan memori database Total penggunaan memori oleh instance database Cloud SQL di lingkungan Anda.
Penggunaan disk database Total penggunaan kapasitas disk oleh instance database Cloud SQL di lingkungan Anda. Metrik ini berlaku untuk instance database Cloud SQL itu sendiri, sehingga metrik tidak berkurang saat ukuran database Airflow dikurangi. Untuk metrik yang menampilkan ukuran konten database Airflow, lihat Ukuran database metadata Airflow.
Ukuran database metadata Airflow Ukuran database metadata Airflow. Metrik ini berlaku untuk komponen Airflow di lingkungan Anda dan menunjukkan jumlah ruang disk yang digunakan oleh database metadata Airflow di instance database Cloud SQL. Metrik ini menurun saat ukuran database metadata Airflow dikurangi (misalnya, setelah pemeliharaan database Airflow) dan menentukan apakah Anda dapat membuat snapshot dan mengupgrade lingkungan. Metrik ini berbeda dengan metrik Penggunaan disk database, yang menunjukkan jumlah kapasitas disk yang digunakan oleh instance database Cloud SQL.
Koneksi database Jumlah total koneksi aktif ke database, dan batas total koneksi.

Perbedaan antara waktu penguraian DAG dan waktu eksekusi DAG

Dasbor pemantauan lingkungan menampilkan total waktu yang diperlukan untuk menguraikan semua DAG di lingkungan Cloud Composer Anda dan waktu rata-rata yang diperlukan untuk mengeksekusi DAG.

Mengurai DAG dan menjadwalkan tugas dari DAG untuk dieksekusi adalah dua operasi terpisah yang dilakukan oleh penjadwal Airflow.

Mengurai DAG dan menjadwalkan tugas yang dilakukan oleh penjadwal Airflow
Gambar 3. Mengurai DAG dan menjadwalkan tugas yang dilakukan oleh penjadwal Airflow (klik untuk memperbesar)

Waktu penguraian DAG adalah jumlah waktu yang diperlukan Airflow Scheduler untuk membaca file DAG dan mengurainya.

Sebelum penjadwal Airflow dapat menjadwalkan tugas apa pun dari DAG, penjadwal harus mengurai file DAG untuk menemukan struktur DAG dan tugas yang ditentukan. Setelah file DAG diuraikan, penjadwal dapat mulai menjadwalkan tugas dari DAG.

Waktu eksekusi DAG adalah jumlah semua waktu eksekusi tugas untuk DAG.

Untuk melihat waktu yang diperlukan untuk menjalankan tugas Airflow tertentu dari DAG, di antarmuka web Airflow, pilih DAG dan buka tab Durasi tugas. Tab ini menampilkan waktu eksekusi tugas untuk jumlah DAG terakhir yang dijalankan yang ditentukan.