Cloud Composer 3 | Cloud Composer 2 | Cloud Composer 1
Halaman ini menjelaskan cara mengakses dan menggunakan dasbor pemantauan untuk lingkungan Cloud Composer.
Untuk mengetahui informasi selengkapnya tentang metrik tertentu, lihat Memantau lingkungan dengan Cloud Monitoring.
Mengakses dasbor pemantauan
Dasbor pemantauan berisi metrik dan diagram untuk memantau tren dalam eksekusi DAG di lingkungan Anda, dan mengidentifikasi masalah pada komponen Airflow dan resource Cloud Composer.
Untuk mengakses dasbor pemantauan lingkungan Anda:
Di konsol Google Cloud , buka halaman Environments.
Dalam daftar lingkungan, klik nama lingkungan Anda. Halaman Environment details akan terbuka.
Buka tab Monitoring.
Menyiapkan pemberitahuan untuk metrik
Anda dapat menyiapkan pemberitahuan untuk metrik dengan mengklik ikon lonceng di sudut kartu pemantauan.

Melihat metrik di Monitoring
Anda dapat melihat metrik lebih dekat dengan melihatnya di Monitoring.
Untuk membuka halaman tersebut dari dasbor pemantauan Cloud Composer, klik tiga titik di sudut kanan atas kartu metrik, lalu pilih Lihat di Metrics Explorer.

Deskripsi metrik
Setiap lingkungan Cloud Composer memiliki dasbor pemantauannya sendiri. Metrik yang ditampilkan di dasbor pemantauan untuk lingkungan tertentu hanya melacak eksekusi DAG, komponen Airflow, dan detail lingkungan untuk lingkungan ini saja. Misalnya, jika Anda memiliki dua lingkungan, dasbor tidak menggabungkan metrik dari kedua lingkungan.
Ringkasan lingkungan
Metrik lingkungan | Deskripsi |
---|---|
Kesehatan lingkungan (DAG pemantauan Airflow) | Linimasa yang menunjukkan kondisi deployment Composer. Status hijau hanya mencerminkan status deployment Composer. Hal ini tidak berarti semua komponen Airflow beroperasi dan DAG dapat berjalan. |
Heartbeat scheduler | Linimasa yang menampilkan heartbeat scheduler Airflow. Periksa area merah untuk mengidentifikasi masalah penjadwal Airflow. Jika lingkungan Anda memiliki lebih dari satu scheduler, status detak jantung akan responsif selama setidaknya salah satu scheduler merespons. |
Kesehatan server web | Linimasa yang menampilkan status server web Airflow. Status ini dibuat berdasarkan kode status HTTP yang ditampilkan oleh server web Airflow. |
Kesehatan database | Linimasa yang menampilkan status koneksi ke instance Cloud SQL yang menghosting DB Airflow. |
Operasi lingkungan | Linimasa yang menampilkan operasi yang mengubah lingkungan, seperti melakukan update konfigurasi atau memuat snapshot lingkungan. |
Operasi pemeliharaan | Linimasa yang menunjukkan periode saat operasi pemeliharaan dilakukan pada cluster lingkungan. |
Dependensi lingkungan | Linimasa yang menampilkan status pemeriksaan aksesibilitas dan izin untuk operasi lingkungan. |
Statistik DAG
Metrik lingkungan | Deskripsi |
---|---|
Operasi DAG berhasil | Jumlah total operasi yang berhasil untuk semua DAG di lingkungan selama rentang waktu yang dipilih. Jika jumlah operasi DAG yang berhasil turun di bawah tingkat yang diharapkan, hal ini dapat menunjukkan kegagalan (lihat Operasi DAG yang gagal) atau masalah penjadwalan. |
Operasi DAG gagal Tugas gagal | Jumlah total operasi yang gagal untuk semua DAG di lingkungan selama rentang waktu yang dipilih. Jumlah total tugas yang gagal di lingkungan selama rentang waktu yang dipilih. Tugas yang gagal tidak selalu menyebabkan DAG gagal dijalankan, tetapi dapat menjadi sinyal yang berguna untuk memecahkan masalah error DAG. |
Operasi DAG selesai | Jumlah keberhasilan dan kegagalan DAG untuk interval dalam rentang waktu yang dipilih. Hal ini dapat membantu mengidentifikasi masalah sementara pada eksekusi DAG dan menghubungkannya dengan peristiwa lain, seperti pengusiran Pod Pekerja. |
Tugas yang diselesaikan | Jumlah tugas yang diselesaikan di lingkungan dengan perincian tugas yang berhasil dan gagal. |
Median dari durasi berjalan DAG | Durasi median operasi DAG. Diagram ini dapat membantu mengidentifikasi masalah performa dan melihat tren durasi DAG. |
Tugas Airflow | Jumlah tugas dalam status berjalan, dalam antrean, atau ditangguhkan pada waktu tertentu. Tugas Airflow adalah tugas yang berada dalam status antrean di Airflow, yang dapat masuk ke antrean broker Celery atau Kubernetes Executor. Tugas yang diantrekan Celery adalah instance tugas yang dimasukkan ke dalam antrean broker Celery. |
Tugas zombie dihentikan | Jumlah tugas zombie yang dihentikan dalam jangka waktu singkat. Tugas zombie sering kali disebabkan oleh penghentian proses Airflow secara eksternal. Scheduler Airflow menghentikan tugas zombie secara berkala, yang tercermin dalam diagram ini. |
Ukuran bag DAG | Jumlah DAG yang di-deploy ke bucket lingkungan Anda dan diproses oleh Airflow pada waktu tertentu. Hal ini dapat berguna saat menganalisis hambatan performa. Misalnya, peningkatan jumlah deployment DAG dapat menurunkan performa karena beban yang berlebihan. |
Error pemroses DAG | Jumlah error dan waktu tunggu habis per detik yang terjadi saat memproses file DAG. Nilai ini menunjukkan frekuensi error yang dilaporkan oleh pemroses DAG (nilai ini berbeda dengan jumlah DAG yang gagal). |
Total waktu penguraian untuk semua DAG | Diagram yang menunjukkan total waktu yang diperlukan Airflow untuk memproses semua DAG di lingkungan. Peningkatan waktu parsing dapat memengaruhi efisiensi penjadwalan. Lihat Perbedaan antara waktu parsing DAG dan waktu eksekusi DAG untuk mengetahui informasi selengkapnya. |
Statistik penjadwal
Metrik lingkungan | Deskripsi |
---|---|
Heartbeat penjadwal | Lihat Ringkasan lingkungan. |
Total penggunaan CPU penjadwal | Total penggunaan core vCPU oleh container yang berjalan di semua pod scheduler Airflow, dan batas vCPU gabungan untuk semua scheduler. |
Total penggunaan memori penjadwal | Total penggunaan memori oleh container yang berjalan di semua pod penjadwal Airflow, dan batas vCPU gabungan untuk semua penjadwal. |
Total penggunaan disk penjadwal | Total penggunaan ruang disk oleh container yang berjalan di semua pod scheduler Airflow, dan batas ruang disk gabungan untuk semua scheduler. |
Mulai ulang container penjadwal | Jumlah total mulai ulang untuk setiap penampung penjadwal. |
Penghapusan Pod Penjadwal | Jumlah penghapusan Pod scheduler Airflow. Pengusiran Pod dapat terjadi saat Pod tertentu di cluster lingkungan Anda mencapai batas resource-nya. |
Statistik pekerja
Metrik lingkungan | Deskripsi |
---|---|
Total penggunaan CPU pekerja | Total penggunaan inti vCPU oleh container yang berjalan di semua pod pekerja Airflow, dan batas vCPU gabungan untuk semua pekerja. |
Total penggunaan memori pekerja | Total penggunaan memori oleh container yang berjalan di semua pod pekerja Airflow, dan batas vCPU gabungan untuk semua pekerja. |
Total penggunaan disk pekerja | Total penggunaan ruang disk oleh container yang berjalan di semua pod worker Airflow, dan batas ruang disk gabungan untuk semua pekerja. |
Pekerja yang aktif | Jumlah pekerja saat ini di lingkungan Anda. Di Cloud Composer 2, lingkungan Anda secara otomatis menskalakan jumlah pekerja aktif. |
Mulai ulang container pekerja | Jumlah total mulai ulang untuk setiap container pekerja. |
Penghapusan Pod Pekerja | Jumlah penghapusan Pod pekerja Airflow. Pengusiran Pod dapat terjadi saat Pod tertentu di cluster lingkungan Anda mencapai batas resource-nya. Jika Pod worker Airflow dikeluarkan, semua instance tugas yang berjalan di Pod tersebut akan terganggu, dan kemudian ditandai sebagai gagal oleh Airflow. |
Tugas Airflow | Lihat Ringkasan lingkungan. |
Tugas Celery yang belum dikonfirmasi |
Jumlah tugas yang belum dikonfirmasi dalam antrean broker Celery. Tugas yang belum dikonfirmasi mencakup instance tugas Airflow dalam status tugas queued dan running . Kedua status tersebut normal untuk eksekusi tugas Airflow. Grafik tugas Celery yang Tidak Dikonfirmasi akan menampilkan tugas dalam status ini sebagai tidak dikonfirmasi saat diproses oleh Airflow. Jika instance tugas Airflow terganggu secara tidak normal (misalnya, terdeteksi sebagai zombie), instance tersebut juga akan tetap tidak diakui hingga visibility_timeout tercapai. Dalam hal ini, grafik akan menampilkan tugas yang terus-menerus tidak dikonfirmasi dalam waktu yang lama. Nilai waktu tunggu visibilitas ditetapkan ke 7 hari di Cloud Composer. Setelah jangka waktu ini, tugas akan dikirim ulang dan dapat dikonfirmasi. Jika gagal lagi, notifikasi tersebut mungkin tetap tidak direspons selama 7 hari lagi. |
Waktu tunggu habis saat memublikasikan broker Celery |
Jumlah total error AirflowTaskTimeout yang muncul saat memublikasikan tugas ke Broker Celery. Metrik ini sesuai dengan metrik Airflow celery.task_timeout_error . |
Kegagalan perintah eksekusi Celery |
Jumlah total kode keluar non-nol dari tugas Celery. Metrik ini sesuai dengan metrik Airflow celery.execute_command.failure . |
Tugas yang dihentikan sistem | Jumlah tugas alur kerja yang proses pelaksana tugasnya dihentikan dengan SIGKILL (misalnya karena masalah memori atau detak jantung pekerja). |
Statistik server web
Metrik lingkungan | Deskripsi |
---|---|
Kesehatan server web | Lihat Ringkasan lingkungan. |
Penggunaan CPU server web | Total penggunaan core vCPU oleh container yang berjalan di semua instance server web Airflow, dan batas vCPU gabungan untuk semua server web. |
Penggunaan memori server web | Total penggunaan memori oleh container yang berjalan di semua instance server web Airflow, dan batas vCPU gabungan untuk semua server web. |
Total penggunaan disk server web | Total penggunaan ruang disk oleh container yang berjalan di semua instance server web Airflow, dan batas ruang disk gabungan untuk semua server web. |
Statistik database SQL
Metrik lingkungan | Deskripsi |
---|---|
Kesehatan database | Lihat Ringkasan lingkungan. |
Penggunaan CPU database | Penggunaan core CPU oleh instance database Cloud SQL di lingkungan Anda. |
Penggunaan memori database | Total penggunaan memori oleh instance database Cloud SQL di lingkungan Anda. |
Penggunaan disk database | Total penggunaan ruang disk oleh instance database Cloud SQL di lingkungan Anda. Metrik ini berlaku untuk instance database Cloud SQL itu sendiri, sehingga metrik tidak berkurang saat ukuran database Airflow dikurangi. Untuk metrik yang menunjukkan ukuran konten database Airflow, lihat Ukuran database metadata Airflow. |
Ukuran database metadata Airflow | Ukuran database metadata Airflow. Metrik ini berlaku untuk komponen Airflow di lingkungan Anda dan menunjukkan jumlah ruang disk yang digunakan oleh database metadata Airflow pada instance database Cloud SQL. Metrik ini menurun saat ukuran database metadata Airflow berkurang (misalnya, setelah pemeliharaan database Airflow) dan menentukan apakah snapshot dapat dibuat dan lingkungan dapat diupgrade. Metrik ini berbeda dengan metrik Penggunaan disk database, yang menunjukkan jumlah ruang disk yang digunakan oleh instance database Cloud SQL. |
Koneksi database | Jumlah total koneksi aktif ke database, dan batas total koneksi. |
Perbedaan antara waktu penguraian DAG dan waktu eksekusi DAG
Dasbor pemantauan lingkungan menampilkan total waktu yang diperlukan untuk mengurai semua DAG di lingkungan Cloud Composer Anda dan rata-rata waktu yang diperlukan untuk mengeksekusi DAG.
Penguraian DAG dan penjadwalan tugas dari DAG untuk dieksekusi adalah dua operasi terpisah yang dilakukan oleh penjadwal Airflow.

Waktu penguraian DAG adalah jumlah waktu yang diperlukan oleh Penjadwal Airflow untuk membaca dan mengurai file DAG.
Sebelum scheduler Airflow dapat menjadwalkan tugas apa pun dari DAG, scheduler harus mengurai file DAG untuk menemukan struktur DAG dan tugas yang ditentukan. Setelah file DAG diuraikan, scheduler dapat mulai menjadwalkan tugas dari DAG.
Waktu eksekusi DAG adalah jumlah semua waktu eksekusi tugas untuk DAG.
Untuk melihat durasi yang diperlukan untuk menjalankan tugas Airflow tertentu dari DAG, di antarmuka web Airflow, pilih DAG dan buka tab Durasi tugas. Tab ini menampilkan waktu eksekusi tugas untuk sejumlah DAG yang terakhir dijalankan.