Cloud Composer 1 | Cloud Composer 2 | Cloud Composer 3
Halaman ini menjelaskan cara mengakses dan menggunakan dasbor pemantauan untuk lingkungan Cloud Composer.
Untuk tutorial tentang pemantauan metrik lingkungan kunci, lihat Pantau kesehatan dan performa lingkungan dengan metrik utama.
Untuk informasi selengkapnya tentang metrik tertentu, lihat Memantau lingkungan dengan Cloud Monitoring.
Mengakses dasbor pemantauan
Dasbor pemantauan berisi metrik dan bagan untuk memantau tren DAG yang berjalan di lingkungan Anda, dan mengidentifikasi masalah pada Airflow komponen dan resource Cloud Composer.
Untuk mengakses dasbor pemantauan lingkungan Anda:
Di Konsol Google Cloud, buka halaman Environments.
Pada daftar lingkungan, klik nama lingkungan Anda. Halaman Detail lingkungan akan terbuka.
Buka tab Monitoring.
Menyiapkan pemberitahuan untuk metrik
Anda dapat menyiapkan pemberitahuan untuk suatu metrik dengan mengklik ikon lonceng di sudut kartu pemantauan.
Melihat metrik di Monitoring
Anda dapat mempelajari metrik lebih lanjut dengan melihatnya di Pemantauan.
Untuk membukanya dari dasbor pemantauan Cloud Composer, klik tiga titik di sudut kanan atas kartu metrik dan pilih Lihat di Metrics Explorer.
Deskripsi metrik
Setiap lingkungan Cloud Composer memiliki dasbor pemantauannya sendiri. Metrik yang ditampilkan di dasbor pemantauan hanya untuk lingkungan tertentu melacak operasi DAG, komponen Airflow, dan detail lingkungan untuk lingkungan saja. Misalnya, jika Anda memiliki dua lingkungan, dasbor tidak menggabungkan metrik dari kedua lingkungan.
Ringkasan lingkungan
Metrik lingkungan | Deskripsi |
---|---|
Kesehatan lingkungan (DAG pemantauan Aliran Udara) | Linimasa yang menunjukkan kondisi deployment Composer. Status hijau hanya mencerminkan status deployment Composer. Ini tidak berarti bahwa semua komponen Airflow bersifat operasional dan DAG dapat berjalan. |
Heartbeat scheduler | Linimasa yang menunjukkan detak jantung scheduler Airflow. Periksa area merah untuk mengidentifikasi masalah scheduler Airflow. Jika lingkungan Anda memiliki lebih dari satu penjadwal, maka status detak jantung sehat selama setidaknya satu penjadwal merespons. |
Kesehatan server web | Linimasa yang menunjukkan status server web Airflow. Status ini dibuat berdasarkan kode status HTTP yang ditampilkan oleh server web Airflow. |
Kesehatan database | Linimasa yang menunjukkan status koneksi ke instance Cloud SQL yang menghosting Airflow DB. |
Operasi lingkungan | Linimasa yang menunjukkan operasi yang memodifikasi lingkungan, seperti melakukan pembaruan konfigurasi atau memuat snapshot lingkungan. |
Operasi pemeliharaan | Linimasa yang menunjukkan periode kapan operasi pemeliharaan dilakukan di cluster lingkungan. |
Dependensi lingkungan | Linimasa yang menunjukkan status pemeriksaan keterjangkauan dan izin untuk operasi lingkungan. |
Statistik DAG
Metrik lingkungan | Deskripsi |
---|---|
Operasi DAG berhasil | Jumlah total operasi yang berhasil untuk semua DAG di lingkungan selama rentang waktu yang dipilih. Jika jumlah operasi DAG yang berhasil turun di bawah tingkat yang diharapkan, hal ini mungkin menunjukkan kegagalan (lihat Operasi DAG yang gagal) atau masalah penjadwalan. |
Operasi DAG gagal Tugas gagal | Jumlah total operasi yang gagal untuk semua DAG di lingkungan selama rentang waktu yang dipilih. Jumlah total tugas yang gagal di lingkungan selama rentang waktu yang dipilih. Tugas yang gagal tidak selalu menyebabkan proses DAG gagal, tetapi dapat menjadi sinyal yang berguna untuk memecahkan masalah error DAG. |
Operasi DAG selesai | Jumlah keberhasilan dan kegagalan DAG untuk interval dalam rentang waktu yang dipilih. Hal ini dapat membantu mengidentifikasi masalah sementara pada operasi DAG dan menghubungkannya dengan peristiwa lain, seperti penghapusan Pod Pekerja. |
Tugas yang diselesaikan | Jumlah tugas yang diselesaikan di lingkungan dengan perincian tugas yang berhasil dan gagal. |
Median dari durasi berjalan DAG | Durasi median operasi DAG. Diagram ini dapat membantu mengidentifikasi masalah performa dan mengenali tren dalam durasi DAG. |
Tugas Airflow | Jumlah tugas dalam status berjalan, dalam antrean, atau ditangguhkan pada waktu tertentu. Tugas Airflow adalah tugas yang berada dalam status antrean di Airflow. Tugas tersebut dapat masuk ke antrean broker Celery atau Kubernetes Executor. Tugas dalam antrean seledri adalah instance tugas yang dimasukkan ke dalam antrean broker Celery. |
Tugas zombie dihentikan | Jumlah tugas zombie yang dihentikan dalam jangka waktu yang kecil. Tugas Zombie sering disebabkan oleh penghentian eksternal proses Airflow. Scheduler Airflow menghentikan tugas zombie secara berkala, yang tercermin dalam diagram ini. |
Ukuran bag DAG | Jumlah DAG yang di-deploy ke bucket lingkungan Anda dan diproses oleh Airflow pada waktu tertentu. Hal ini dapat membantu saat menganalisis bottleneck performa. Misalnya, peningkatan jumlah deployment DAG dapat menurunkan performa karena beban yang berlebihan. |
Error prosesor DAG | Jumlah error dan waktu tunggu per detik yang ditemukan saat memproses file DAG. Nilai ini menunjukkan frekuensi error yang dilaporkan oleh pemroses DAG (nilainya berbeda dari jumlah DAG yang gagal). |
Total waktu penguraian untuk semua DAG | Diagram yang menunjukkan total waktu yang diperlukan Airflow untuk memproses semua DAG di lingkungan. Waktu penguraian yang lebih lama dapat memengaruhi efisiensi penjadwalan. Lihat Perbedaan antara waktu penguraian DAG dan waktu eksekusi DAG untuk informasi selengkapnya. |
Statistik Scheduler
Metrik lingkungan | Deskripsi |
---|---|
Denyut suara Scheduler | Lihat Ringkasan lingkungan. |
Total penggunaan CPU penjadwal | Total penggunaan inti vCPU berdasarkan container yang berjalan di semua pod penjadwal Airflow, dan batas gabungan vCPU untuk semua penjadwal. |
Total penggunaan memori penjadwal | Total penggunaan memori menurut container yang berjalan di semua pod penjadwal Airflow, dan batas vCPU gabungan untuk semua penjadwal. |
Total penggunaan disk penjadwal | Total penggunaan kapasitas disk menurut container yang berjalan di semua pod scheduler Airflow, dan batas gabungan kapasitas disk untuk semua penjadwal. |
Container Scheduler dimulai ulang | Jumlah total mulai ulang untuk penampung penjadwal individual. |
Penghapusan Pod Scheduler | Jumlah penghapusan Pod penjadwal Airflow. Penghapusan pod dapat terjadi jika Pod tertentu di cluster lingkungan Anda mencapai batas resource. |
Statistik pekerja
Metrik lingkungan | Deskripsi |
---|---|
Total penggunaan CPU pekerja | Total penggunaan inti vCPU berdasarkan container yang berjalan di semua pod pekerja Airflow, dan batas gabungan vCPU untuk semua pekerja. |
Total penggunaan memori pekerja | Total penggunaan memori menurut container yang berjalan di semua pod pekerja Airflow, dan batas gabungan vCPU untuk semua pekerja. |
Total penggunaan disk pekerja | Total penggunaan kapasitas disk menurut container yang berjalan di semua pod pekerja Airflow, dan batas gabungan kapasitas disk untuk semua pekerja. |
Pekerja yang aktif | Jumlah pekerja saat ini di lingkungan Anda. Di Cloud Composer 2, lingkungan Anda secara otomatis menskalakan jumlah pekerja aktif. |
Container pekerja dimulai ulang | Jumlah total mulai ulang untuk setiap container pekerja. |
Penghapusan Pod Pekerja | Jumlah penghapusan Pod pekerja Airflow. Penghapusan pod dapat terjadi jika Pod tertentu di cluster lingkungan Anda mencapai batas resource. Jika Pod pekerja Airflow dikeluarkan, semua instance tugas yang berjalan di Pod tersebut akan terganggu, lalu ditandai sebagai gagal oleh Airflow. |
Tugas Airflow | Lihat Ringkasan lingkungan. |
Waktu tunggu publikasi broker seledri habis |
Jumlah total AirflowTaskTimeout error yang terjadi saat memublikasikan tugas ke Celery Brokers. Metrik ini sesuai dengan metrik Airflow celery.task_timeout_error . |
Kegagalan perintah eksekusi seled |
Jumlah total kode keluar bukan nol dari tugas Celery. Metrik ini sesuai dengan metrik Airflow celery.execute_command.failure . |
Tugas yang dihentikan sistem | Jumlah tugas alur kerja di mana runner tugas dihentikan dengan SIGKILL (misalnya karena masalah memori pekerja atau detak jantung). |
Statistik pemicu
Metrik lingkungan | Deskripsi |
---|---|
Tugas yang ditangguhkan | Jumlah tugas yang dalam status ditangguhkan pada waktu tertentu. Untuk mengetahui informasi selengkapnya tentang tugas yang ditangguhkan, lihat Menggunakan operator yang dapat ditangguhkan |
Pemicu yang sudah selesai | Jumlah pemicu yang diselesaikan di semua pod pemicu. |
Pemicu yang berjalan | Jumlah pemicu yang berjalan per instance pemicu. Diagram ini menunjukkan baris terpisah untuk setiap pemicu. |
Pemicu pemblokiran | Jumlah pemicu yang memblokir thread utama (kemungkinan karena tidak sepenuhnya asinkron). |
Total penggunaan CPU pemicu | Total penggunaan inti vCPU berdasarkan container yang berjalan di semua pod pemicu Airflow, dan batas gabungan vCPU untuk semua pemicu. |
Total penggunaan memori pemicu | Total penggunaan memori oleh container yang berjalan di semua pod pemicu Airflow, dan batas gabungan vCPU untuk semua pemicu. |
Total penggunaan disk pemicu | Total penggunaan kapasitas disk oleh container yang berjalan di semua pod pemicu Airflow, dan batas gabungan kapasitas disk untuk semua pemicu. |
Pemicu aktif | Jumlah instance pemicu aktif. |
Perubahan bintang pada penampung pemicu | Jumlah penampung pemicu yang dimulai ulang. |
Statistik server web
Metrik lingkungan | Deskripsi |
---|---|
Kesehatan server web | Lihat Ringkasan lingkungan. |
Penggunaan CPU server web | Total penggunaan inti vCPU berdasarkan container yang berjalan di semua server web Airflow Pod , dan batas vCPU gabungan untuk semua server web. |
Penggunaan memori server web | Total penggunaan memori oleh container yang berjalan di semua server web Airflow Pod , dan batas vCPU gabungan untuk semua server web. |
Total penggunaan disk server web | Total penggunaan kapasitas disk oleh container yang berjalan di semua server web Airflow Pod , dan batas kapasitas disk gabungan untuk semua server web. |
Statistik database SQL
Metrik lingkungan | Deskripsi |
---|---|
Kesehatan database | Lihat Ringkasan lingkungan. |
Penggunaan CPU database | Penggunaan inti CPU oleh instance database Cloud SQL lingkungan Anda. |
Penggunaan memori database | Total penggunaan memori oleh instance database Cloud SQL lingkungan Anda. |
Penggunaan disk database | Total penggunaan disk yang akurat oleh instance database Cloud SQL lingkungan Anda. Untuk melihat metrik yang lebih akurat terkait konten database, lihat ukuran database metadata Airflow. |
Koneksi database | Jumlah total koneksi aktif ke database, dan batas total koneksi. |
Ukuran database metadata Airflow | Estimasi ukuran data dalam database metadata Airflow. Nilai ini setara dengan ruang yang dialokasikan untuk data dan indeks dalam tabel skema. |
Oleh karena itu, metrik ini berbeda dengan penggunaan disk database. Untuk mengetahui informasi selengkapnya tentang cara mengelola database metadata Airflow, lihat Membersihkan database Airflow :
Perbedaan antara waktu penguraian DAG dan waktu eksekusi DAG
Dasbor pemantauan lingkungan menampilkan total waktu yang diperlukan untuk mengurai semua DAG di lingkungan Cloud Composer Anda dan waktu rata-rata yang diperlukan untuk menjalankan DAG.
Mengurai DAG dan menjadwalkan tugas dari DAG untuk eksekusi adalah dua hal operasi yang dilakukan oleh scheduler Airflow.
DAG parse time adalah jumlah waktu yang diperlukan Airflow Scheduler untuk membaca file DAG dan mengurainya.
Sebelum penjadwal Airflow dapat menjadwalkan tugas apa pun dari DAG, harus mengurai file DAG untuk menemukan struktur DAG dan menentukan tugas klasifikasi. Setelah file DAG diuraikan, penjadwal dapat mulai menjadwalkan tugas dari DAG.
Waktu eksekusi DAG adalah jumlah semua waktu eksekusi tugas untuk DAG.
Untuk melihat berapa lama waktu yang diperlukan untuk mengeksekusi tugas Airflow tertentu dari DAG, di Antarmuka web Airflow, pilih DAG, lalu buka Tab Durasi tugas. Tab ini menampilkan waktu eksekusi tugas untuk jumlah operasi DAG terakhir yang ditentukan.