Memecahkan masalah soft lockup vCPU


Dokumen ini menjelaskan cara memecahkan masalah soft lockup vCPU. Soft lockup terjadi saat vCPU instance virtual machine (VM) tidak dapat menjalankan tugas baru selama lebih dari 20 detik. Sebagian besar soft lockup disebabkan oleh bug dalam software aplikasi.

Soft lockup dapat menyebabkan VM tidak responsif dalam jangka waktu singkat, mengganggu akses SSH ke VM, dan memicu waktu tunggu aplikasi habis atau failover. VM yang mengalami soft lockup mungkin juga memiliki penggunaan CPU yang sangat tinggi atau sangat rendah, bergantung pada penyebab pasti soft lockup.

Mengidentifikasi soft lockup

Untuk mengidentifikasi apakah VM Anda mengalami soft lockup, lakukan salah satu hal berikut:

Contoh pelacakan tumpukan soft lockup

watchdog: BUG: soft lockup - CPU#3 stuck for 22s!

Untuk mendeteksi soft lockup di masa mendatang, Anda dapat melakukan hal berikut:

  1. Aktifkan logging output port serial.

  2. Buat kebijakan pemberitahuan berbasis log untuk log berikut:

    resource.type="gce_instance" log_id("serialconsole.googleapis.com/serial_port_1_output") textPayload=~"watchdog.*lockup"
    

Memecahkan masalah soft lockup

Setelah Anda mengidentifikasi bahwa soft lockup terjadi, coba langkah-langkah pemecahan masalah berikut untuk menyelesaikan masalah tersebut:

  1. Periksa situs vendor OS Anda untuk mengetahui error umum pada versi OS Anda. Terkadang, Anda mungkin menemukan referensi ke modul kernel tertentu dalam pelacakan tumpukan yang menunjukkan fungsi atau operasi tertentu yang terlibat.
  2. Identifikasi apakah soft lockup berulang dengan frekuensi tertentu, seperti bersamaan dengan beban tinggi atau aktivitas tertentu. Jika soft lockup berkorelasi dengan beban tinggi, Anda mungkin perlu mengonfigurasi ulang workload, misalnya dengan menggunakan VM yang lebih besar atau membagi beban di lebih banyak VM.
  3. Periksa apakah soft lockup berkorelasi dengan perubahan pada lingkungan runtime Anda seperti deployment software baru atau update image OS.
  4. Evaluasi apakah ada peristiwa pemeliharaan yang terjadi sekitar waktu soft lockup, dengan meninjau log audit untuk log audit peristiwa sistem.

Jika langkah-langkah pemecahan masalah berikutnya tidak menyelesaikan masalah, ajukan kasus dukungan dan sertakan semua informasi yang Anda kumpulkan dari pemecahan masalah.

Praktik terbaik untuk menghindari soft lockup

Untuk membantu mencegah VM Anda mengalami soft lockup, sebaiknya terapkan praktik terbaik berikut:

  • Pastikan Anda memiliki komponen redundan yang sesuai yang dikonfigurasi untuk sistem, seperti cluster ketersediaan tinggi, untuk memberikan kemampuan failover jika VM tertentu mengalami soft lockup yang berkepanjangan. Untuk informasi selengkapnya, lihat Mendesain sistem yang tangguh.
  • Untuk workload yang membutuhkan komputasi intensif, pertimbangkan untuk menggunakan kelompok mesin yang dioptimalkan untuk komputasi.
  • Uji beban kerja Anda dengan simulasi peristiwa pemeliharaan untuk mempelajari performa beban kerja Anda selama migrasi langsung (jika diaktifkan), terutama dalam pengujian beban.
  • Jika Anda menjalankan Kernel Linux kustom atau modul kustom di VM, uji perubahan baru saat beban sebelum men-deploynya ke lingkungan produksi. Pastikan perubahan kustom Anda tidak membuat Anda tidak memenuhi syarat untuk menerima dukungan dari vendor OS.
  • Selalu update sistem operasi Anda. Untuk mengetahui informasi selengkapnya, baca Detail sistem operasi.