Memecahkan masalah VM GPU


Halaman ini menunjukkan cara menyelesaikan masalah untuk VM yang berjalan di Compute Engine yang telah memasang GPU.

Jika Anda mencoba membuat VM dengan GPU terpasang dan mengalami error, tinjau Memecahkan masalah error ketersediaan resource dan Pemecahan masalah saat membuat dan memperbarui VM.

Pesan Xid

Setelah membuat VM yang memasang GPU, Anda harus menginstal driver perangkat NVIDIA di VM GPU agar aplikasi Anda dapat mengakses GPU. Namun, terkadang {i>driver<i} ini memunculkan pesan {i>error<i}.

Pesan Xid adalah laporan error dari driver NVIDIA yang dicetak ke log kernel atau log peristiwa sistem operasi untuk VM Linux Anda. Pesan ini ditempatkan dalam file /var/log/messages.

Untuk mengetahui informasi selengkapnya tentang pesan Xid, termasuk kemungkinan penyebabnya, lihat dokumentasi NVIDIA.

Bagian berikut memberikan panduan tentang penanganan beberapa pesan Xid yang dikelompokkan berdasarkan jenis yang paling umum: error memori GPU, error Pemroses Sistem GPU (GSP), dan error akses memori ilegal.

Error memori GPU

Memori GPU adalah memori yang tersedia di GPU yang dapat digunakan untuk penyimpanan data sementara. Memori GPU dilindungi dengan Error Koreksi Code, ECC, yang mendeteksi dan memperbaiki error bit tunggal (SBE) serta mendeteksi dan melaporkan Error Bit Bit (DBE).

Sebelum rilis GPU NVIDIA A100, penghentian halaman dinamis didukung. Untuk NVIDIA A100 dan rilis GPU yang lebih baru (seperti NVIDIA H100), pemulihan error pemetaan ulang baris diperkenalkan. ECC diaktifkan secara default. Google sangat merekomendasikan untuk tetap mengaktifkan ECC.

Berikut adalah error memori GPU yang umum dan resolusi yang disarankan.

Pesan error Xid Resolusi
Xid 48: Double Bit ECC
  1. Hentikan beban kerja Anda.
  2. Hapus dan buat ulang VM. Jika error tetap berlanjut, ajukan kasus ke Cloud Customer Care.
Xid 63: ECC page retirement or row remapping recording event
  1. Hentikan beban kerja Anda.
  2. Reset GPU.
Xid 64: ECC page retirement or row remapper recording failure

Dan pesan tersebut berisi informasi berikut:

Xid 64: All reserved rows for bank are remapped
  1. Hentikan beban kerja Anda.
  2. Hapus dan buat ulang VM. Jika error tetap berlanjut, ajukan kasus ke Cloud Customer Care.

Jika Anda mendapatkan setidaknya dua pesan Xid berikut secara bersamaan:

  • Xid 48
  • Xid 63
  • Xid 64

Dan pesan tersebut berisi informasi berikut:

Xid XX: row remap pending
  1. Hentikan beban kerja Anda.
  2. Reset GPU. Dengan mereset GPU, proses pemetaan ulang baris dan penghentian halaman dapat diselesaikan dan memulihkan GPU.
Xid 92: High single-bit ECC error rate Pesan Xid ini ditampilkan setelah driver GPU mengoreksi error yang dapat diperbaiki, dan pesan tersebut tidak akan memengaruhi workload Anda. Pesan Xid ini hanya bersifat informatif. Anda tidak perlu melakukan tindakan apa pun.
Xid 94: Contained ECC error
  1. Hentikan beban kerja Anda.
  2. Reset GPU.
Xid 95: Uncontained ECC error
  1. Hentikan beban kerja Anda.
  2. Reset GPU.

Error GSP

Prosesor Sistem GPU (GSP) adalah mikrokontroler yang berjalan pada GPU dan menangani beberapa fungsi pengelolaan hardware tingkat rendah.

Pesan error Xid Resolusi
Xid 119: GSP RPC timeout
  1. Hentikan beban kerja Anda.
  2. Hapus dan buat ulang VM. Jika error masih berlanjut, kumpulkan laporan bug NVIDIA dan ajukan kasus ke Cloud Customer Care.
Xid 120: GSP error

Error akses memori ilegal

Xid berikut ditampilkan saat aplikasi memiliki masalah akses memori ilegal:

  • Xid 13: Graphics Engine Exception
  • Xid 31: GPU memory page fault

Error akses memori ilegal biasanya disebabkan oleh beban kerja Anda yang mencoba mengakses memori yang sudah dibebaskan atau berada di luar batas. Hal ini dapat disebabkan oleh masalah seperti dereferensi pointer yang tidak valid atau array luar batas.

Untuk mengatasi masalah ini, Anda harus men-debug aplikasi. Untuk men-debug aplikasi, Anda dapat menggunakan cuda-memcheck dan CUDA-GDB.

Dalam beberapa kasus yang sangat jarang terjadi, degradasi hardware dapat menyebabkan error akses memori ilegal ditampilkan. Untuk mengidentifikasi apakah masalah pada hardware Anda, gunakan NVIDIA Data Center GPU Manager (DCGM). Anda dapat menjalankan dcgmi diag -r 3 atau dcgmi diag -r 4 untuk menjalankan berbagai tingkat cakupan dan durasi pengujian. Jika Anda mengidentifikasi masalah pada hardware, ajukan kasus ke Cloud Customer Care.

Pesan error Xid umum lainnya

Pesan error Xid Resolusi
Xid 74: NVLINK error
  1. Hentikan beban kerja Anda.
  2. Reset GPU.
Xid 79: GPU has fallen off the bus

Hal ini berarti {i>driver<i} tidak dapat berkomunikasi dengan GPU.

Mulai ulang VM.

Reset GPU

Beberapa masalah mungkin mengharuskan Anda mereset GPU. Untuk mereset GPU, selesaikan langkah-langkah berikut:

  • Untuk VM N1, G2, dan A2, mulai ulang VM dengan menjalankan sudo reboot.
  • Untuk VM A3, jalankan nvidia-smi reset GPU.

Jika error terus terjadi setelah mereset GPU, Anda harus menghapus dan membuat ulang VM.

Jika error terus berlanjut setelah penghapusan dan pembuatan ulang, ajukan kasus ke Cloud Customer Care untuk memindahkan VM ke tahap perbaikan.