Setelah Anda membuat instance virtual machine (VM) dengan satu atau beberapa GPU, sistem Anda memerlukan driver perangkat NVIDIA agar aplikasi Anda dapat mengakses perangkat. Pastikan instance virtual machine (VM) Anda memiliki cukup kapasitas disk kosong. Anda harus memilih minimal 40 GB untuk boot disk saat membuat VM baru.
Untuk menginstal driver, Anda memiliki dua opsi yang dapat dipilih:
Jika Anda memerlukan GPU untuk grafis 3D dengan akselerasi hardware seperti desktop jarak jauh atau game, lihat Menginstal driver untuk NVIDIA RTX Virtual Workstation (vWS).
Untuk beban kerja lainnya, ikuti petunjuk dalam dokumen ini untuk menginstal driver NVIDIA.
Driver NVIDIA, toolkit CUDA, dan versi runtime CUDA
Ada berbagai komponen dengan versi driver dan runtime yang mungkin diperlukan di lingkungan Anda. Komponen ini meliputi:
- Driver NVIDIA
- Toolkit CUDA
- Runtime CUDA
Saat menginstal komponen tersebut, Anda dapat mengonfigurasi lingkungan agar sesuai dengan kebutuhan Anda. Misalnya, jika Anda memiliki versi Tensorflow sebelumnya yang berfungsi paling baik dengan versi toolkit CUDA sebelumnya, tetapi GPU yang ingin Anda gunakan memerlukan driver NVIDIA versi lebih baru, maka Anda dapat menginstal toolkit CUDA versi sebelumnya beserta driver NVIDIA versi terbaru.
Namun, Anda harus memastikan versi toolkit CUDA dan driver NVIDIA Anda kompatibel. Untuk toolkit CUDA dan kompatibilitas driver NVIDIA, lihat dokumentasi NVIDIA tentang kompatibilitas CUDA.
Versi driver NVIDIA yang diperlukan
Untuk GPU NVIDIA yang berjalan di Compute Engine, versi driver NVIDIA berikut direkomendasikan.
Model GPU | Linux | Windows |
---|---|---|
NVIDIA H100 |
|
T/A |
NVIDIA L4 | 525.60.13 atau yang lebih baru | 528,89 |
NVIDIA A100, T4, P4, P100, dan V100 | 470.57.02 atau yang lebih baru | 471.41 atau yang lebih baru |
NVIDIA K80 (Akhir dukungan) | 410.79 - versi R470 terbaru | 426.00 - versi R470 terbaru |
Untuk GPU K80, NVIDIA telah mengumumkan bahwa cabang driver R470 akan menjadi versi driver terakhir yang menerima dukungan debug. Untuk meninjau update ini, lihat Matriks Dukungan Software NVIDIA.
Menginstal driver GPU pada VM
Salah satu cara untuk menginstal driver NVIDIA di sebagian besar VM adalah dengan menginstal Toolkit NVIDIA CUDA.
Untuk menginstal toolkit NVIDIA, selesaikan langkah-langkah berikut:
Pilih toolkit CUDA yang mendukung driver minimum yang Anda butuhkan.
Hubungkan ke VM tempat Anda ingin menginstal driver.
Di VM, download dan instal toolkit CUDA. Paket penginstalan dan panduan untuk toolkit yang direkomendasikan dapat ditemukan dalam tabel berikut. Sebelum menginstal toolkit, pastikan Anda menyelesaikan langkah-langkah pra-penginstalan yang ada dalam panduan penginstalan.
Model GPU Versi toolkit CUDA minimum yang direkomendasikan Petunjuk penginstalan untuk versi minimum - NVIDIA H100
- Linux: CUDA Toolkit 12.2 Update 1
- Windows: T/A
- Linux: Panduan penginstalan CUDA 12.2
- Windows: T/A
- NVIDIA L4
- Linux: CUDA Toolkit 12.1
- Windows: CUDA Toolkit 12.2 Update 2
- Linux: Panduan penginstalan CUDA 12.1
- Windows: Panduan penginstalan CUDA 12.2
- NVIDIA A100
- NVIDIA T4
- NVIDIA V100
- NVIDIA P100
- NVIDIA P4
- Linux: CUDA Toolkit 11.4
- Windows: CUDA Toolkit 11.4
- Linux: Panduan penginstalan CUDA 11.4
- Windows: Panduan penginstalan CUDA 11.4
Instal driver GPU menggunakan skrip penginstalan
Anda dapat menggunakan skrip berikut untuk mengotomatiskan proses penginstalan. Untuk meninjau skrip ini, lihat repositori GitHub.
Batasan
- Skrip ini tidak akan berfungsi pada VM Linux yang mengaktifkan Booting Aman. Untuk VM Linux yang mengaktifkan Booting Aman, lihat Menginstal driver GPU (VM Booting Aman).
Jika Anda memiliki Agen Operasional yang mengumpulkan metrik GPU di VM versi 2.38.0 atau yang lebih baru, Anda harus menghentikan agen sebelum dapat menginstal atau mengupgrade driver GPU menggunakan skrip instalasi ini.
Setelah menyelesaikan penginstalan atau upgrade driver GPU, Anda harus memulai ulang VM.
Untuk menghentikan Agen Operasional, jalankan perintah berikut:
sudo systemctl stop google-cloud-ops-agent
Linux
Sistem operasi yang didukung
Skrip penginstalan Linux diuji pada sistem operasi berikut:
- CentOS 7 dan 8
- Debian 10 dan 11
- Red Hat Enterprise Linux (RHEL) 7, 8, dan 9
- Rocky Linux 8 dan 9
- Ubuntu 20 dan 22
Jika Anda menggunakan skrip ini pada sistem operasi lain, penginstalan akan gagal. Untuk VM Linux, skrip ini hanya akan menginstal driver NVIDIA.
Pastikan Python 3 terinstal di sistem operasi Anda.
Download skrip penginstalan.
curl https://raw.githubusercontent.com/GoogleCloudPlatform/compute-gpu-installation/main/linux/install_gpu_driver.py --output install_gpu_driver.py
Jalankan skrip penginstalan.
sudo python3 install_gpu_driver.py
Skrip memerlukan beberapa saat untuk dijalankan. Tindakan ini mungkin akan memulai ulang VM Anda. Jika VM dimulai ulang, jalankan lagi skrip untuk melanjutkan penginstalan.
Verifikasi penginstalannya. Lihat Memverifikasi penginstalan driver GPU.
Windows
Skrip penginstalan ini dapat digunakan pada VM yang mengaktifkan booting aman.
- Untuk VM Windows yang menggunakan seri mesin G2, skrip ini hanya akan menginstal driver NVIDIA.
- Untuk jenis mesin lainnya, skrip akan menginstal driver NVIDIA dan toolkit CUDA.
Buka terminal PowerShell sebagai administrator, lalu selesaikan langkah-langkah berikut:
Jika Anda menggunakan Windows Server 2016, tetapkan versi Transport Layer Security (TLS) ke 1.2.
[Net.ServicePointManager]::SecurityProtocol = 'Tls12'
Download skrip.
Invoke-WebRequest https://github.com/GoogleCloudPlatform/compute-gpu-installation/raw/main/windows/install_gpu_driver.ps1 -OutFile C:\install_gpu_driver.ps1
Jalankan skrip.
C:\install_gpu_driver.ps1
Skrip memerlukan beberapa saat untuk dijalankan. Tidak ada dialog perintah yang akan diberikan selama proses penginstalan. Setelah skrip keluar, driver akan diinstal.
Skrip ini akan menginstal driver di lokasi default berikut pada VM Anda:
C:\Program Files\NVIDIA Corporation\
.Verifikasi penginstalannya. Lihat Memverifikasi penginstalan driver GPU.
Menginstal driver GPU (Secure Boot VM)
Petunjuk ini ditujukan untuk menginstal driver GPU pada VM Linux yang menggunakan Secure Boot.
Jika Anda menggunakan VM Windows atau VM Linux yang tidak menggunakan Booting Aman, tinjau salah satu petunjuk berikut:
Penginstalan driver di VM Booting Aman berbeda untuk VM Linux, karena VM ini mengharuskan semua modul kernel ditandatangani oleh kunci yang dipercaya oleh sistem.
Petunjuk ini hanya tersedia untuk VM Linux booting aman yang berjalan di sistem operasi Ubuntu 18.04, 20.04, dan 22.04. Dukungan untuk lebih banyak sistem operasi Linux sedang berlangsung.
Untuk menginstal driver GPU pada VM Ubuntu yang menggunakan Booting Aman, selesaikan langkah-langkah berikut:
Hubungkan ke VM tempat Anda ingin menginstal driver.
Update repositori.
sudo apt-get update
Telusuri paket modul kernel NVIDIA terbaru atau versi yang Anda inginkan. Paket ini berisi modul kernel NVIDIA yang ditandatangani oleh kunci Ubuntu. Jika Anda ingin menemukan versi sebelumnya, ubah nomor untuk parameter bagian belakangnya guna mendapatkan versi yang lebih lama. Misalnya, tentukan
tail -n 2
.Ubuntu PRO dan LTS
Untuk Ubuntu PRO dan LTS, jalankan perintah berikut:
NVIDIA_DRIVER_VERSION=$(sudo apt-cache search 'linux-modules-nvidia-[0-9]+-gcp$' | awk '{print $1}' | sort | tail -n 1 | head -n 1 | awk -F"-" '{print $4}')
Ubuntu PRO FIPS
Untuk Ubuntu PRO FIPS, jalankan perintah berikut:
Aktifkan update FIPS Ubuntu.
sudo ua enable fips-updates
Matikan dan mulai ulang
sudo shutdown -r now
Dapatkan paket terbaru.
NVIDIA_DRIVER_VERSION=$(sudo apt-cache search 'linux-modules-nvidia-[0-9]+-gcp-fips$' | awk '{print $1}' | sort | tail -n 1 | head -n 1 | awk -F"-" '{print $4}')
Anda dapat memeriksa versi driver yang dipilih dengan menjalankan
echo $NVIDIA_DRIVER_VERSION
. Output-nya berupa string versi seperti455
.Instal paket modul kernel dan driver NVIDIA yang sesuai.
sudo apt install linux-modules-nvidia-${NVIDIA_DRIVER_VERSION}-gcp nvidia-driver-${NVIDIA_DRIVER_VERSION}
Jika perintah gagal dengan
package not found error
, driver NVIDIA terbaru mungkin tidak ada di repositori. Coba lagi langkah sebelumnya dan pilih versi driver sebelumnya dengan mengubah angka bagian belakangnya.Pastikan driver NVIDIA sudah diinstal. Anda mungkin perlu memulai ulang VM.
Jika Anda memulai ulang sistem untuk memverifikasi versi NVIDIA. Setelah proses mulai ulang, Anda harus mereset variabel
NVIDIA_DRIVER_VERSION
dengan menjalankan kembali perintah yang Anda gunakan pada langkah 3.Konfigurasikan APT untuk menggunakan repositori paket NVIDIA.
Untuk membantu APT memilih dependensi yang benar, sematkan repositori sebagai berikut:
sudo tee /etc/apt/preferences.d/cuda-repository-pin-600 > /dev/null <<EOL Package: nsight-compute Pin: origin *ubuntu.com* Pin-Priority: -1
Package: nsight-systems Pin: origin *ubuntu.com* Pin-Priority: -1
Package: nvidia-modprobe Pin: release l=NVIDIA CUDA Pin-Priority: 600
Package: nvidia-settings Pin: release l=NVIDIA CUDA Pin-Priority: 600
Package: * Pin: release l=NVIDIA CUDA Pin-Priority: 100 EOLInstal
software-properties-common
. Tindakan ini diperlukan jika Anda menggunakan image minimal Ubuntu.sudo apt install software-properties-common
Menyetel versi Ubuntu.
Ubuntu 18.04
Untuk Ubuntu 18.04, jalankan perintah berikut:
export UBUNTU_VERSION=ubuntu1804/x86_64
Ubuntu 20.04
Untuk Ubuntu 20.04, jalankan perintah berikut:
export UBUNTU_VERSION=ubuntu2004/x86_64
Ubuntu 22.04
Untuk Ubuntu 22.04, jalankan perintah berikut:
export UBUNTU_VERSION=ubuntu2204/x86_64
Download paket
cuda-keyring
.wget https://developer.download.nvidia.com/compute/cuda/repos/$UBUNTU_VERSION/cuda-keyring_1.0-1_all.deb
Instal paket
cuda-keyring
.sudo dpkg -i cuda-keyring_1.0-1_all.deb
Tambahkan repositori NVIDIA.
sudo add-apt-repository "deb https://developer.download.nvidia.com/compute/cuda/repos/$UBUNTU_VERSION/ /"
Jika diminta, pilih tindakan default untuk mempertahankan versi saat ini.
Temukan versi driver CUDA yang kompatibel.
Skrip berikut menentukan versi driver CUDA terbaru yang kompatibel dengan driver NVIDIA yang baru saja kita instal:
CUDA_DRIVER_VERSION=$(apt-cache madison cuda-drivers | awk '{print $3}' | sort -r | while read line; do if dpkg --compare-versions $(dpkg-query -f='${Version}\n' -W nvidia-driver-${NVIDIA_DRIVER_VERSION}) ge $line ; then echo "$line" break fi done)
Anda dapat memeriksa versi driver CUDA dengan menjalankan
echo $CUDA_DRIVER_VERSION
. Output-nya berupa string versi seperti455.32.00-1
.Instal driver CUDA dengan versi yang tertera dari langkah sebelumnya.
sudo apt install cuda-drivers-${NVIDIA_DRIVER_VERSION}=${CUDA_DRIVER_VERSION} cuda-drivers=${CUDA_DRIVER_VERSION}
Opsional: Tahan paket
dkms
.Setelah mengaktifkan Booting Aman, semua modul kernel harus ditandatangani agar dapat dimuat. Modul kernel yang dibuat oleh
dkms
tidak berfungsi di VM karena tidak ditandatangani dengan benar secara default. Ini adalah langkah opsional, tetapi dapat membantu mencegah Anda menginstal paketdkms
lain secara tidak sengaja di masa mendatang.Untuk menyimpan paket
dkms
, jalankan perintah berikut:sudo apt-get remove dkms && sudo apt-mark hold dkms
Instal toolkit dan runtime CUDA.
Pilih versi CUDA yang sesuai. Skrip berikut menentukan versi CUDA terbaru yang kompatibel dengan driver CUDA yang baru saja kita instal:
CUDA_VERSION=$(apt-cache showpkg cuda-drivers | grep -o 'cuda-runtime-[0-9][0-9]-[0-9],cuda-drivers [0-9\\.]*' | while read line; do if dpkg --compare-versions ${CUDA_DRIVER_VERSION} ge $(echo $line | grep -Eo '[[:digit:]]+\.[[:digit:]]+') ; then echo $(echo $line | grep -Eo '[[:digit:]]+-[[:digit:]]') break fi done)
Anda dapat memeriksa versi CUDA dengan menjalankan
echo $CUDA_VERSION
. Output-nya berupa string versi seperti11-1
.Instal paket CUDA.
sudo apt install cuda-${CUDA_VERSION}
Verifikasi penginstalan CUDA.
sudo nvidia-smi
/usr/local/cuda/bin/nvcc --version
Perintah pertama akan mencetak informasi GPU. Perintah kedua akan mencetak versi compiler CUDA yang terinstal.
Memverifikasi penginstalan driver GPU
Setelah menyelesaikan langkah-langkah penginstalan driver, pastikan driver telah menginstal dan diinisialisasi dengan benar.
Linux
Hubungkan ke instance Linux
dan gunakan perintah nvidia-smi
untuk memastikan bahwa driver berjalan dengan benar.
sudo nvidia-smi
Outputnya mirip dengan hal berikut ini:
Tue Mar 21 19:50:15 2023 +-----------------------------------------------------------------------------+ | NVIDIA-SMI 530.30.02 Driver Version: 530.30.02 CUDA Version: 12.1 | |-------------------------------+----------------------+----------------------+ | GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC | | Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. | | | | MIG M. | |===============================+======================+======================| | 0 NVIDIA L4 Off | 00000000:00:03.0 Off | 0 | | N/A 63C P0 30W / 75W | 0MiB / 23034MiB | 8% Default | | | | N/A | +-------------------------------+----------------------+----------------------+ +-----------------------------------------------------------------------------+ | Processes: | | GPU GI CI PID Type Process name GPU Memory | | ID ID Usage | |=============================================================================| | No running processes found | +-----------------------------------------------------------------------------+
Jika perintah ini gagal, tinjau hal berikut:
Periksa apakah ada GPU yang terpasang ke VM.
Gunakan perintah berikut untuk memeriksa perangkat PCI NVIDIA:
sudo lspci | grep -i "nvidia"
.Pastikan versi kernel driver dan versi kernel VM sudah sama.
- Untuk memeriksa versi kernel VM, jalankan
uname -r
. - Untuk memeriksa versi kernel driver, jalankan
sudo apt-cache show linux-modules-nvidia-NVIDIA_DRIVER_VERSION-gcp
.
Jika versinya tidak cocok, mulai ulang VM ke versi kernel baru.
- Untuk memeriksa versi kernel VM, jalankan
Windows Server
Hubungkan ke instance Windows Server dan buka terminal PowerShell, lalu jalankan perintah berikut untuk memastikan driver berjalan dengan benar.
nvidia-smi
Outputnya mirip dengan hal berikut ini:
+---------------------------------------------------------------------------------------+ | NVIDIA-SMI 537.13 Driver Version: 537.13 CUDA Version: 12.2 | |-----------------------------------------+----------------------+----------------------+ | GPU Name TCC/WDDM | Bus-Id Disp.A | Volatile Uncorr. ECC | | Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. | | | | MIG M. | |=========================================+======================+======================| | 0 NVIDIA L4 WDDM | 00000000:00:03.0 Off | 0 | | N/A 66C P8 17W / 72W | 128MiB / 23034MiB | 0% Default | | | | N/A | +-----------------------------------------+----------------------+----------------------+ +---------------------------------------------------------------------------------------+ | Processes: | | GPU GI CI PID Type Process name GPU Memory | | ID ID Usage | |=======================================================================================| | 0 N/A N/A 4888 C+G ...CBS_cw5n1h2txyewy\TextInputHost.exe N/A | | 0 N/A N/A 5180 C+G ....Search_cw5n1h2txyewy\SearchApp.exe N/A | +---------------------------------------------------------------------------------------+
Apa langkah selanjutnya?
- Untuk memantau performa GPU, lihat Memantau performa GPU.
- Untuk menangani pemeliharaan host GPU, baca Menangani peristiwa pemeliharaan host GPU.
- Untuk meningkatkan performa jaringan, lihat Menggunakan bandwidth jaringan yang lebih tinggi.
- Untuk memecahkan masalah VM GPU, lihat Memecahkan masalah VM GPU.