Installer des pilotes de GPU.

Linux Windows

Une fois que vous avez créé une instance de machine virtuelle (VM) avec un ou plusieurs GPU, votre système requiert des pilotes d'appareils NVIDIA pour que vos applications puissent accéder à l'appareil. Assurez-vous que vos instances de machine virtuelle (VM) disposent d'un espace disque disponible suffisant. Vous devez choisir au moins 40 Go pour le disque de démarrage lorsque vous créez la VM.

Deux possibilités s'offrent à vous pour l'installation des pilotes :

Si vous avez besoin de GPU pour des graphismes 3D avec accélération matérielle (par exemple, pour un bureau ou du jeu à distance), consultez la page Installer des pilotes pour les postes de travail virtuels (vWS) NVIDIA RTX.
Sinon, pour les autres charges de travail, suivez les instructions de ce document pour installer le pilote NVIDIA.

Conseil de pro : Vous pouvez également ignorer cette configuration en créant des VM avec des images Deep Learning VM. Les images Deep Learning VM disposent de pilotes NVIDIA préinstallés et incluent d'autres applications de machine learning, telles que TensorFlow et PyTorch.

Versions du pilote NVIDIA, de CUDA Toolkit et des environnements d'exécution CUDA

Il existe différents composants de pilotes et d'exécutions avec versions gérées qui peuvent être nécessaires dans votre environnement. En voici quelques-uns :

Pilote NVIDIA
CUDA Toolkit
Environnement d'exécution CUDA

Lors de l'installation de ces composants, vous avez la possibilité de configurer votre environnement en fonction de vos besoins. Par exemple, si vous disposez d'une version antérieure de TensorFlow qui fonctionne mieux avec une version antérieure de CUDA Toolkit, mais que le GPU que vous souhaitez utiliser nécessite une version ultérieure du pilote NVIDIA, vous pouvez associer l'installation d'une version antérieure de CUDA Toolkit à l'installation d'une version ultérieure du pilote NVIDIA.

Cependant, vous devez vous assurer que vos versions de pilote NVIDIA et de CUDA Toolkit sont compatibles. Pour connaître la compatibilité de CUDA Toolkit et du pilote NVIDIA, consultez la documentation de NVIDIA sur la compatibilité avec CUDA.

Versions du pilote NVIDIA requises

Pour les GPU NVIDIA exécutés sur Compute Engine, les versions de pilotes NVIDIA suivantes sont recommandées.

Modèle GPU	Linux	Windows
NVIDIA H100	R525: 525.125.06 ou version ultérieure R535: 535.86.10 ou version ultérieure	N/A
NVIDIA L4	525.60.13 ou ultérieure	528.89
NVIDIA A100, T4, P4, P100 et V100	470.57.02 ou ultérieure	471.41 ou ultérieure
NVIDIA K80 (Fin de période de compatibilité)	410.79 : dernière version de R470	426.00 (dernière version de R470)

Pour les GPU K80, NVIDIA a annoncé que la branche de pilote R470 serait la dernière version à bénéficier de la compatibilité avec le débogage. Pour consulter cette mise à jour, référez-vous à la matrice d'assistance logicielle NVIDIA.

Installer des pilotes de GPU sur des VM

Pour installer le pilote NVIDIA sur la plupart des VM, vous pouvez installer le NVIDIA CUDA Toolkit.

Pour installer NVIDIA Toolkit, procédez comme suit :

Sélectionnez un CUDA Toolkit compatible avec le pilote minimal dont vous avez besoin.
Connectez-vous à la VM sur laquelle vous souhaitez installer le pilote.

Sur votre VM, téléchargez et installez CUDA Toolkit. Le package d'installation et le guide du toolkit recommandé sont disponibles dans le tableau suivant. Avant d'installer le toolkit, veillez à suivre les étapes de pré-installation indiquées dans le guide d'installation.

Modèle GPU	Version minimale de CUDA Toolkit recommandée	Instructions d'installation pour la version minimale
NVIDIA H100	Linux : CUDA Toolkit 12.2 update 1 Windows: N/A	Linux : Guide d'installation de CUDA 12.2 Windows: N/A
NVIDIA L4	Linux : CUDA Toolkit 12.1 Windows : CUDA Toolkit 12.2 Update 2	Linux : Guide d'installation de CUDA 12.1 Windows : Guide d'installation de CUDA 12.2
NVIDIA A100 NVIDIA T4 NVIDIA V100 NVIDIA P100 NVIDIA P4	Linux : CUDA Toolkit 11.4 Windows : CUDA Toolkit 11.4	Linux : Guide d'installation de CUDA 11.4 Windows : Guide d'installation de CUDA 11.4

Installer des pilotes de GPU à l'aide d'un script d'installation

Vous pouvez utiliser les scripts suivants pour automatiser le processus d'installation. Pour examiner les scripts, consultez le dépôt GitHub.

Limites

Ce script ne fonctionne pas sur les VM Linux sur lesquelles le démarrage sécurisé est activé. Pour les VM Linux sur lesquelles le démarrage sécurisé est activé, consultez la section Installer des pilotes de GPU (VM avec démarrage sécurisé).
Si vous disposez de la version 2.38.0 ou ultérieure de l'agent Ops collectant des métriques GPU sur votre VM, vous devez l'arrêter pour pouvoir installer ou mettre à niveau vos pilotes de GPU à l'aide de ce script d'installation.

Une fois l'installation ou la mise à niveau du pilote de GPU terminée, vous devez redémarrer la VM.

Pour installer l'agent Ops, exécutez la commande suivante :
```
sudo systemctl stop google-cloud-ops-agent
```

Linux

Systèmes d'exploitation compatibles

Le script d'installation Linux a été testé sur les systèmes d'exploitation suivants :

CentOS 7 et 8
Debian 10 et 11
Red Hat Enterprise Linux (RHEL) 7, 8 et 9
Rocky Linux 8 et 9
Ubuntu 20 et 22

Si vous utilisez ce script sur d'autres systèmes d'exploitation, l'installation échouera. Pour les VM Linux, ce script n'installe que le pilote NVIDIA.

Assurez-vous que Python 3 est installé sur votre système d'exploitation.

Téléchargez le script d'installation.

curl https://raw.githubusercontent.com/GoogleCloudPlatform/compute-gpu-installation/main/linux/install_gpu_driver.py --output install_gpu_driver.py

Exécutez le script d'installation.
```
sudo python3 install_gpu_driver.py
```
L'exécution du script peut prendre un certain temps. Le script peut également redémarrer votre VM. Si la VM redémarre, exécutez à nouveau le script pour continuer l'installation.
Vérifiez l'installation. Consultez la section Vérifier l'installation du pilote de GPU.

Windows

Ce script d'installation peut être utilisé sur des VM pour lesquelles le démarrage sécurisé est activé.

Pour les VM Windows utilisant une série de machines G2, ce script n'installe que le pilote NVIDIA.
Pour les autres types de machines, le script installe le pilote NVIDIA et CUDA Toolkit.

Ouvrez un terminal PowerShell en tant qu'administrateur, puis procédez comme suit :

Si vous utilisez Windows Server 2016, définissez la version TLS (Transport Layer Security) sur la version 1.2.
```
[Net.ServicePointManager]::SecurityProtocol = 'Tls12'
```

Téléchargez le script.

Invoke-WebRequest https://github.com/GoogleCloudPlatform/compute-gpu-installation/raw/main/windows/install_gpu_driver.ps1 -OutFile C:\install_gpu_driver.ps1

Exécutez le script.
```
C:\install_gpu_driver.ps1
```
L'exécution du script peut prendre un certain temps. Aucune invite de commande n'est fournie pendant le processus d'installation. Une fois le script terminé, le pilote est installé.

Ce script installe les pilotes à l'emplacement par défaut suivant sur votre VM : C:\Program Files\NVIDIA Corporation\.
Vérifiez l'installation. Consultez la section Vérifier l'installation du pilote de GPU.

Installer des pilotes de GPU (VM avec démarrage sécurisé)

Ces instructions concernent l'installation de pilotes de GPU sur des VM Linux qui utilisent le démarrage sécurisé.

Si vous utilisez une VM Windows ou une VM Linux sans démarrage sécurisé, consultez plutôt l'un des jeux d'instructions suivants :

L'installation du pilote sur une VM avec démarrage sécurisé est différente pour les VM Linux, car celles-ci exigent que tous les modules du noyau soient signés par la clé approuvée par le système.

Ces instructions ne sont disponibles que pour les VM Linux avec démarrage sécurisé qui s'exécutent sur des systèmes d'exploitation Ubuntu 18.04, 20.04 et 22.04. D'autres systèmes d'exploitation Linux seront bientôt disponibles.

Pour installer des pilotes de GPU sur vos VM Ubuntu avec démarrage sécurisé, procédez comme suit :

Connectez-vous à la VM sur laquelle vous souhaitez installer le pilote.
Mettez le dépôt à jour.
```
  sudo apt-get update
```
Recherchez le package de modules de noyau NVIDIA le plus récent, ou bien la version de votre choix. Ce package contient des modules de noyau NVIDIA signés par la clé Ubuntu. Si vous souhaitez rechercher une version antérieure, modifiez le numéro du paramètre de queue pour obtenir une version antérieure. Par exemple, spécifiez tail -n 2.
Ubuntu PRO et LTS
Pour Ubuntu PRO et LTS, exécutez la commande suivante :
```
NVIDIA_DRIVER_VERSION=$(sudo apt-cache search 'linux-modules-nvidia-[0-9]+-gcp$' | awk '{print $1}' | sort | tail -n 1 | head -n 1 | awk -F"-" '{print $4}')
```
Ubuntu PRO FIPS
Pour Ubuntu PRO FIPS, exécutez les commandes suivantes :
1. Activez les mises à jour Ubuntu FIPS.
```
sudo ua enable fips-updates
```
2. Arrêtez et redémarrez
```
sudo shutdown -r now
```
3. Obtenez le dernier package.
```
NVIDIA_DRIVER_VERSION=$(sudo apt-cache search 'linux-modules-nvidia-[0-9]+-gcp-fips$' | awk '{print $1}' | sort | tail -n 1 | head -n 1 | awk -F"-" '{print $4}')
```
Vous pouvez vérifier la version de pilote choisie en exécutant echo $NVIDIA_DRIVER_VERSION. Il en résulte une chaîne de version telle que 455.
Installez le package des modules de noyau et le pilote NVIDIA correspondant.

Remarque : L'installation du package peut mettre à niveau votre noyau.
```
  sudo apt install linux-modules-nvidia-${NVIDIA_DRIVER_VERSION}-gcp nvidia-driver-${NVIDIA_DRIVER_VERSION}
```
Si la commande échoue avec une erreur de type package not found error, il se peut que le dernier pilote NVIDIA soit absent du dépôt. Réessayez l'étape précédente et sélectionnez une version de pilote antérieure en modifiant le numéro de fin.
Vérifiez que le pilote NVIDIA a bien été installé. Vous devrez peut-être redémarrer la VM.
Si vous avez redémarré le système pour vérifier la version de NVIDIA. Après le redémarrage, vous devez réinitialiser la variable NVIDIA_DRIVER_VERSION en exécutant à nouveau la commande que vous avez utilisée à l'étape 3.

Configurez APT pour utiliser le dépôt de packages NVIDIA.

Pour aider APT à choisir la dépendance appropriée, épinglez les dépôts comme suit :

sudo tee /etc/apt/preferences.d/cuda-repository-pin-600 > /dev/null <<EOL
Package: nsight-compute
Pin: origin *ubuntu.com*
Pin-Priority: -1

Package: nsight-systems
Pin: origin *ubuntu.com*
Pin-Priority: -1

Package: nvidia-modprobe
Pin: release l=NVIDIA CUDA
Pin-Priority: 600

Package: nvidia-settings
Pin: release l=NVIDIA CUDA
Pin-Priority: 600

Package: *
Pin: release l=NVIDIA CUDA
Pin-Priority: 100
EOL

Installez software-properties-common. Cette action est requise si vous utilisez des images Ubuntu Minimal.
```
 sudo apt install software-properties-common
 
```
Définissez la version d'Ubuntu.
Ubuntu 18.04
Pour Ubuntu 18.04, exécutez la commande suivante :
```
export UBUNTU_VERSION=ubuntu1804/x86_64
```
Ubuntu 20.04
Pour Ubuntu 20.04, exécutez la commande suivante :
```
export UBUNTU_VERSION=ubuntu2004/x86_64
```
Ubuntu 22.04
Pour Ubuntu 22.04, exécutez la commande suivante :
```
export UBUNTU_VERSION=ubuntu2204/x86_64
```

Téléchargez le package cuda-keyring :

wget https://developer.download.nvidia.com/compute/cuda/repos/$UBUNTU_VERSION/cuda-keyring_1.0-1_all.deb

Installez le package cuda-keyring.
```
sudo dpkg -i cuda-keyring_1.0-1_all.deb
```
Ajoutez le dépôt NVIDIA.
```
sudo add-apt-repository "deb https://developer.download.nvidia.com/compute/cuda/repos/$UBUNTU_VERSION/ /"
```
Si vous y êtes invité, sélectionnez l'action par défaut pour conserver votre version actuelle.

Recherchez la version compatible du pilote CUDA.

Le script suivant détermine la dernière version du pilote CUDA compatible avec le pilote NVIDIA que nous venons d'installer :
```
  CUDA_DRIVER_VERSION=$(apt-cache madison cuda-drivers | awk '{print $3}' | sort -r | while read line; do
     if dpkg --compare-versions $(dpkg-query -f='${Version}\n' -W nvidia-driver-${NVIDIA_DRIVER_VERSION}) ge $line ; then
        echo "$line"
        break
     fi
  done)
```
Vous pouvez vérifier la version de pilote CUDA en exécutant la commande echo $CUDA_DRIVER_VERSION. Il en résulte une chaîne de version telle que 455.32.00-1.

Installez les pilotes CUDA en spécifiant la version identifiée à l'étape précédente.

  sudo apt install cuda-drivers-${NVIDIA_DRIVER_VERSION}=${CUDA_DRIVER_VERSION} cuda-drivers=${CUDA_DRIVER_VERSION}

Facultatif : Conservez les packages dkms en attente.

Une fois le démarrage sécurisé activé, tous les modules de noyau doivent être signés pour pouvoir être chargés. Les modules de noyau créés par dkms ne fonctionnent pas sur la VM, car ils ne sont pas correctement signés par défaut. Cette étape est facultative, mais elle peut vous permettre d'éviter l'installation accidentelle d'autres packages dkms par la suite.

Pour conserver les packages dkms, exécutez la commande suivante :
```
  sudo apt-get remove dkms && sudo apt-mark hold dkms
```
Installez le CUDA Toolkit et l'environnement d'exécution CUDA.

Choisissez la version CUDA appropriée. Le script suivant détermine la dernière version de CUDA compatible avec le pilote CUDA que nous venons d'installer :
```
  CUDA_VERSION=$(apt-cache showpkg cuda-drivers | grep -o 'cuda-runtime-[0-9][0-9]-[0-9],cuda-drivers [0-9\\.]*' | while read line; do
     if dpkg --compare-versions ${CUDA_DRIVER_VERSION} ge $(echo $line | grep -Eo '[[:digit:]]+\.[[:digit:]]+') ; then
        echo $(echo $line | grep -Eo '[[:digit:]]+-[[:digit:]]')
        break
     fi
  done)
```
Vous pouvez vérifier la version CUDA en exécutant la commande echo $CUDA_VERSION. Il en résulte une chaîne de version telle que 11-1.

Installez le package CUDA.

  sudo apt install cuda-${CUDA_VERSION}

Vérifiez l'installation de CUDA.
```
  sudo nvidia-smi
  /usr/local/cuda/bin/nvcc --version
```
La première commande renvoie les informations sur le GPU. La deuxième commande affiche la version du compilateur CUDA installée.

Vérifier l'installation du pilote de GPU

Une fois l'installation du pilote effectuée, vérifiez que celui-ci est correctement installé et initialisé.

Linux

Connectez-vous à l'instance Linux et utilisez la commande nvidia-smi pour vérifier que le pilote fonctionne correctement.

sudo nvidia-smi

Le résultat ressemble à ce qui suit :

Tue Mar 21 19:50:15 2023
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 530.30.02    Driver Version: 530.30.02    CUDA Version: 12.1     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|===============================+======================+======================|
|   0  NVIDIA L4           Off  | 00000000:00:03.0 Off |                    0 |
| N/A   63C    P0    30W /  75W |      0MiB / 23034MiB |      8%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Processes:                                                                  |
|  GPU   GI   CI        PID   Type   Process name                  GPU Memory |
|        ID   ID                                                   Usage      |
|=============================================================================|
|  No running processes found                                                 |
+-----------------------------------------------------------------------------+

Si cette commande échoue, examinez les éléments suivants :

Vérifiez qu'un GPU est installé sur la VM.

Utilisez la commande suivante pour rechercher des appareils NVIDIA PCI :

sudo lspci | grep -i "nvidia".
Vérifiez que la version du noyau du pilote et celle du noyau de la VM sont identiques.
- Pour vérifier la version du noyau de la VM, exécutez la commande uname -r.
- Pour vérifier la version du noyau du pilote, exécutez la commande sudo apt-cache show linux-modules-nvidia-NVIDIA_DRIVER_VERSION-gcp.
Si les versions ne correspondent pas, redémarrez la VM avec la nouvelle version du noyau.

Windows Server

Connectez-vous à l'instance Windows Server, ouvrez un terminal PowerShell, puis exécutez la commande suivante pour vérifier que le pilote fonctionne correctement.

nvidia-smi

Le résultat ressemble à ce qui suit :

+---------------------------------------------------------------------------------------+
| NVIDIA-SMI 537.13                 Driver Version: 537.13       CUDA Version: 12.2     |
|-----------------------------------------+----------------------+----------------------+
| GPU  Name                     TCC/WDDM  | Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |         Memory-Usage | GPU-Util  Compute M. |
|                                         |                      |               MIG M. |
|=========================================+======================+======================|
|   0  NVIDIA L4                    WDDM  | 00000000:00:03.0 Off |                    0 |
| N/A   66C    P8              17W /  72W |    128MiB / 23034MiB |      0%      Default |
|                                         |                      |                  N/A |
+-----------------------------------------+----------------------+----------------------+

+---------------------------------------------------------------------------------------+
| Processes:                                                                            |
|  GPU   GI   CI        PID   Type   Process name                            GPU Memory |
|        ID   ID                                                             Usage      |
|=======================================================================================|
|    0   N/A  N/A      4888    C+G   ...CBS_cw5n1h2txyewy\TextInputHost.exe    N/A      |
|    0   N/A  N/A      5180    C+G   ....Search_cw5n1h2txyewy\SearchApp.exe    N/A      |
+---------------------------------------------------------------------------------------+

Étape suivante

Pour surveiller les performances du GPU, consultez la page Surveiller les performances du GPU.
Pour gérer la maintenance de l'hôte GPU, consultez la section Gérer les événements de maintenance de l'hôte GPU.
Pour améliorer les performances du réseau, consultez la section Utiliser une bande passante réseau plus élevée.
Pour dépanner les VM GPU, consultez la page Résoudre les problèmes liés aux VM GPU.

Installer des pilotes de GPU.

Versions du pilote NVIDIA, de CUDA Toolkit et des environnements d'exécution CUDA

Versions du pilote NVIDIA requises

Installer des pilotes de GPU sur des VM

Installer des pilotes de GPU à l'aide d'un script d'installation

Limites

Linux

Windows

Installer des pilotes de GPU (VM avec démarrage sécurisé)

Ubuntu PRO et LTS

Ubuntu PRO FIPS

Ubuntu 18.04

Ubuntu 20.04

Ubuntu 22.04

Vérifier l'installation du pilote de GPU

Linux

Windows Server

Étape suivante