GPU-Treiber installieren

Nachdem Sie eine Instanz mit einer oder mehreren GPUs erstellt haben, benötigt Ihr System Gerätetreiber, damit Ihre Anwendungen auf das Gerät zugreifen können. Diese Übersicht erläutert die Möglichkeiten zur Installation von NVIDIA-eigenen Treibern für Instanzen mit öffentlichen Images.

Informationen zur Installation der GRID-Treiber für virtuelle Workstations finden Sie unter GRID-Treiber für virtuelle Workstations installieren.

Vorbereitung

Für jede CUDA-Version ist mindestens eine GPU-Treiberversion oder eine neuere Version erforderlich. Informationen zum Überprüfen des für Ihre CUDA-Version erforderlichen Mindesttreibers finden Sie unter CUDA Toolkit und kompatible Treiberversionen.

NVIDIA-GPUs, die auf Compute Engine ausgeführt werden, müssen die folgenden Treiberversionen verwenden:

  • Linux-Instanzen:

    • NVIDIA-Treiber 410.79 oder höher
  • Windows Server-Instanzen:

    • NVIDIA-Treiber 426.00 oder höher

Bei den meisten Treiberinstallationen können Sie diese Treiber abrufen, indem Sie das NVIDIA CUDA Toolkit installieren.

Führen Sie die folgenden Schritte aus, um CUDA und die zugehörigen Treiber für NVIDIA®-GPUs zu installieren. Prüfen Sie die Anforderungen Ihrer Anwendung, um die beste Treiberversion zu finden. Wenn die von Ihnen verwendete Software eine bestimmte Version von CUDA erfordert, ändern Sie die Befehle so, dass die von Ihnen benötigte Version von CUDA heruntergeladen wird.

Informationen zum Support von CUDA und zu Schritten zum Ändern Ihrer CUDA-Installation finden Sie in der CUDA Toolkit-Dokumentation.

Sie können diese Methode anwenden, um Treiber in Instanzen mit den gängigsten öffentlichen Images manuell zu installieren. Für benutzerdefinierte Images müssen Sie eventuell die Methode modifizieren, damit sie in Ihrer individuellen Umgebung funktioniert.

Ihr Betriebssystem muss über die neuesten Paketupdates verfügen, um eine erfolgreiche Installation sicherzustellen.

CentOS/RHEL

  1. Installieren Sie das neueste Kernel-Paket. Bei Bedarf wird mit diesem Befehl auch das System neu gestartet.

    sudo yum clean all
    sudo yum install -y kernel | grep -q 'already installed' || sudo reboot
    
  2. Wenn das System im vorherigen Schritt neu gestartet wurde, stellen Sie die Verbindung zur Instanz wieder her.

  3. Installieren Sie Kernelheader und Entwicklungspakete.

    sudo yum install -y kernel-devel-$(uname -r) kernel-headers-$(uname -r)
    
  4. Wählen Sie ein Treiber-Repository für das CUDA Toolkit aus und fügen Sie es Ihrer Instanz hinzu.

    • CentOS/RHEL 8

      sudo yum install http://developer.download.nvidia.com/compute/cuda/repos/rhel8/x86_64/cuda-repo-rhel8-10.1.243-1.x86_64.rpm
      
    • CentOS/RHEL 7

      sudo yum install http://developer.download.nvidia.com/compute/cuda/repos/rhel7/x86_64/cuda-repo-rhel7-10.0.130-1.x86_64.rpm
      
    • CentOS/RHEL 6

      sudo yum install http://developer.download.nvidia.com/compute/cuda/repos/rhel6/x86_64/cuda-repo-rhel6-10.0.130-1.x86_64.rpm
      
  5. Installieren Sie das epel-release-Repository. Dieses Repository enthält die DKMS-Pakete, die zum Installieren der NVIDIA-Treiber unter CentOS erforderlich sind.

    • CentOS 6/7/8 und RHEL 6/7

      sudo yum install epel-release
      
    • Nur RHEL 8

      sudo yum install https://dl.fedoraproject.org/pub/epel/epel-release-latest-8.noarch.rpm
      
  6. Leeren Sie den Yum-Cache:

    sudo yum clean all
    
  7. Installieren Sie CUDA. Dieses Paket enthält den NVIDIA-Treiber.

    sudo yum install cuda
    

SLES

  1. Stellen Sie eine Verbindung zu der Instanz her, auf der Sie den Treiber installieren möchten.

  2. Installieren Sie das neueste Kernel-Paket. Bei Bedarf wird mit diesem Befehl auch das System neu gestartet.

    sudo zypper refresh
    sudo zypper up -y kernel-default | grep -q 'already installed' || sudo reboot
    
  3. Wenn das System im vorherigen Schritt neu gestartet wurde, stellen Sie die Verbindung zur Instanz wieder her.

  4. Wählen Sie ein Treiber-Repository für das CUDA Toolkit aus und fügen Sie es Ihrer Instanz hinzu.

    • SLES 15

      sudo rpm --import https://developer.download.nvidia.com/compute/cuda/repos/sles15/x86_64/7fa2af80.pub
      sudo yum install https://developer.download.nvidia.com/compute/cuda/repos/sles15/x86_64/cuda-repo-sles15-10.0.130-1.x86_64.rpm
      
    • SLES 12 mit Service Pack 4

      sudo rpm --import https://developer.download.nvidia.com/compute/cuda/repos/sles124/x86_64/7fa2af80.pub
      sudo yum install https://developer.download.nvidia.com/compute/cuda/repos/sles124/x86_64/cuda-repo-sles124-10.1.243-1.x86_64.rpm
      
  5. Aktualisieren Sie Zypper.

    sudo zypper refresh
    
  6. Installieren Sie CUDA, das auch den NVIDIA-Treiber enthält.

    sudo zypper install cuda
    

Ubuntu

  1. Stellen Sie eine Verbindung zu der Instanz her, auf der Sie den Treiber installieren möchten.

  2. Wählen Sie ein Treiber-Repository für das CUDA Toolkit aus und fügen Sie es Ihrer Instanz hinzu.

    • Ubuntu 18.04 LTS

      curl -O http://developer.download.nvidia.com/compute/cuda/repos/ubuntu1804/x86_64/cuda-repo-ubuntu1804_10.0.130-1_amd64.deb
      sudo dpkg -i cuda-repo-ubuntu1804_10.0.130-1_amd64.deb
      sudo apt-key adv --fetch-keys http://developer.download.nvidia.com/compute/cuda/repos/ubuntu1804/x86_64/7fa2af80.pub
      
    • Ubuntu 16.04 LTS

      curl -O http://developer.download.nvidia.com/compute/cuda/repos/ubuntu1604/x86_64/cuda-repo-ubuntu1604_10.0.130-1_amd64.deb
      sudo dpkg -i cuda-repo-ubuntu1604_10.0.130-1_amd64.deb
      sudo apt-key adv --fetch-keys http://developer.download.nvidia.com/compute/cuda/repos/ubuntu1604/x86_64/7fa2af80.pub
      
  3. Aktualisieren Sie die Paketlisten.

    sudo apt-get update
    
  4. Installieren Sie CUDA, das auch den NVIDIA-Treiber enthält.

    sudo apt-get install cuda
    

Windows Server

  1. Stellen Sie eine Verbindung zu der Instanz her, auf der Sie den Treiber installieren möchten.

  2. Laden Sie eine .exe-Installationsdatei auf Ihre Instanz herunter, die den R426-Branch enthält: den NVIDIA-Treiber 426.00 oder höher. Für die meisten Windows Server-Instanzen können Sie eine der folgenden Optionen verwenden:

    In Windows Server 2019 können Sie beispielsweise ein PowerShell-Terminal als Administrator öffnen und mit dem Befehl wget das benötigte Treiberinstallationsprogramm herunterladen:

    PS C:\> wget https://developer.download.nvidia.com/compute/cuda/10.1/Prod/network_installers/cuda_10.1.243_win10_network.exe -O cuda_10.1.243_win10_network.exe
  3. Führen Sie das .exe-Installationsprogramm aus. Sie können zum Beispiel ein PowerShell-Terminal als Administrator öffnen und den folgenden Befehl ausführen.

    PS C:\> .\\cuda_10.1.243_win10_network.exe
    

Installation des GPU-Treibers prüfen

Prüfen Sie nach Abschluss der Treiberinstallationsschritte, ob der Treiber ordnungsgemäß installiert und initialisiert wurde.

Linux

Stellen Sie eine Verbindung zur Linux-Instanz her und prüfen Sie mit dem Befehl nvidia-smi, ob der Treiber korrekt ausgeführt wird.

nvidia-smi

Die Ausgabe sollte so aussehen:

Wed Jan  2 19:51:51 2019
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 410.79       Driver Version: 410.79       CUDA Version: 10.0     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  Tesla P4            Off  | 00000000:00:04.0 Off |                    0 |
| N/A   42C    P8     7W /  75W |     62MiB /  7611MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+

Windows Server

Stellen Sie eine Verbindung zur Windows Server-Instanz her und prüfen Sie mithilfe des Tools nvidia-smi.exe, ob der Treiber ordnungsgemäß ausgeführt wird.

& 'C:\Program Files\NVIDIA Corporation\NVSMI\nvidia-smi.exe'

Die Ausgabe sollte so aussehen:

Mon Aug 26 18:09:03 2019
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 426.00      Driver Version: 426.00       CUDA Version: 10.1      |
|-------------------------------+----------------------+----------------------+
| GPU  Name            TCC/WDDM | Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  Tesla P4            TCC  | 00000000:00:04.0 Off |                    0 |
| N/A   27C    P8     7W /  75W |      0MiB /  7611MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+

Weitere Informationen