安装 GPU 驱动程序

创建具有一个或多个 GPU 的实例后,您必须安装系统所需的设备驱动程序,以便您的应用可以访问该设备。本指南介绍如何在具有公共映像的实例上安装 NVIDIA 专有驱动程序。

如需为虚拟工作站安装 GRID 驱动程序,请参阅为虚拟工作站安装 GRID 驱动程序

准备工作

各个版本的 CUDA 都有最低 GPU 驱动程序版本(或更新版本)要求。 如需查看您的 CUDA 版本所需的最低驱动程序版本,请参阅 CUDA 工具包和兼容驱动程序版本

在 Compute Engine 上运行的 NVIDIA GPU 必须使用以下驱动程序版本:

  • Linux 实例:

    • NVIDIA 410.79 驱动程序或更高版本
  • Windows Server 实例:

    • NVIDIA 426.00 驱动程序或更高版本

对于大多数驱动程序的安装,您可以通过安装 NVIDIA CUDA 工具包来获取这些驱动程序。

如需安装 CUDA 和关联的 NVIDIA® GPU 驱动程序,请按照以下步骤操作。您可以查看您的应用需求来确定最适用的驱动程序版本。如果您使用的软件需要特定版本的 CUDA,请修改命令以下载您所需的 CUDA 版本。

如需了解对 CUDA 的支持以及修改 CUDA 安装的步骤,请参阅 CUDA 工具包文档

对于大多数公共映像,您都可以使用此过程在具备这些映像的实例上手动安装驱动程序。对于自定义映像,您可能需要修改该过程才能在您的独特环境中顺利执行。

为了确保安装成功,您的操作系统必须已安装最新的软件包更新。

CentOS/RHEL

  1. 安装最新的内核软件包。如果需要,此命令也会重新启动系统。

    sudo yum clean all
    sudo yum install -y kernel | grep -q 'already installed' || sudo reboot
    
  2. 如果系统在上一步中重新启动,请重新连接到该实例。

  3. 安装内核标头和开发软件包。

    sudo yum install -y kernel-devel-$(uname -r) kernel-headers-$(uname -r)
    
  4. 选择 CUDA 工具包的驱动程序存储库,并将其添加到您的实例中。

    • CentOS/RHEL 8

      sudo yum install http://developer.download.nvidia.com/compute/cuda/repos/rhel8/x86_64/cuda-repo-rhel8-10.1.243-1.x86_64.rpm
      
    • CentOS/RHEL 7

      sudo yum install http://developer.download.nvidia.com/compute/cuda/repos/rhel7/x86_64/cuda-repo-rhel7-10.0.130-1.x86_64.rpm
      
    • CentOS/RHEL 6

      sudo yum install http://developer.download.nvidia.com/compute/cuda/repos/rhel6/x86_64/cuda-repo-rhel6-10.0.130-1.x86_64.rpm
      
  5. 安装 epel-release 存储库。该存储库包含在 CentOS 上安装 NVIDIA 驱动程序所需的 DKMS 软件包。

    • CentOS 6/7/8 和 RHEL 6/7

      sudo yum install epel-release
      
    • 仅限 RHEL 8

      sudo yum install https://dl.fedoraproject.org/pub/epel/epel-release-latest-8.noarch.rpm
      
  6. 清理 Yum 缓存:

    sudo yum clean all
    
  7. 安装 CUDA(此软件包包含 NVIDIA 驱动程序)。

    sudo yum install cuda
    

SLES

  1. 连接到您需要安装驱动程序的实例

  2. 安装最新的内核软件包。如果需要,此命令也会重新启动系统。

    sudo zypper refresh
    sudo zypper up -y kernel-default | grep -q 'already installed' || sudo reboot
    
  3. 如果系统在上一步中重新启动,请重新连接到该实例。

  4. 选择 CUDA 工具包的驱动程序存储库,并将其添加到您的实例中。

    • SLES 15

      sudo rpm --import https://developer.download.nvidia.com/compute/cuda/repos/sles15/x86_64/7fa2af80.pub
      sudo yum install https://developer.download.nvidia.com/compute/cuda/repos/sles15/x86_64/cuda-repo-sles15-10.0.130-1.x86_64.rpm
      
    • SLES 12 Service Pack 4

      sudo rpm --import https://developer.download.nvidia.com/compute/cuda/repos/sles124/x86_64/7fa2af80.pub
      sudo yum install https://developer.download.nvidia.com/compute/cuda/repos/sles124/x86_64/cuda-repo-sles124-10.1.243-1.x86_64.rpm
      
  5. 刷新 Zypper。

    sudo zypper refresh
    
  6. 安装包含 NVIDIA 驱动程序的 CUDA。

    sudo zypper install cuda
    

Ubuntu

  1. 连接到您需要安装驱动程序的实例

  2. 选择 CUDA 工具包的驱动程序存储库,并将其添加到您的实例中。

    • Ubuntu 18.04 LTS

      curl -O http://developer.download.nvidia.com/compute/cuda/repos/ubuntu1804/x86_64/cuda-repo-ubuntu1804_10.0.130-1_amd64.deb
      sudo dpkg -i cuda-repo-ubuntu1804_10.0.130-1_amd64.deb
      sudo apt-key adv --fetch-keys http://developer.download.nvidia.com/compute/cuda/repos/ubuntu1804/x86_64/7fa2af80.pub
      
    • Ubuntu 16.04 LTS

      curl -O http://developer.download.nvidia.com/compute/cuda/repos/ubuntu1604/x86_64/cuda-repo-ubuntu1604_10.0.130-1_amd64.deb
      sudo dpkg -i cuda-repo-ubuntu1604_10.0.130-1_amd64.deb
      sudo apt-key adv --fetch-keys http://developer.download.nvidia.com/compute/cuda/repos/ubuntu1604/x86_64/7fa2af80.pub
      
  3. 更新软件包列表。

    sudo apt update
    
  4. 安装包含 NVIDIA 驱动程序的 CUDA。

    sudo apt install cuda
    

Windows Server

  1. 连接到您需要安装驱动程序的实例

  2. 将包含 R426 分支(NVIDIA 426.00 或更高版本驱动程序)的 .exe 安装程序文件下载到您的实例。对于大多数 Windows Server 实例,可以使用以下选项之一:

    例如,在 Windows Server 2019 中,您可以以管理员身份打开 PowerShell 终端,并使用 wget 命令下载所需的驱动程序安装程序。

    PS C:\> wget https://developer.download.nvidia.com/compute/cuda/10.1/Prod/network_installers/cuda_10.1.243_win10_network.exe -O cuda_10.1.243_win10_network.exe
  3. 运行 .exe 安装程序。例如,您可以以管理员身份打开 PowerShell 终端并运行以下命令。

    PS C:\> .\\cuda_10.1.243_win10_network.exe
    

验证 GPU 驱动程序的安装

驱动程序安装步骤完成后,请验证该驱动程序是否已正确安装和初始化。

Linux

连接到 Linux 实例,然后使用 nvidia-smi 命令验证该驱动程序是否正常运行。

nvidia-smi

输出类似以下内容:

Wed Jan  2 19:51:51 2019
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 410.79       Driver Version: 410.79       CUDA Version: 10.0     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  Tesla P4            Off  | 00000000:00:04.0 Off |                    0 |
| N/A   42C    P8     7W /  75W |     62MiB /  7611MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+

Windows Server

连接到 Windows Server 实例,并使用 nvidia-smi.exe 工具验证该驱动程序是否正常运行。

& 'C:\Program Files\NVIDIA Corporation\NVSMI\nvidia-smi.exe'

输出类似以下内容:

Mon Aug 26 18:09:03 2019
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 426.00      Driver Version: 426.00       CUDA Version: 10.1      |
|-------------------------------+----------------------+----------------------+
| GPU  Name            TCC/WDDM | Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  Tesla P4            TCC  | 00000000:00:04.0 Off |                    0 |
| N/A   27C    P8     7W /  75W |      0MiB /  7611MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+

后续步骤