安装 GPU 驱动程序


创建具有一个或多个 GPU 的实例后,系统需要安装 NVIDIA 设备驱动程序,以便应用可以访问该设备。确保您的虚拟机 (VM) 实例具有足够的可用磁盘空间(创建新虚拟机时,请至少为启动磁盘选择 30 GB)。

本文档介绍如何在通过公共映像自定义映像创建的虚拟机上安装 NVIDIA 专有驱动程序。

如需为虚拟工作站安装 GRID 驱动程序,请参阅为虚拟工作站安装 GRID 驱动程序

准备工作

NVIDIA 驱动程序、CUDA 工具包和 CUDA 运行时版本

您的环境中可能需要使用不同版本的驱动程序和运行时。其中包括以下组件:

  • NVIDIA 驱动程序
  • CUDA 工具包
  • CUDA 运行时

安装这些组件时,您可以配置环境以满足您的需求。例如,如果您的某个较低版本的 Tensorflow 最适合与某个较低版本的 CUDA 工具包搭配使用,但您想要使用的 GPU 需要更高版本的 NVIDIA 驱动程序,那么您可以安装较低版本的 CUDA 工具包和较高版本的 NVIDIA 驱动程序。

但是,您必须确保 NVIDIA 驱动程序和 CUDA 工具包版本兼容。如需了解 CUDA 工具包和 NVIDIA 驱动程序的兼容性,请参阅关于 CUDA 兼容性的 NVIDIA 文档。

必需的 NVIDIA 驱动程序版本

在 Compute Engine 上运行的 NVIDIA GPU 必须使用以下 NVIDIA 驱动程序版本:

  • 对于 A100 GPU:
    • Linux:450.80.02 或更高版本
    • Windows:452.77 或更高版本
  • 对于所有其他 GPU 类型:
    • Linux:NVIDIA 410.79 驱动程序或更高版本
    • Windows:426.00 驱动程序或更高版本

在虚拟机上安装 GPU 驱动程序

在大多数虚拟机上安装 NVIDIA 驱动程序的一种方法是安装 NVIDIA CUDA 工具包

要安装 NVIDIA 工具包,请完成以下步骤:

  1. 选择支持您需要的最低驱动程序版本CUDA 工具包

  2. 连接到要安装驱动程序的虚拟机

  3. 在虚拟机上,下载并安装 CUDA 工具包。下表列出了每个推荐的工具包的安装指南。在安装工具包之前,请确保完成安装指南中的安装前步骤。

    GPU 类型 建议使用的最低 CUDA 工具包版本 安装说明
    • NVIDIA A100
    • NVIDIA T4
    • NVIDIA V100
    • NVIDIA P100
    • NVIDIA P4
    • NVIDIA K80

安装脚本

您可以使用以下脚本自动执行安装过程。如需查看这些脚本,请参阅 GitHub 代码库

Linux

支持的操作系统

Linux 安装脚本已在以下操作系统上进行测试:

  • CentOS 7 和 CentOS 8
  • Debian 10 和 11
  • Red Hat Enterprise Linux (RHEL) 7 和 8
  • SUSE Linux Enterprise Server (SUSE) 15
  • Ubuntu 18 和 20

使用此脚本在其他系统上安装 GPU 驱动程序可能会失败。

  1. 确保您的操作系统上安装了 Python 3。

  2. 下载安装脚本。

    curl https://raw.githubusercontent.com/GoogleCloudPlatform/compute-gpu-installation/main/linux/install_gpu_driver.py --output install_gpu_driver.py
  3. 运行安装脚本。

    sudo python3 install_gpu_driver.py

    运行脚本需要一些时间。此操作可能会重启您的虚拟机。如果虚拟机重启,请再次运行脚本以继续安装。

  4. 验证安装。请参阅验证 GPU 驱动程序安装

Windows

此安装脚本可用于启用了安全启动的虚拟机。

以管理员身份打开 PowerShell 终端,然后完成以下步骤:

  1. 下载脚本。

    Invoke-WebRequest https://github.com/GoogleCloudPlatform/compute-gpu-installation/raw/main/windows/install_gpu_driver.ps1 -OutFile C:\install_gpu_driver.ps1
  2. 运行脚本。

    C:\install_gpu_driver.ps1

    运行脚本需要一些时间。安装过程中不会提供命令提示。脚本退出后,驱动程序即会安装。

    此脚本会在虚拟机上的以下默认位置安装这些驱动程序:C:\Program Files\NVIDIA Corporation。

  3. 验证安装。请参阅验证 GPU 驱动程序安装

在使用安全启动的虚拟机上安装 GPU 驱动程序

启用了安全启动的虚拟机需要由系统信任的密钥签署所有内核模块。

操作系统支持

  • 如需在使用安全启动的 Windows 操作系统上安装 NVIDIA 驱动程序,请参阅常规的在虚拟机上安装 GPU 驱动程序部分。
  • 对于 Linux 操作系统,仅支持 Ubuntu 18.04 和 20.04 操作系统。我们正在设法支持更多操作系统。

Ubuntu 18.04 和 20.04

  1. 连接到要安装驱动程序的虚拟机

  2. 更新代码库

    sudo apt-get update
    
  3. 搜索最新的 NVIDIA 内核模块软件包或您所需的版本。此软件包包含由 Ubuntu 密钥签名的 NVIDIA 内核模块。运行以下命令以查看最新的软件包:

    NVIDIA_DRIVER_VERSION=$(sudo apt-cache search 'linux-modules-nvidia-[0-9]+-gcp$' | awk '{print $1}' | sort | tail -n 1 | head -n 1 | awk -F"-" '{print $4}')
    

    例如,将数字指定为 2 可获取下一个早期版本:

    NVIDIA_DRIVER_VERSION=$(sudo apt-cache search 'linux-modules-nvidia-[0-9]+-gcp$' | awk '{print $1}' | sort | tail -n 2 | head -n 1 | awk -F"-" '{print $4}')
    

    您可以通过运行 echo $NVIDIA_DRIVER_VERSION 来检查选定的驱动程序版本。输出是一个类似于 455 的版本字符串。

  4. 安装内核模块软件包和相应的 NVIDIA 驱动程序:

    sudo apt install linux-modules-nvidia-${NVIDIA_DRIVER_VERSION}-gcp nvidia-driver-${NVIDIA_DRIVER_VERSION}
    

    如果该命令失败,并且显示“找不到软件包”错误,则代码库可能缺少最新的 nvidia 驱动程序。返回到最后一步,以查找早期驱动程序版本。

  5. 验证是否已安装 NVIDIA 驱动程序。您可能需要重新启动虚拟机。

  6. 配置 APT 以使用 NVIDIA 软件包代码库。

    1. 要帮助 APT 选择正确的依赖项,请按如下所示 Pin 代码库:

      sudo tee /etc/apt/preferences.d/cuda-repository-pin-600 > /dev/null <<EOL
      Package: nsight-compute
      Pin: origin *ubuntu.com*
      Pin-Priority: -1
      Package: nsight-systems Pin: origin *ubuntu.com* Pin-Priority: -1
      Package: nvidia-modprobe Pin: release l=NVIDIA CUDA Pin-Priority: 600
      Package: nvidia-settings Pin: release l=NVIDIA CUDA Pin-Priority: 600
      Package: * Pin: release l=NVIDIA CUDA Pin-Priority: 100 EOL

    2. 安装 software-properties-common。如果您使用的是 Ubuntu 最小映像,则必须执行此操作。

      sudo apt install software-properties-common
      

    3. 添加 NVIDIA 代码库:

      • Ubuntu 18.04

        sudo apt-key adv --fetch-keys https://developer.download.nvidia.com/compute/cuda/repos/ubuntu1804/x86_64/7fa2af80.pub
        sudo add-apt-repository "deb https://developer.download.nvidia.com/compute/cuda/repos/ubuntu1804/x86_64/ /"
        
      • Ubuntu 20.04

        sudo apt-key adv --fetch-keys https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/7fa2af80.pub
        sudo add-apt-repository "deb https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/ /"
        
  7. 找到兼容的 CUDA 驱动程序版本。

    以下脚本确定与我们刚刚安装的 NVIDIA 驱动程序兼容的最新 CUDA 驱动程序版本:

    CUDA_DRIVER_VERSION=$(apt-cache madison cuda-drivers | awk '{print $3}' | sort -r | while read line; do
       if dpkg --compare-versions $(dpkg-query -f='${Version}\n' -W nvidia-driver-${NVIDIA_DRIVER_VERSION}) ge $line ; then
           echo "$line"
           break
       fi
    done)
    

    您可以通过运行 echo $CUDA_DRIVER_VERSION 来检查 CUDA 驱动程序版本。输出是一个类似于 455.32.00-1 的版本字符串。

  8. 使用上一步中识别的版本安装 CUDA 驱动程序。

    sudo apt install cuda-drivers-${NVIDIA_DRIVER_VERSION}=${CUDA_DRIVER_VERSION} cuda-drivers=${CUDA_DRIVER_VERSION}
    

  9. 可选:保留 dkms 软件包。

    启用安全启动后,所有内核模块必须先签署然后才能加载。dkms 构建的内核模块不适用于虚拟机,因为在默认情况下它们没有正确签署。这是一个可选步骤,但它有助于防止您将来在无意中安装其他 dkms 软件包。

    如需保留 dkms 软件包,请运行以下命令:

    sudo apt-get remove dkms && sudo apt-mark hold dkms
    
  10. 安装 CUDA 工具包和运行时。

    选择合适的 CUDA 版本。以下脚本确定与我们刚刚安装的 CUDA 驱动程序兼容的最新 CUDA 版本:

    CUDA_VERSION=$(apt-cache showpkg cuda-drivers | grep -o 'cuda-runtime-[0-9][0-9]-[0-9],cuda-drivers [0-9\.]*' | while read line; do
       if dpkg --compare-versions ${CUDA_DRIVER_VERSION} ge $(echo $line | grep -Eo '[[:digit:]]+\.[[:digit:]]+') ; then
           echo $(echo $line | grep -Eo '[[:digit:]]+-[[:digit:]]')
           break
       fi
    done)
    

    您可以通过运行 echo $CUDA_VERSION 来检查 CUDA 版本。输出是一个类似于 11-1 的版本字符串。

    安装 CUDA 软件包:

    sudo apt install cuda-${CUDA_VERSION}
    

  11. 验证 CUDA 安装:

    sudo nvidia-smi
    /usr/local/cuda/bin/nvcc --version
    
    第一条命令输出 GPU 信息。第二条命令输出已安装的 CUDA 编译器版本。

验证 GPU 驱动程序的安装

驱动程序安装步骤完成后,请验证该驱动程序是否已正确安装和初始化。

Linux

连接到 Linux 实例,然后使用 nvidia-smi 命令验证该驱动程序是否正常运行。

sudo nvidia-smi

输出内容类似如下:

Mon Oct 11 12:51:37 2021
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 470.57.02    Driver Version: 470.57.02    CUDA Version: 11.4     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|===============================+======================+======================|
|   0  NVIDIA A100-SXM...  Off  | 00000000:00:04.0 Off |                    0 |
| N/A   41C    P0    50W / 400W |      0MiB / 40536MiB |      0%      Default |
|                               |                      |             Disabled |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Processes:                                                                  |
|  GPU   GI   CI        PID   Type   Process name                  GPU Memory |
|        ID   ID                                                   Usage      |
|=============================================================================|
|  No running processes found                                                 |
+-----------------------------------------------------------------------------+

如果此命令失败,请查看以下内容:

  • 检查该虚拟机是否挂接了任何 GPU。

    使用以下命令检查是否有任何 NVIDIA PCI 设备:

    sudo lspci | grep -i "nvidia"

  • 检查驱动程序内核版本和虚拟机内核版本是否相同。

    • 如需检查虚拟机内核版本,请运行 uname -r
    • 如需检查驱动程序内核版本,请运行 sudo apt-cache show linux-modules-nvidia-NVIDIA_DRIVER_VERSION-gcp

    如果版本不匹配,请重新启动虚拟机到新的内核版本。

Windows Server

连接到 Windows Server 实例并以管理员身份打开 PowerShell 终端,然后运行以下命令,验证该驱动程序是否正常运行。

&"C:\Program Files\NVIDIA Corporation\NVSMI\nvidia-smi.exe"

输出内容类似如下:

Mon Oct 11 12:13:10 2021
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 462.31       Driver Version: 462.31       CUDA Version: 11.2     |
|-------------------------------+----------------------+----------------------+
| GPU  Name            TCC/WDDM | Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|===============================+======================+======================|
|   0  Tesla T4           WDDM  | 00000000:00:04.0 Off |                    0 |
| N/A   50C    P8    18W /  70W |    570MiB / 15360MiB |      2%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Processes:                                                                  |
|  GPU   GI   CI        PID   Type   Process name                  GPU Memory |
|        ID   ID                                                   Usage      |
|=============================================================================|
|    0   N/A  N/A       408    C+G   Insufficient Permissions        N/A      |
|    0   N/A  N/A      3120    C+G   ...w5n1h2txyewy\SearchUI.exe    N/A      |
|    0   N/A  N/A      4056    C+G   Insufficient Permissions        N/A      |
|    0   N/A  N/A      4176    C+G   ...y\ShellExperienceHost.exe    N/A      |
|    0   N/A  N/A      5276    C+G   C:\Windows\explorer.exe         N/A      |
|    0   N/A  N/A      5540    C+G   ...in7x64\steamwebhelper.exe    N/A      |
|    0   N/A  N/A      6296    C+G   ...y\GalaxyClient Helper.exe    N/A      |
+-----------------------------------------------------------------------------+

后续步骤