此页面由 Cloud Translation API 翻译。

使用 NVIDIA MPS 在多个工作负载间共享 GPU

标准

本页面介绍如何使用 CUDA 多进程服务 (MPS) 允许多个工作负载在 Google Kubernetes Engine (GKE) 节点中共享一个 NVIDIA GPU 硬件加速器。

概览

NVIDIA MPS 是一种 GPU 共享解决方案，可让多个容器共享一个挂接到节点的物理 NVIDIA GPU 硬件。

NVIDIA MPS 依赖于 NVIDIA 的 CUDA 多进程服务。NVIDIA MPS 是 CUDA API 的二进制兼容替代实现，旨在以透明方式使协作多进程 CUDA 应用能够在单个 GPU 设备上并发运行。

借助 NVIDIA MPS，您可以指定物理 GPU 的最大共享容器数量。此值根据以下特征确定每个容器获得的物理 GPU 性能：

固定设备内存限制。
活跃线程百分比。

如需详细了解如何使用 NVIDIA MPS 调度 GPU 以及应何时使用 CUDA MPS，请参阅 GKE 中的 GPU 共享解决方案简介。

本指南的适用对象

如果您属于以下对象，则本节中的说明适用于您：

平台管理员：创建和管理 GKE 集群、规划基础架构和资源要求，并监控集群的性能。
应用开发者：在 GKE 集群上设计和部署工作负载。如需查看有关请求用于 GPU 的 NVIDIA MPS 的说明，请参阅部署使用用于 GPU 的 NVIDIA MPS 的工作负载。

要求

GKE 版本：您可以在运行 GKE 1.27.7-gke.1088000 及更高版本的 GKE Standard 集群上启用通过 NVIDIA MPS 共享 GPU。
GPU 类型：您可以为所有 NVIDIA GPU 类型启用 NVIDIA MPS。

准备工作

在开始之前，请确保您已执行以下任务：

启用 Google Kubernetes Engine API。

启用 Google Kubernetes Engine API

如果您要使用 Google Cloud CLI 执行此任务，请安装并初始化 gcloud CLI。如果您之前安装了 gcloud CLI，请运行 gcloud components update 命令以获取最新版本。较早版本的 gcloud CLI 可能不支持运行本文档中的命令。
注意：对于现有 gcloud CLI 安装，请务必设置 compute/region 属性。如果您主要使用可用区级集群，请改为设置 compute/zone。通过设置默认位置，您可以避免 gcloud CLI 中出现如下错误：One of [--zone, --region] must be supplied: Please specify location。如果集群的位置与您设置的默认位置不同，您可能需要在某些命令中指定位置。

确保您有足够的 NVIDIA GPU 配额。如果您需要更多配额，请参阅请求增加配额。
根据工作负载的资源需求和底层 GPU 的容量规划您的 GPU 容量。
查看用于 GPU 的 NVIDIA MPS 的限制。

在 GKE 集群上启用用于 GPU 的 NVIDIA MPS

作为平台管理员，您必须在 GKE Standard 集群上启用用于 GPU 的 NVIDIA MPS。然后，应用开发者可以部署工作负载，以使用用于 GPU 的 NVIDIA MPS。如需在 GKE 上启用用于 GPU 的 NVIDIA MPS，请执行以下操作：

在新的 GKE 集群上启用用于 GPU 的 NVIDIA MPS。
安装 NVIDIA GPU 设备驱动程序（如果需要）。
验证节点上可用的 GPU 资源。

在 GKE 集群上启用用于 GPU 的 NVIDIA MPS

您可以在创建 GKE Standard 集群时启用用于 GPU 的 NVIDIA MPS。集群中的默认节点池已启用该功能。在该集群中手动创建新的节点池时，您仍然需要启用用于 GPU 的 NVIDIA MPS。

使用 Google Cloud CLI 创建启用了 NVIDIA MPS 的集群：

gcloud container clusters create CLUSTER_NAME \
    --location=CONTROL_PLANE_LOCATION \
    --cluster-version=CLUSTER_VERSION \
    --machine-type=MACHINE_TYPE \
    --accelerator=type=GPU_TYPE,count=GPU_QUANTITY,gpu-sharing-strategy=mps,max-shared-clients-per-gpu=CLIENTS_PER_GPU,gpu-driver-version=DRIVER_VERSION

替换以下内容：

CLUSTER_NAME：新集群的名称。
CONTROL_PLANE_LOCATION：集群控制平面的 Compute Engine 位置。为区域级集群提供区域，或为可用区级集群提供可用区。您使用的 GPU 类型必须在所选区域中可用。
CLUSTER_VERSION：集群控制平面和节点的 GKE 版本。使用 GKE 1.27.7-gke.1088000 或更高版本。或者，您可以使用 --release-channel=RELEASE_CHANNEL 标志指定具有该 GKE 版本的发布渠道。
MACHINE_TYPE：节点的 Compute Engine 机器类型。
- 对于 GB200 GPU，请使用 A4X 机器类型。
- 对于 B200 GPU，请使用 A4 机器类型。
- 对于 H200 GPU，请使用 A3 Ultra 机器类型
- 对于 H100 GPU，请使用 A3 机器类型，而非 Ultra（Mega、High 或 Edge）
- 对于 A100 GPU，请使用 A2 机器类型
- 对于 L4 GPU，请使用 G2 机器类型
- 对于所有其他 GPU，请使用 N1 机器类型
GPU_TYPE：GPU 类型，必须是 NVIDIA GPU 平台，例如 nvidia-tesla-v100。
GPU_QUANTITY：要挂接到默认节点池中每个节点的物理 GPU 数量。
CLIENTS_PER_GPU：可以共享每个物理 GPU 的容器数量上限。
DRIVER_VERSION：要安装的 NVIDIA 驱动程序版本。可以是以下各项之一：
- default：为您的 GKE 版本安装默认驱动程序版本。
- latest：为您的 GKE 版本安装最新可用的驱动程序版本。仅适用于使用 Container-Optimized OS 的节点。
- disabled：跳过自动驱动程序安装。创建节点池后，您必须手动安装驱动程序。如果您省略 gpu-driver-version，则这是默认选项。

在新节点池上启用用于 GPU 的 NVIDIA MPS

您可以在 GKE 集群中手动创建新节点池时，启用用于 GPU 的 NVIDIA MPS。使用 Google Cloud CLI 创建启用了 NVIDIA MPS 的节点池：

gcloud container node-pools create NODEPOOL_NAME \
    --cluster=CLUSTER_NAME \
    --machine-type=MACHINE_TYPE \
    --location=CONTROL_PLANE_LOCATION \
    --accelerator=type=GPU_TYPE,count=GPU_QUANTITY,gpu-sharing-strategy=mps,max-shared-clients-per-gpu=CONTAINER_PER_GPU,gpu-driver-version=DRIVER_VERSION

替换以下内容：

NODEPOOL_NAME：新节点池的名称。
CLUSTER_NAME：您的集群的名称，该集群必须运行 1.27.7-gke.1088000 或更高版本。
CONTROL_PLANE_LOCATION：集群控制平面的 Compute Engine 位置。为区域级集群提供区域，或为可用区级集群提供可用区。
MACHINE_TYPE：节点的 Compute Engine 机器类型。对于 A100 GPU，请使用 A2 机器类型。对于所有其他 GPU，请使用 N1 机器类型。
GPU_TYPE：GPU 类型，必须是 NVIDIA GPU 平台，例如 nvidia-tesla-v100。
GPU_QUANTITY：要挂接到节点池中每个节点的物理 GPU 数量。
CONTAINER_PER_GPU：可以共享每个物理 GPU 的容器数量上限。
DRIVER_VERSION：要安装的 NVIDIA 驱动程序版本。可以是下列选项之一：
- default：为您的 GKE 版本安装默认驱动程序版本。
- latest：为您的 GKE 版本安装最新可用的驱动程序版本。仅适用于使用 Container-Optimized OS 的节点。
- disabled：跳过自动驱动程序安装。创建节点池后，您必须手动安装驱动程序。如果您省略 gpu-driver-version，则这是默认选项。
注意：gpu-driver-version 选项仅适用于 GKE 1.27.2-gke.1200 版及更高版本。在早期版本中，请省略此标志并在创建节点池后手动安装驱动程序。

安装 NVIDIA GPU 设备驱动程序

如果您在创建集群时选择了停用自动驱动程序安装，或者如果您使用低于 1.27.2-gke.1200 的 GKE 版本，则必须手动安装兼容的 NVIDIA 驱动程序来管理 NVIDIA MPS 对物理 GPU 的划分。如需安装驱动程序，请部署用于设置驱动程序的 GKE 安装 DaemonSet。

如需了解相关说明，请参阅安装 NVIDIA GPU 设备驱动程序。

验证可用的 GPU 资源

您可以验证节点中的 GPU 数量是否与启用 NVIDIA MPS 时指定的数量一致。您还可以验证 NVIDIA MPS 控制守护程序是否正在运行。

如需验证节点上可用的 GPU 资源，请运行以下命令：

kubectl describe nodes NODE_NAME

将 NODE_NAME 替换为您的节点名称。

输出类似于以下内容：

...
Capacity:
  ...
  nvidia.com/gpu:             3
Allocatable:
  ...
  nvidia.com/gpu:             3

在此输出中，由于以下值，节点上 GPU 资源的数量为 3：

max-shared-clients-per-gpu 中的值为 3。
要挂接到节点的物理 GPU 的 count 为 1。如果物理 GPU 的 count 为 2，则输出将显示 6 个可分配的 GPU 资源，每个物理 GPU 上有三个。

验证 MPS 控制守护程序是否正在运行

GPU 设备插件对 MPS 控制守护程序执行健康检查。当 MPS 控制守护程序运行状况良好时，您可以部署容器。

要验证 MPS 是否处于该状态，请运行以下命令：

kubectl logs -l k8s-app=nvidia-gpu-device-plugin -n kube-system --tail=100 | grep MPS

输出类似于以下内容：

I1118 08:08:41.732875       1 nvidia_gpu.go:75] device-plugin started
...
I1110 18:57:54.224832       1 manager.go:285] MPS is healthy, active thread percentage = 100.0
...

在输出中，您可能会看到发生了以下事件：

failed to start GPU device manager 错误在 MPS is healthy 错误之前。此错误是暂时性的。如果您看到 MPS is healthy 消息，则表示控制守护程序正在运行。
active thread percentage = 100.0 消息表示整个物理 GPU 资源都有一个完全活跃的线程。

部署使用 MPS 的工作负载

作为部署 GPU 工作负载的应用操作员，您可以指示 GKE 在同一物理 GPU 中共享 MPS 共享单元。在以下清单中，您需要请求一个物理 GPU 并设置 max-shared-clients-per-gpu=3。物理 GPU 获得三个 MPS 共享单元，并启动一个并行运行三个 Pod（容器）的 nvidia/samples:nbody 作业。

将清单保存为 gpu-mps.yaml：

  apiVersion: batch/v1
  kind: Job
  metadata:
    name: nbody-sample
  spec:
    # Specifies the desired number of successfully finished Pods.
    completions: 3
    # Specifies the maximum desired number of Pods that should run at any given time.
    parallelism: 3
    template:
      spec:
        # Allows the Pod to share the host's IPC namespace.
        # The following field is required for containers to communicate with the MPS control daemon.
        hostIPC: true
        # Selects a node with the 'mps' GPU sharing strategy.
        nodeSelector:
          cloud.google.com/gke-gpu-sharing-strategy: mps
        containers:
          - name: nbody-sample
            # A sample CUDA application from NVIDIA.
            image: nvidia/samples:nbody
            # The command to run in the container.
            command: ["/tmp/nbody"]
            # Arguments for the command. Runs the nbody simulation in benchmark mode.
            args: ["-benchmark", "-i=5000"]
            resources:
              limits:
                # Requests one MPS sharing unit from a physical GPU.
                nvidia.com/gpu: 1
        restartPolicy: "Never"
    backoffLimit: 1

在此清单中：

hostIPC: true 使 Pod 能够与 MPS 控制守护程序通信。因此必须提供。但是，请注意 hostIPC: true 配置允许容器访问主机资源，这会带来安全风险。
在基准模式下运行 5,000 次迭代。

应用清单：
```
kubectl apply -f gpu-mps.yaml
```

验证所有 pod 是否正在运行：

kubectl get pods

输出类似于以下内容：

NAME                           READY   STATUS    RESTARTS   AGE
nbody-sample-6948ff4484-54p6q   1/1     Running   0          2m6s
nbody-sample-6948ff4484-5qs6n   1/1     Running   0          2m6s
nbody-sample-6948ff4484-5zpdc   1/1     Running   0          2m5s

检查来自 Pod 的日志以验证作业是否已完成：

kubectl logs -l job-name=nbody-sample -f

输出类似于以下内容：

...
> Compute 8.9 CUDA device: [NVIDIA L4]
18432 bodies, total time for 5000 iterations: 9907.976 ms
= 171.447 billion interactions per second
= 3428.941 single-precision GFLOP/s at 20 flops per interaction
...

由于 GKE 运行 50,000 次迭代，因此日志可能需要几分钟时间。

清理

通过运行以下命令删除作业及其所有 Pod：

kubectl delete job --all

使用 NVIDIA MPS 限制固定的设备内存和活跃线程

默认情况下，在 GKE 上使用 NVIDIA MPS 调度 GPU 时，系统会将以下 CUDA 环境变量注入 GPU 工作负载：

CUDA_MPS_ACTIVE_THREAD_PERCENTAGE：此变量表示每个 MPS 共享单元可以使用的可用线程百分比。默认情况下，GPU 的每个 MPS 共享单元都设置为 100 / MaxSharedClientsPerGPU，从而根据流多处理器获得相等的 GPU 计算切片。
CUDA_MPS_PINNED_DEVICE_MEM_LIMIT：此变量用于限制 GPU 的 MPS 共享单元可以分配的 GPU 内存量。默认情况下，GPU 的每个 MPS 共享单元会设置为 total mem / MaxSharedClientsPerGPU，以获取相等的 GPU 内存切片。

注意：CUDA_MPS_PINNED_DEVICE_MEM_LIMIT 仅在 CUDA 11.5 及更高版本上有效。使用早期 CUDA 版本构建的映像不支持 CUDA_MPS_PINNED_DEVICE_MEM_LIMIT 变量。

如需为 GPU 工作负载设置资源限制，请配置以下 NVIDIA MPS 环境变量：

查看并构建 GitHub 中的 cuda-mps 示例的映像。

将以下清单保存为 cuda-mem-and-sm-count.yaml：

apiVersion: v1
kind: Pod
metadata:
  name: cuda-mem-and-sm-count
spec:
  # Allows the Pod to share the host's IPC namespace.
  # The following field is required for containers to communicate with the MPS control daemon.
  hostIPC: true
  # Selects a node with the 'mps' GPU sharing strategy.
  nodeSelector:
    cloud.google.com/gke-gpu-sharing-strategy: mps
  containers:
    - name: cuda-mem-and-sm-count
      # The custom image built from the cuda-mps example.
      image: CUDA_MPS_IMAGE
      # Grants the container extended privileges on the host machine.
      securityContext:
        privileged: true
      resources:
        limits:
          # Requests one MPS sharing unit from a physical GPU.
          nvidia.com/gpu: 1

将 CUDA_MPS_IMAGE 替换为您为 cuda-mps 示例构建的映像的名称。

NVIDIA MPS 要求您在 Pod 上设置 hostIPC:true。hostIPC:true 配置允许容器访问主机资源，这会带来安全风险。

应用清单：

kubectl apply -f cuda-mem-and-sm-count.yaml

检查此 Pod 的日志：
```
kubectl logs cuda-mem-and-sm-count
```
在将 NVIDIA Tesla L4 与 gpu-sharing-strategy=mps 和 max-shared-clients-per-gpu=3 搭配使用的示例中，输出类似于以下内容：
```
For device 0:  Free memory: 7607 M, Total memory: 22491 M
For device 0:  multiProcessorCount: 18
```
在此示例中，NVIDIA Tesla L4 GPU 具有 60 个 SM 和 24 GB 内存。每个 MPS 共享单元大约可获得 33% 的活跃线程和 8 GB 内存。

注意：多处理器数量可能不会与 CUDA_MPS_ACTIVE_THREAD_PERCENTAGE 完全匹配，因为驱动程序需要将流式多处理器数量向下舍入。CUDA 会根据 GPC（图形处理集群）边界（而不是流式多处理器边界）划分计算。

将清单更新为请求 2 个 nvidia.com/gpu：

  resources:
        limits:
          nvidia.com/gpu: 2

输出类似于以下内容：

For device 0:  Free memory: 15230 M, Total memory: 22491 M
For device 0:  multiProcessorCount: 38

更新清单以替换 CUDA_MPS_ACTIVE_THREAD_PERCENTAGE 和 CUDA_MPS_PINNED_DEVICE_MEM_LIMIT 变量：

  env:
    - name: CUDA_MPS_ACTIVE_THREAD_PERCENTAGE
      value: "20"
    - name: CUDA_MPS_PINNED_DEVICE_MEM_LIMIT
      value: "0=8000M"

输出类似于以下内容：

For device 0:  Free memory: 7952 M, Total memory: 22491 M
For device 0:  multiProcessorCount: 10

限制

与 Volta 中及之后的 GPU 类型相比，Volta 之前的 GPU (P100) 上的 MPS 功能有限。
借助 NVIDIA MPS，GKE 可确保每个容器都获得有限的固定设备内存和活跃线程。但是，并未捕获其他资源（例如内存带宽、编码器或解码器）以纳入这些资源限制。因此，如果容器都请求相同的无限制资源，则它们可能会对性能产生负面影响。
NVIDIA MPS 具有内存保护和错误控制限制。我们建议您评估此限制，以确保与您的工作负载兼容。
NVIDIA MPS 要求您在 Pod 上设置 hostIPC:true。hostIPC:true 配置允许容器访问主机资源，这会带来安全风险。
使用 NVIDIA MPS 时，GKE 可能会拒绝某些 GPU 请求，以防止在容量分配期间出现意外行为。
可以与 NVIDIA MPS 共享单个物理 GPU 的容器数量上限为 48 个（Volta 之前的 GPU 仅支持 16 个）。在规划您的 NVIDIA MPS 配置时，请考虑工作负载的资源需求以及底层物理 GPU 的容量，从而优化性能和响应速度。

后续步骤

如需详细了解 GKE 中提供的 GPU 共享策略，请参阅 GKE 中的 GPU 共享策略简介
如需详细了解多进程服务 (MPS)，请参阅 NVIDIA 文档。