使用 NVIDIA MPS 提高共享 GPU 的性能

如果您在共享 Dataflow GPU 上运行多个 SDK 进程，可以通过启用 NVIDIA 多进程服务 (MPS) 来提高 GPU 效率和利用率。MPS 通过启用进程以共享 CUDA 上下文和调度资源，支持在 GPU 上进行并发处理。MPS 可以减少上下文切换开销、提高并行性并降低存储要求。

目标工作流是指在具有多个 vCPU 的工作器上运行的 Python 流水线。

MPS 是一种 NVIDIA 技术，用于实现 CUDA API，这是一种支持通用 GPU 计算的 NVIDIA 平台。如需了解详情，请参阅 NVIDIA 多进程服务用户指南。

优势

使用 GPU 运行流水线时，通过执行以下操作启用 MPS：

在流水线选项 --dataflow_service_options 中，将 use_nvidia_mps 附加到 worker_accelerator 参数。
将 count 设置为 1。
请勿使用流水线选项 --experiments=no_use_multiple_sdk_containers。

流水线选项 --dataflow_service_options 如下所示：

--dataflow_service_options="worker_accelerator=type:GPU_TYPE;count:1;install-nvidia-driver;use_nvidia_mps"

如果您使用 TensorFlow 并启用 MPS，请执行以下操作：

在 GPU 上启用动态内存分配。使用以下任一 TensorFlow 选项：
- 通过调用 tf.config.experimental.set_memory_growth(gpu, True) 开启内存增长。
- 将环境变量 TF_FORCE_GPU_ALLOW_GROWTH 设置为 true。
使用具有适当内存限制的逻辑设备。
为获得最佳性能，请尽可能使用软设备配置或手动配置来强制使用 GPU。