GPU 的 Dataflow 支持

本页面提供有关 GPU 如何与 Dataflow 搭配使用的背景信息，包括有关前提条件和支持的 GPU 类型的信息。

在 Dataflow 作业中使用 GPU 可以加快某些数据处理任务的速度。GPU 可以比 CPU 更快地执行某些计算。这些计算通常是数值或线性代数，通常用于图片处理和机器学习应用场景。性能提高的程度因用例、计算类型和处理的数据量而异。

在 Dataflow 中使用 GPU 的前提条件

如需在 Dataflow 作业中使用 GPU，您必须使用 Runner v2。
Dataflow 会在 Docker 容器内的工作器虚拟机中运行用户代码。这些工作器虚拟机运行 Container-Optimized OS。为了让 Dataflow 作业使用 GPU，您需要满足以下前提条件：
- GPU 驱动程序安装在工作器虚拟机上，并可供 Docker 容器访问。如需了解详情，请参阅安装 GPU 驱动程序。
- 您的流水线所需的 GPU 库（例如 NVIDIA CUDA-X 库或 NVIDIA CUDA 工具包）安装在自定义容器映像中。如需了解详情，请参阅配置容器映像。
由于 GPU 容器通常很大，为避免耗尽磁盘空间，请将默认启动磁盘大小增加到 50 GB 或更多。

使用 GPU 的作业按 Dataflow 价格页面中指定的费用收费。

Dataflow 支持以下 GPU 类型：

如需详细了解每种 GPU 类型（包括性能数据），请参阅 Compute Engine GPU 平台。

如需了解 GPU 的可用区域和可用区，请参阅 Compute Engine 文档中的 GPU 区域和可用区可用性。

工作负载	A100, H100	L4	T4
模型微调	推荐
大型模型推理	推荐	推荐
中等模型推理		推荐	推荐
小型模型推理		推荐	推荐