配置用于预测的计算资源

Vertex AI 会分配节点nodes以处理在线预测和批量预测。在将自定义训练模型或 AutoML 模型部署到 Endpoint 资源来进行在线预测或在请求批量预测时，可以自定义预测服务要在这些节点中使用的虚拟机类型。您还可以选择配置预测节点以使用 GPU。

机器类型在几个方面有差异：

每个节点的虚拟 CPU (vCPU) 数量
每个节点的内存量
价格

通过选择具有更多计算资源的机器类型，您可以缩短执行预测的延迟时间，也可以同时处理更多预测请求。

管理费用和可用性

为帮助管理费用或确保虚拟机资源的可用性，Vertex AI 提供了以下功能：

为确保虚拟机资源在预测作业需要时可用，您可以使用 Compute Engine 预留。预留为获取 Compute Engine 资源的容量提供了较高的保障。如需了解详情，请参阅将预留与预测搭配使用。
如需降低运行预测作业的费用，您可以使用 Spot 虚拟机。Spot 虚拟机是过剩的 Compute Engine 容量的虚拟机 (VM) 实例。Spot 虚拟机的折扣力度很大，但 Compute Engine 可能会提前停止或删除 Spot 虚拟机来随时收回容量。如需了解详情，请参阅将预测功能与 Spot 虚拟机搭配使用。

指定计算资源的位置

在线预测

如果您想使用自定义训练的模型或 AutoML 表格模型执行在线预测，则必须在将 Model 资源作为 DeployedModel 部署到 Endpoint 时指定机器类型。对于其他类型的 AutoML 模型，Vertex AI 会自动配置机器类型。

在 DeployedModel 的 dedicatedResources.machineSpec 字段中指定机器类型（以及可选的 GPU 配置）。

了解如何部署每种模型类型：

批量预测

如果要从自定义模型或 AutoML 表格模型获取批量预测，则必须在创建 BatchPredictionJob 资源时指定机器类型。在 BatchPredictionJob 的 dedicatedResources.machineSpec 字段中指定机器类型（以及可选的 GPU 配置）。

机器类型

下表比较了可用于在自定义训练的模型和 AutoML 表格模型上执行预测的机器类型：

E2 系列

名称	vCPUs	内存 (GB)
`e2-standard-2`	2	8
`e2-standard-4`	4	16
`e2-standard-8`	8	32
`e2-standard-16`	16	64
`e2-standard-32`	32	128
`e2-highmem-2`	2	16
`e2-highmem-4`	4	32
`e2-highmem-8`	8	64
`e2-highmem-16`	16	128
`e2-highcpu-2`	2	2
`e2-highcpu-4`	4	4
`e2-highcpu-8`	8	8
`e2-highcpu-16`	16	16
`e2-highcpu-32`	32	32

N1 系列

名称	vCPUs	内存 (GB)
`n1-standard-2`	2	7.5
`n1-standard-4`	4	15
`n1-standard-8`	8	30
`n1-standard-16`	16	60
`n1-standard-32`	32	120
`n1-highmem-2`	2	13
`n1-highmem-4`	4	26
`n1-highmem-8`	8	52
`n1-highmem-16`	16	104
`n1-highmem-32`	32	208
`n1-highcpu-4`	4	3.6
`n1-highcpu-8`	8	7.2
`n1-highcpu-16`	16	14.4
`n1-highcpu-32`	32	28.8

N2 系列

名称	vCPUs	内存 (GB)
`n2-standard-2`	2	8
`n2-standard-4`	4	16
`n2-standard-8`	8	32
`n2-standard-16`	16	64
`n2-standard-32`	32	128
`n2-standard-48`	48	192
`n2-standard-64`	64	256
`n2-standard-80`	80	320
`n2-standard-96`	96	384
`n2-standard-128`	128	512
`n2-highmem-2`	2	16
`n2-highmem-4`	4	32
`n2-highmem-8`	8	64
`n2-highmem-16`	16	128
`n2-highmem-32`	32	256
`n2-highmem-48`	48	384
`n2-highmem-64`	64	512
`n2-highmem-80`	80	640
`n2-highmem-96`	96	768
`n2-highmem-128`	128	864
`n2-highcpu-2`	2	2
`n2-highcpu-4`	4	4
`n2-highcpu-8`	8	8
`n2-highcpu-16`	16	16
`n2-highcpu-32`	32	32
`n2-highcpu-48`	48	48
`n2-highcpu-64`	64	64
`n2-highcpu-80`	80	80
`n2-highcpu-96`	96	96

N2D 系列

名称	vCPUs	内存 (GB)
`n2d-standard-2`	2	8
`n2d-standard-4`	4	16
`n2d-standard-8`	8	32
`n2d-standard-16`	16	64
`n2d-standard-32`	32	128
`n2d-standard-48`	48	192
`n2d-standard-64`	64	256
`n2d-standard-80`	80	320
`n2d-standard-96`	96	384
`n2d-standard-128`	128	512
`n2d-standard-224`	224	896
`n2d-highmem-2`	2	16
`n2d-highmem-4`	4	32
`n2d-highmem-8`	8	64
`n2d-highmem-16`	16	128
`n2d-highmem-32`	32	256
`n2d-highmem-48`	48	384
`n2d-highmem-64`	64	512
`n2d-highmem-80`	80	640
`n2d-highmem-96`	96	768
`n2d-highcpu-2`	2	2
`n2d-highcpu-4`	4	4
`n2d-highcpu-8`	8	8
`n2d-highcpu-16`	16	16
`n2d-highcpu-32`	32	32
`n2d-highcpu-48`	48	48
`n2d-highcpu-64`	64	64
`n2d-highcpu-80`	80	80
`n2d-highcpu-96`	96	96
`n2d-highcpu-128`	128	128
`n2d-highcpu-224`	224	224

C2 系列

名称	vCPUs	内存 (GB)
`c2-standard-4`	4	16
`c2-standard-8`	8	32
`c2-standard-16`	16	64
`c2-standard-30`	30	120
`c2-standard-60`	60	240

C2D 系列

名称	vCPUs	内存 (GB)
`c2d-standard-2`	2	8
`c2d-standard-4`	4	16
`c2d-standard-8`	8	32
`c2d-standard-16`	16	64
`c2d-standard-32`	32	128
`c2d-standard-56`	56	224
`c2d-standard-112`	112	448
`c2d-highcpu-2`	2	4
`c2d-highcpu-4`	4	8
`c2d-highcpu-8`	8	16
`c2d-highcpu-16`	16	32
`c2d-highcpu-32`	32	64
`c2d-highcpu-56`	56	112
`c2d-highcpu-112`	112	224
`c2d-highmem-2`	2	16
`c2d-highmem-4`	4	32
`c2d-highmem-8`	8	64
`c2d-highmem-16`	16	128
`c2d-highmem-32`	32	256
`c2d-highmem-56`	56	448
`c2d-highmem-112`	112	896

C3 系列

名称	vCPUs	内存 (GB)
`c3-highcpu-4`	4	8
`c3-highcpu-8`	8	16
`c3-highcpu-22`	22	44
`c3-highcpu-44`	44	88
`c3-highcpu-88`	88	176
`c3-highcpu-176`	176	352

A2 系列

名称	vCPUs	内存 (GB)	GPU (NVIDIA A100)
`a2-highgpu-1g`	12	85	1 (A100 40GB)
`a2-highgpu-2g`	24	170	2 (A100 40GB)
`a2-highgpu-4g`	48	340	4 (A100 40GB)
`a2-highgpu-8g`	96	680	8 (A100 40GB)
`a2-megagpu-16g`	96	1360	16 (A100 40GB)
`a2-ultragpu-1g`	12	170	1 (A100 80GB)
`a2-ultragpu-2g`	24	340	2 (A100 80GB)
`a2-ultragpu-4g`	48	680	4 (A100 80GB)
`a2-ultragpu-8g`	96	1360	8 (A100 80GB)

A3 系列

名称	vCPUs	内存 (GB)	GPU (NVIDIA H100)
`a3-highgpu-2g`	52	468	2 (H100 80GB)
`a3-highgpu-4g`	104	936	4 (H100 80GB)
`a3-highgpu-8g`	208	1872	8 (H100 80GB)

G2 系列

名称	vCPUs	内存 (GB)	GPU (NVIDIA L4)
`g2-standard-4`	4	16	1
`g2-standard-8`	8	32	1
`g2-standard-12`	12	48	1
`g2-standard-16`	16	64	1
`g2-standard-24`	24	96	2
`g2-standard-32`	32	128	1
`g2-standard-48`	48	192	4
`g2-standard-96`	96	384	8

了解每种机器类型的价格。如需详细了解这些机器类型的详细规范，请参阅有关机器类型的 Compute Engine 文档。

找到理想的机器类型

在线预测

如需找到适合您的应用场景的理想机器类型，我们建议您在多种机器类型上加载模型并衡量延迟时间、费用、并发和吞吐量等特征。

一种方法是在多种机器类型上运行此笔记本，并比较结果以找到最适合您的机器类型。

Vertex AI 会在每个副本上预留大约 1 个 vCPU 来运行系统进程。这意味着在单核机器类型上运行笔记本与使用 2 核机器类型执行预测相当。

在考虑预测费用时，请注意，虽然较大的机器费用较高，但它们可以降低总费用，因为处理相同的工作负载需要较少的副本。这对于 GPU 来说尤其明显，因为每小时的费用往往更高，但两者都可以降低延迟和总费用。

批量预测

如需了解详情，请参阅选择机器类型和副本数量。

可选 GPU 加速器

某些配置（例如 A2 系列和 G2 系列）内置了固定数量的 GPU。

其他配置（如 N1 系列）允许您选择添加 GPU 以加快每个预测节点的速度。

如需添加可选的 GPU 加速器，您必须考虑以下几个要求：

只有当您的 Model 资源基于 TensorFlow SavedModel，或者当您使用旨在充分利用 GPU 的自定义容器时，您才能使用 GPU。您不能将 GPU 用于 scikit-learn 或 XGBoost 模型。
每种 GPU 类型的可用性因模型使用的区域而异。了解哪些区域提供了哪些类型的 GPU。
您只能为 DeployedModel 资源或 BatchPredictionJob 使用一种 GPU 类型，您可以添加的 GPU 数量有一定限制，具体取决于您在使用的机器类型。下表介绍了这些限制。

下表展示了可用于在线预测的可选 GPU 以及可用于每种 Compute Engine 机器类型的每种 GPU 类型的数量：

每种机器类型的有效 GPU 数量
机器类型	NVIDIA Tesla P100	NVIDIA Tesla V100	NVIDIA Tesla P4	NVIDIA Tesla T4
`n1-standard-2`	1、2、4	1、2、4、8	1、2、4	1、2、4
`n1-standard-4`	1、2、4	1、2、4、8	1、2、4	1、2、4
`n1-standard-8`	1、2、4	1、2、4、8	1、2、4	1、2、4
`n1-standard-16`	1、2、4	2、4、8	1、2、4	1、2、4
`n1-standard-32`	2、4	4、8	2、4	2、4
`n1-highmem-2`	1、2、4	1、2、4、8	1、2、4	1、2、4
`n1-highmem-4`	1、2、4	1、2、4、8	1、2、4	1、2、4
`n1-highmem-8`	1、2、4	1、2、4、8	1、2、4	1、2、4
`n1-highmem-16`	1、2、4	2、4、8	1、2、4	1、2、4
`n1-highmem-32`	2、4	4、8	2、4	2、4
`n1-highcpu-2`	1、2、4	1、2、4、8	1、2、4	1、2、4
`n1-highcpu-4`	1、2、4	1、2、4、8	1、2、4	1、2、4
`n1-highcpu-8`	1、2、4	1、2、4、8	1、2、4	1、2、4
`n1-highcpu-16`	1、2、4	2、4、8	1、2、4	1、2、4
`n1-highcpu-32`	2、4	4、8	2、4	2、4

可选 GPU 会产生额外费用。

配置用于预测的计算资源 使用集合让一切井井有条 根据您的偏好保存内容并对其进行分类。

管理费用和可用性

指定计算资源的位置

在线预测

批量预测

机器类型

E2 系列

N1 系列

N2 系列

N2D 系列

C2 系列

C2D 系列

C3 系列

A2 系列

A3 系列

G2 系列

找到理想的机器类型

在线预测

批量预测

可选 GPU 加速器

后续步骤

配置用于预测的计算资源