配置用于预测的计算资源

Vertex AI 会分配节点以处理在线预测和批量预测。在将自定义训练模型或 AutoML 模型部署到 Endpoint 资源来进行在线预测或在请求批量预测时,可以自定义预测服务要在这些节点中使用的虚拟机类型。您还可以选择配置预测节点以使用 GPU。

机器类型在几个方面有差异:

  • 每个节点的虚拟 CPU (vCPU) 数量
  • 每个节点的内存量
  • 价格

通过选择具有更多计算资源的机器类型,您可以缩短预测的延迟时间或同时处理更多预测请求。

指定计算资源的位置

在线预测

如果您想使用自定义训练的模型或 AutoML 表格模型执行在线预测,则必须在将 Model 资源作为 DeployedModel 部署到 Endpoint 时指定机器类型。对于其他类型的 AutoML 模型,Vertex AI 会自动配置机器类型。

DeployedModeldedicatedResources.machineSpec 字段中指定机器类型(以及可选的 GPU 配置)。

了解如何部署每种模型类型:

批量预测

如果要从自定义模型或 AutoML 表格模型获取批量预测,则必须在创建 BatchPredictionJob 资源时指定机器类型。在 BatchPredictionJobdedicatedResources.machineSpec 字段中指定机器类型(以及可选的 GPU 配置)。

机器类型

下表比较了可用于在自定义训练的模型和 AutoML 表格模型上执行预测的机器类型:

E2 系列

名称 vCPU 内存 (GB)
e2-standard-2 2 8
e2-standard-4 4 16
e2-standard-8 8 32
e2-standard-16 16 64
e2-standard-32 32 128
e2-highmem-2 2 16
e2-highmem-4 4 32
e2-highmem-8 8 64
e2-highmem-16 16 128
e2-highcpu-2 2 2
e2-highcpu-4 4 4
e2-highcpu-8 8 8
e2-highcpu-16 16 16
e2-highcpu-32 32 32

N1 系列

名称 vCPU 内存 (GB)
n1-standard-2 2 7.5
n1-standard-4 4 15
n1-standard-8 8 30
n1-standard-16 16 60
n1-standard-32 32 120
n1-highmem-2 2 13
n1-highmem-4 4 26
n1-highmem-8 8 52
n1-highmem-16 16 104
n1-highmem-32 32 208
n1-highcpu-4 4 3.6
n1-highcpu-8 8 7.2
n1-highcpu-16 16 14.4
n1-highcpu-32 32 28.8

N2 系列

名称 vCPU 内存 (GB)
n2-standard-2 2 8
n2-standard-4 4 16
n2-standard-8 8 32
n2-standard-16 16 64
n2-standard-32 32 128
n2-standard-48 48 192
n2-standard-64 64 256
n2-standard-80 80 320
n2-standard-96 96 384
n2-standard-128 128 512
n2-highmem-2 2 16
n2-highmem-4 4 32
n2-highmem-8 8 64
n2-highmem-16 16 128
n2-highmem-32 32 256
n2-highmem-48 48 384
n2-highmem-64 64 512
n2-highmem-80 80 640
n2-highmem-96 96 768
n2-highmem-128 128 864
n2-highcpu-2 2 2
n2-highcpu-4 4 4
n2-highcpu-8 8 8
n2-highcpu-16 16 16
n2-highcpu-32 32 32
n2-highcpu-48 48 48
n2-highcpu-64 64 64
n2-highcpu-80 80 80
n2-highcpu-96 96 96

N2D 系列

名称 vCPU 内存 (GB)
n2d-standard-2 2 8
n2d-standard-4 4 16
n2d-standard-8 8 32
n2d-standard-16 16 64
n2d-standard-32 32 128
n2d-standard-48 48 192
n2d-standard-64 64 256
n2d-standard-80 80 320
n2d-standard-96 96 384
n2d-standard-128 128 512
n2d-standard-224 224 896
n2d-highmem-2 2 16
n2d-highmem-4 4 32
n2d-highmem-8 8 64
n2d-highmem-16 16 128
n2d-highmem-32 32 256
n2d-highmem-48 48 384
n2d-highmem-64 64 512
n2d-highmem-80 80 640
n2d-highmem-96 96 768
n2d-highcpu-2 2 2
n2d-highcpu-4 4 4
n2d-highcpu-8 8 8
n2d-highcpu-16 16 16
n2d-highcpu-32 32 32
n2d-highcpu-48 48 48
n2d-highcpu-64 64 64
n2d-highcpu-80 80 80
n2d-highcpu-96 96 96
n2d-highcpu-128 128 128
n2d-highcpu-224 224 224

C2 系列

名称 vCPU 内存 (GB)
c2-standard-4 4 16
c2-standard-8 8 32
c2-standard-16 16 64
c2-standard-30 30 120
c2-standard-60 60 240

C2D 系列

名称 vCPU 内存 (GB)
c2d-standard-2 2 8
c2d-standard-4 4 16
c2d-standard-8 8 32
c2d-standard-16 16 64
c2d-standard-32 32 128
c2d-standard-56 56 224
c2d-standard-112 112 448
c2d-highcpu-2 2 4
c2d-highcpu-4 4 8
c2d-highcpu-8 8 16
c2d-highcpu-16 16 32
c2d-highcpu-32 32 64
c2d-highcpu-56 56 112
c2d-highcpu-112 112 224
c2d-highmem-2 2 16
c2d-highmem-4 4 32
c2d-highmem-8 8 64
c2d-highmem-16 16 128
c2d-highmem-32 32 256
c2d-highmem-56 56 448
c2d-highmem-112 112 896

C3 系列

名称 vCPU 内存 (GB)
c3-highcpu-4 4 8
c3-highcpu-8 8 16
c3-highcpu-22 22 44
c3-highcpu-44 44 88
c3-highcpu-88 88 176
c3-highcpu-176 176 352

A2 系列

名称 vCPU 内存 (GB) GPU (NVIDIA A100)
a2-highgpu-1g 12 85 1 (A100 40GB)
a2-highgpu-2g 24 170 2 (A100 40GB)
a2-highgpu-4g 48 340 4 (A100 40GB)
a2-highgpu-8g 96 680 8 (A100 40GB)
a2-megagpu-16g 96 1360 16 (A100 40GB)
a2-ultragpu-1g 12 170 1 (A100 80GB)
a2-ultragpu-2g 24 340 2 (A100 80GB)
a2-ultragpu-4g 48 680 4 (A100 80GB)
a2-ultragpu-8g 96 1360 8 (A100 80GB)

A3 系列

名称 vCPU 内存 (GB) GPU (NVIDIA H100)
a3-highgpu-8g 208 1872 8 (H100 80GB)

G2 系列

名称 vCPU 内存 (GB) GPU (NVIDIA L4)
g2-standard-4 4 16 1
g2-standard-8 8 32 1
g2-standard-12 12 48 1
g2-standard-16 16 64 1
g2-standard-24 24 96 2
g2-standard-32 32 128 1
g2-standard-48 48 192 4
g2-standard-96 96 384 8

了解每种机器类型的价格。如需详细了解这些机器类型的详细规范,请参阅有关机器类型的 Compute Engine 文档

找到理想的机器类型

在线预测

如需找到适合您的应用场景的理想机器类型,我们建议您在多种机器类型上加载模型并衡量延迟时间、费用、并发和吞吐量等特征。

一种方法是在多种机器类型上运行此笔记本,并比较结果以找到最适合您的机器类型。

Vertex AI 会在每个副本上预留大约 1 个 vCPU,用于运行系统进程。这意味着在单核机器类型上运行笔记本与使用 2 核机器类型执行预测相当。

在考虑预测费用时,请注意,虽然较大的机器费用较高,但它们可以降低总费用,因为处理相同的工作负载需要较少的副本。这对于 GPU 来说尤其明显,因为每小时的费用往往更高,但两者都可以降低延迟和总费用。

批量预测

如需了解详情,请参阅选择机器类型和副本数量

可选 GPU 加速器

某些配置(例如 A2 系列G2 系列)内置了固定数量的 GPU。

其他配置(如 N1 系列)允许您选择添加 GPU 以加快每个预测节点的速度。

如需添加可选的 GPU 加速器,您必须考虑以下几个要求:

下表展示了可用于在线预测的可选 GPU 以及可用于每种 Compute Engine 机器类型的每种 GPU 类型的数量:

每种机器类型的有效 GPU 数量
机器类型 NVIDIA Tesla P100 NVIDIA Tesla V100 NVIDIA Tesla P4 NVIDIA Tesla T4
n1-standard-2 1、2、4 1、2、4、8 1、2、4 1、2、4
n1-standard-4 1、2、4 1、2、4、8 1、2、4 1、2、4
n1-standard-8 1、2、4 1、2、4、8 1、2、4 1、2、4
n1-standard-16 1、2、4 2、4、8 1、2、4 1、2、4
n1-standard-32 2、4 4、8 2、4 2、4
n1-highmem-2 1、2、4 1、2、4、8 1、2、4 1、2、4
n1-highmem-4 1、2、4 1、2、4、8 1、2、4 1、2、4
n1-highmem-8 1、2、4 1、2、4、8 1、2、4 1、2、4
n1-highmem-16 1、2、4 2、4、8 1、2、4 1、2、4
n1-highmem-32 2、4 4、8 2、4 2、4
n1-highcpu-2 1、2、4 1、2、4、8 1、2、4 1、2、4
n1-highcpu-4 1、2、4 1、2、4、8 1、2、4 1、2、4
n1-highcpu-8 1、2、4 1、2、4、8 1、2、4 1、2、4
n1-highcpu-16 1、2、4 2、4、8 1、2、4 1、2、4
n1-highcpu-32 2、4 4、8 2、4 2、4

可选 GPU 会产生额外费用

后续步骤