配置用于预测的计算资源

Vertex AI 会分配节点以处理在线预测和批量预测。在将自定义训练模型或 AutoML 模型部署到 Endpoint 资源来进行在线预测或在请求批量预测时,可以自定义预测服务要在这些节点中使用的虚拟机类型。您还可以选择配置预测节点以使用 GPU。

机器类型在几个方面有差异:

  • 每个节点的虚拟 CPU (vCPU) 数量
  • 每个节点的内存量
  • 价格

通过选择具有更多计算资源的机器类型,您可以缩短执行预测的延迟时间,也可以同时处理更多预测请求。

管理费用和可用性

为帮助管理费用或确保虚拟机资源可用,Vertex AI 提供了以下功能:

  • 为确保虚拟机资源在预测作业需要时可用,您可以使用 Compute Engine 预留。预留为获取 Compute Engine 资源的容量提供了较高的保障。如需了解详情,请参阅将预留与预测搭配使用

  • 如需降低运行预测作业的费用,您可以使用 Spot 虚拟机。Spot 虚拟机是过剩的 Compute Engine 容量的虚拟机 (VM) 实例。Spot 虚拟机的折扣力度很大,但 Compute Engine 可能会提前停止或删除 Spot 虚拟机来随时收回容量。如需了解详情,请参阅将 Spot 虚拟机与预测功能搭配使用

指定计算资源的位置

在线预测

如果您想使用自定义训练的模型或 AutoML 表格模型执行在线预测,则必须在将 Model 资源作为 DeployedModel 部署到 Endpoint 时指定机器类型。对于其他类型的 AutoML 模型,Vertex AI 会自动配置机器类型。

DeployedModeldedicatedResources.machineSpec 字段中指定机器类型(以及可选的 GPU 配置)。

了解如何部署每种模型类型:

批量预测

如果要从自定义模型或 AutoML 表格模型获取批量预测,则必须在创建 BatchPredictionJob 资源时指定机器类型。在 BatchPredictionJobdedicatedResources.machineSpec 字段中指定机器类型(以及可选的 GPU 配置)。

机器类型

下表比较了可用于在自定义训练的模型和 AutoML 表格模型上执行预测的机器类型:

E2 系列

名称 vCPU 内存 (GB)
e2-standard-2 2 8
e2-standard-4 4 16
e2-standard-8 8 32
e2-standard-16 16 64
e2-standard-32 32 128
e2-highmem-2 2 16
e2-highmem-4 4 32
e2-highmem-8 8 64
e2-highmem-16 16 128
e2-highcpu-2 2 2
e2-highcpu-4 4 4
e2-highcpu-8 8 8
e2-highcpu-16 16 16
e2-highcpu-32 32 32

N1 系列

名称 vCPU 内存 (GB)
n1-standard-2 2 7.5
n1-standard-4 4 15
n1-standard-8 8 30
n1-standard-16 16 60
n1-standard-32 32 120
n1-highmem-2 2 13
n1-highmem-4 4 26
n1-highmem-8 8 52
n1-highmem-16 16 104
n1-highmem-32 32 208
n1-highcpu-4 4 3.6
n1-highcpu-8 8 7.2
n1-highcpu-16 16 14.4
n1-highcpu-32 32 28.8

N2 系列

名称 vCPU 内存 (GB)
n2-standard-2 2 8
n2-standard-4 4 16
n2-standard-8 8 32
n2-standard-16 16 64
n2-standard-32 32 128
n2-standard-48 48 192
n2-standard-64 64 256
n2-standard-80 80 320
n2-standard-96 96 384
n2-standard-128 128 512
n2-highmem-2 2 16
n2-highmem-4 4 32
n2-highmem-8 8 64
n2-highmem-16 16 128
n2-highmem-32 32 256
n2-highmem-48 48 384
n2-highmem-64 64 512
n2-highmem-80 80 640
n2-highmem-96 96 768
n2-highmem-128 128 864
n2-highcpu-2 2 2
n2-highcpu-4 4 4
n2-highcpu-8 8 8
n2-highcpu-16 16 16
n2-highcpu-32 32 32
n2-highcpu-48 48 48
n2-highcpu-64 64 64
n2-highcpu-80 80 80
n2-highcpu-96 96 96

N2D 系列

名称 vCPU 内存 (GB)
n2d-standard-2 2 8
n2d-standard-4 4 16
n2d-standard-8 8 32
n2d-standard-16 16 64
n2d-standard-32 32 128
n2d-standard-48 48 192
n2d-standard-64 64 256
n2d-standard-80 80 320
n2d-standard-96 96 384
n2d-standard-128 128 512
n2d-standard-224 224 896
n2d-highmem-2 2 16
n2d-highmem-4 4 32
n2d-highmem-8 8 64
n2d-highmem-16 16 128
n2d-highmem-32 32 256
n2d-highmem-48 48 384
n2d-highmem-64 64 512
n2d-highmem-80 80 640
n2d-highmem-96 96 768
n2d-highcpu-2 2 2
n2d-highcpu-4 4 4
n2d-highcpu-8 8 8
n2d-highcpu-16 16 16
n2d-highcpu-32 32 32
n2d-highcpu-48 48 48
n2d-highcpu-64 64 64
n2d-highcpu-80 80 80
n2d-highcpu-96 96 96
n2d-highcpu-128 128 128
n2d-highcpu-224 224 224

C2 系列

名称 vCPU 内存 (GB)
c2-standard-4 4 16
c2-standard-8 8 32
c2-standard-16 16 64
c2-standard-30 30 120
c2-standard-60 60 240

C2D 系列

名称 vCPU 内存 (GB)
c2d-standard-2 2 8
c2d-standard-4 4 16
c2d-standard-8 8 32
c2d-standard-16 16 64
c2d-standard-32 32 128
c2d-standard-56 56 224
c2d-standard-112 112 448
c2d-highcpu-2 2 4
c2d-highcpu-4 4 8
c2d-highcpu-8 8 16
c2d-highcpu-16 16 32
c2d-highcpu-32 32 64
c2d-highcpu-56 56 112
c2d-highcpu-112 112 224
c2d-highmem-2 2 16
c2d-highmem-4 4 32
c2d-highmem-8 8 64
c2d-highmem-16 16 128
c2d-highmem-32 32 256
c2d-highmem-56 56 448
c2d-highmem-112 112 896

C3 系列

名称 vCPU 内存 (GB)
c3-highcpu-4 4 8
c3-highcpu-8 8 16
c3-highcpu-22 22 44
c3-highcpu-44 44 88
c3-highcpu-88 88 176
c3-highcpu-176 176 352

A2 系列

名称 vCPU 内存 (GB) GPU (NVIDIA A100)
a2-highgpu-1g 12 85 1 (A100 40GB)
a2-highgpu-2g 24 170 2 (A100 40GB)
a2-highgpu-4g 48 340 4 (A100 40GB)
a2-highgpu-8g 96 680 8 (A100 40GB)
a2-megagpu-16g 96 1360 16 (A100 40GB)
a2-ultragpu-1g 12 170 1 (A100 80GB)
a2-ultragpu-2g 24 340 2 (A100 80GB)
a2-ultragpu-4g 48 680 4 (A100 80GB)
a2-ultragpu-8g 96 1360 8 (A100 80GB)

A3 系列

名称 vCPU 内存 (GB) GPU (NVIDIA H100)
a3-highgpu-8g 208 1872 8 (H100 80GB)

G2 系列

名称 vCPU 内存 (GB) GPU (NVIDIA L4)
g2-standard-4 4 16 1
g2-standard-8 8 32 1
g2-standard-12 12 48 1
g2-standard-16 16 64 1
g2-standard-24 24 96 2
g2-standard-32 32 128 1
g2-standard-48 48 192 4
g2-standard-96 96 384 8

了解每种机器类型的价格。如需详细了解这些机器类型的详细规范,请参阅有关机器类型的 Compute Engine 文档

找到理想的机器类型

在线预测

如需找到适合您的应用场景的理想机器类型,我们建议您在多种机器类型上加载模型并衡量延迟时间、费用、并发和吞吐量等特征。

一种方法是在多种机器类型上运行此笔记本,并比较结果以找到最适合您的机器类型。

Vertex AI 会在每个副本上预留大约 1 个 vCPU 来运行系统进程。这意味着在单核机器类型上运行笔记本与使用 2 核机器类型执行预测相当。

在考虑预测费用时,请注意,虽然较大的机器费用较高,但它们可以降低总费用,因为处理相同的工作负载需要较少的副本。这对于 GPU 来说尤其明显,因为每小时的费用往往更高,但两者都可以降低延迟和总费用。

批量预测

如需了解详情,请参阅选择机器类型和副本数量

可选 GPU 加速器

某些配置(例如 A2 系列G2 系列)内置了固定数量的 GPU。

其他配置(如 N1 系列)允许您选择添加 GPU 以加快每个预测节点的速度。

如需添加可选的 GPU 加速器,您必须考虑以下几个要求:

下表展示了可用于在线预测的可选 GPU 以及可用于每种 Compute Engine 机器类型的每种 GPU 类型的数量:

每种机器类型的有效 GPU 数量
机器类型 NVIDIA Tesla P100 NVIDIA Tesla V100 NVIDIA Tesla P4 NVIDIA Tesla T4
n1-standard-2 1、2、4 1、2、4、8 1、2、4 1、2、4
n1-standard-4 1、2、4 1、2、4、8 1、2、4 1、2、4
n1-standard-8 1、2、4 1、2、4、8 1、2、4 1、2、4
n1-standard-16 1、2、4 2、4、8 1、2、4 1、2、4
n1-standard-32 2、4 4、8 2、4 2、4
n1-highmem-2 1、2、4 1、2、4、8 1、2、4 1、2、4
n1-highmem-4 1、2、4 1、2、4、8 1、2、4 1、2、4
n1-highmem-8 1、2、4 1、2、4、8 1、2、4 1、2、4
n1-highmem-16 1、2、4 2、4、8 1、2、4 1、2、4
n1-highmem-32 2、4 4、8 2、4 2、4
n1-highcpu-2 1、2、4 1、2、4、8 1、2、4 1、2、4
n1-highcpu-4 1、2、4 1、2、4、8 1、2、4 1、2、4
n1-highcpu-8 1、2、4 1、2、4、8 1、2、4 1、2、4
n1-highcpu-16 1、2、4 2、4、8 1、2、4 1、2、4
n1-highcpu-32 2、4 4、8 2、4 2、4

可选 GPU 会产生额外费用

后续步骤