Vertex AI 会分配节点以处理在线预测和批量预测。在将自定义训练模型或 AutoML 模型部署到 Endpoint
资源来进行在线预测或在请求批量预测时,可以自定义预测服务要在这些节点中使用的虚拟机类型。您还可以选择配置预测节点以使用 GPU。
机器类型在几个方面有差异:
- 每个节点的虚拟 CPU (vCPU) 数量
- 每个节点的内存量
- 价格
通过选择具有更多计算资源的机器类型,您可以缩短执行预测的延迟时间,也可以同时处理更多预测请求。
管理费用和可用性
为帮助管理费用或确保虚拟机资源的可用性,Vertex AI 提供了以下功能:
为确保虚拟机资源在预测作业需要时可用,您可以使用 Compute Engine 预留。预留为获取 Compute Engine 资源的容量提供了较高的保障。如需了解详情,请参阅将预留与预测搭配使用。
如需降低运行预测作业的费用,您可以使用 Spot 虚拟机。Spot 虚拟机是过剩的 Compute Engine 容量的虚拟机 (VM) 实例。Spot 虚拟机的折扣力度很大,但 Compute Engine 可能会提前停止或删除 Spot 虚拟机来随时收回容量。如需了解详情,请参阅将 Spot 虚拟机与预测功能搭配使用。
指定计算资源的位置
在线预测
如果您想使用自定义训练的模型或 AutoML 表格模型执行在线预测,则必须在将 Model
资源作为 DeployedModel
部署到 Endpoint
时指定机器类型。对于其他类型的 AutoML 模型,Vertex AI 会自动配置机器类型。
在 DeployedModel
的 dedicatedResources.machineSpec
字段中指定机器类型(以及可选的 GPU 配置)。
了解如何部署每种模型类型:
批量预测
如果要从自定义模型或 AutoML 表格模型获取批量预测,则必须在创建 BatchPredictionJob
资源时指定机器类型。在 BatchPredictionJob
的 dedicatedResources.machineSpec
字段中指定机器类型(以及可选的 GPU 配置)。
机器类型
下表比较了可用于在自定义训练的模型和 AutoML 表格模型上执行预测的机器类型:
E2 系列
名称 | vCPUs | 内存 (GB) |
---|---|---|
e2-standard-2 |
2 | 8 |
e2-standard-4 |
4 | 16 |
e2-standard-8 |
8 | 32 |
e2-standard-16 |
16 | 64 |
e2-standard-32 |
32 | 128 |
e2-highmem-2 |
2 | 16 |
e2-highmem-4 |
4 | 32 |
e2-highmem-8 |
8 | 64 |
e2-highmem-16 |
16 | 128 |
e2-highcpu-2 |
2 | 2 |
e2-highcpu-4 |
4 | 4 |
e2-highcpu-8 |
8 | 8 |
e2-highcpu-16 |
16 | 16 |
e2-highcpu-32 |
32 | 32 |
N1 系列
名称 | vCPUs | 内存 (GB) |
---|---|---|
n1-standard-2 |
2 | 7.5 |
n1-standard-4 |
4 | 15 |
n1-standard-8 |
8 | 30 |
n1-standard-16 |
16 | 60 |
n1-standard-32 |
32 | 120 |
n1-highmem-2 |
2 | 13 |
n1-highmem-4 |
4 | 26 |
n1-highmem-8 |
8 | 52 |
n1-highmem-16 |
16 | 104 |
n1-highmem-32 |
32 | 208 |
n1-highcpu-4 |
4 | 3.6 |
n1-highcpu-8 |
8 | 7.2 |
n1-highcpu-16 |
16 | 14.4 |
n1-highcpu-32 |
32 | 28.8 |
N2 系列
名称 | vCPUs | 内存 (GB) |
---|---|---|
n2-standard-2 |
2 | 8 |
n2-standard-4 |
4 | 16 |
n2-standard-8 |
8 | 32 |
n2-standard-16 |
16 | 64 |
n2-standard-32 |
32 | 128 |
n2-standard-48 |
48 | 192 |
n2-standard-64 |
64 | 256 |
n2-standard-80 |
80 | 320 |
n2-standard-96 |
96 | 384 |
n2-standard-128 |
128 | 512 |
n2-highmem-2 |
2 | 16 |
n2-highmem-4 |
4 | 32 |
n2-highmem-8 |
8 | 64 |
n2-highmem-16 |
16 | 128 |
n2-highmem-32 |
32 | 256 |
n2-highmem-48 |
48 | 384 |
n2-highmem-64 |
64 | 512 |
n2-highmem-80 |
80 | 640 |
n2-highmem-96 |
96 | 768 |
n2-highmem-128 |
128 | 864 |
n2-highcpu-2 |
2 | 2 |
n2-highcpu-4 |
4 | 4 |
n2-highcpu-8 |
8 | 8 |
n2-highcpu-16 |
16 | 16 |
n2-highcpu-32 |
32 | 32 |
n2-highcpu-48 |
48 | 48 |
n2-highcpu-64 |
64 | 64 |
n2-highcpu-80 |
80 | 80 |
n2-highcpu-96 |
96 | 96 |
N2D 系列
名称 | vCPUs | 内存 (GB) |
---|---|---|
n2d-standard-2 |
2 | 8 |
n2d-standard-4 |
4 | 16 |
n2d-standard-8 |
8 | 32 |
n2d-standard-16 |
16 | 64 |
n2d-standard-32 |
32 | 128 |
n2d-standard-48 |
48 | 192 |
n2d-standard-64 |
64 | 256 |
n2d-standard-80 |
80 | 320 |
n2d-standard-96 |
96 | 384 |
n2d-standard-128 |
128 | 512 |
n2d-standard-224 |
224 | 896 |
n2d-highmem-2 |
2 | 16 |
n2d-highmem-4 |
4 | 32 |
n2d-highmem-8 |
8 | 64 |
n2d-highmem-16 |
16 | 128 |
n2d-highmem-32 |
32 | 256 |
n2d-highmem-48 |
48 | 384 |
n2d-highmem-64 |
64 | 512 |
n2d-highmem-80 |
80 | 640 |
n2d-highmem-96 |
96 | 768 |
n2d-highcpu-2 |
2 | 2 |
n2d-highcpu-4 |
4 | 4 |
n2d-highcpu-8 |
8 | 8 |
n2d-highcpu-16 |
16 | 16 |
n2d-highcpu-32 |
32 | 32 |
n2d-highcpu-48 |
48 | 48 |
n2d-highcpu-64 |
64 | 64 |
n2d-highcpu-80 |
80 | 80 |
n2d-highcpu-96 |
96 | 96 |
n2d-highcpu-128 |
128 | 128 |
n2d-highcpu-224 |
224 | 224 |
C2 系列
名称 | vCPUs | 内存 (GB) |
---|---|---|
c2-standard-4 |
4 | 16 |
c2-standard-8 |
8 | 32 |
c2-standard-16 |
16 | 64 |
c2-standard-30 |
30 | 120 |
c2-standard-60 |
60 | 240 |
C2D 系列
名称 | vCPUs | 内存 (GB) |
---|---|---|
c2d-standard-2 |
2 | 8 |
c2d-standard-4 |
4 | 16 |
c2d-standard-8 |
8 | 32 |
c2d-standard-16 |
16 | 64 |
c2d-standard-32 |
32 | 128 |
c2d-standard-56 |
56 | 224 |
c2d-standard-112 |
112 | 448 |
c2d-highcpu-2 |
2 | 4 |
c2d-highcpu-4 |
4 | 8 |
c2d-highcpu-8 |
8 | 16 |
c2d-highcpu-16 |
16 | 32 |
c2d-highcpu-32 |
32 | 64 |
c2d-highcpu-56 |
56 | 112 |
c2d-highcpu-112 |
112 | 224 |
c2d-highmem-2 |
2 | 16 |
c2d-highmem-4 |
4 | 32 |
c2d-highmem-8 |
8 | 64 |
c2d-highmem-16 |
16 | 128 |
c2d-highmem-32 |
32 | 256 |
c2d-highmem-56 |
56 | 448 |
c2d-highmem-112 |
112 | 896 |
C3 系列
名称 | vCPUs | 内存 (GB) |
---|---|---|
c3-highcpu-4 |
4 | 8 |
c3-highcpu-8 |
8 | 16 |
c3-highcpu-22 |
22 | 44 |
c3-highcpu-44 |
44 | 88 |
c3-highcpu-88 |
88 | 176 |
c3-highcpu-176 |
176 | 352 |
A2 系列
名称 | vCPUs | 内存 (GB) | GPU (NVIDIA A100) |
---|---|---|---|
a2-highgpu-1g |
12 | 85 | 1 (A100 40GB) |
a2-highgpu-2g |
24 | 170 | 2 (A100 40GB) |
a2-highgpu-4g |
48 | 340 | 4 (A100 40GB) |
a2-highgpu-8g |
96 | 680 | 8 (A100 40GB) |
a2-megagpu-16g |
96 | 1360 | 16 (A100 40GB) |
a2-ultragpu-1g |
12 | 170 | 1 (A100 80GB) |
a2-ultragpu-2g |
24 | 340 | 2 (A100 80GB) |
a2-ultragpu-4g |
48 | 680 | 4 (A100 80GB) |
a2-ultragpu-8g |
96 | 1360 | 8 (A100 80GB) |
A3 系列
名称 | vCPUs | 内存 (GB) | GPU (NVIDIA H100) |
---|---|---|---|
a3-highgpu-8g |
208 | 1872 | 8 (H100 80GB) |
G2 系列
名称 | vCPUs | 内存 (GB) | GPU (NVIDIA L4) |
---|---|---|---|
g2-standard-4 |
4 | 16 | 1 |
g2-standard-8 |
8 | 32 | 1 |
g2-standard-12 |
12 | 48 | 1 |
g2-standard-16 |
16 | 64 | 1 |
g2-standard-24 |
24 | 96 | 2 |
g2-standard-32 |
32 | 128 | 1 |
g2-standard-48 |
48 | 192 | 4 |
g2-standard-96 |
96 | 384 | 8 |
了解每种机器类型的价格。如需详细了解这些机器类型的详细规范,请参阅有关机器类型的 Compute Engine 文档。
找到理想的机器类型
在线预测
如需找到适合您的应用场景的理想机器类型,我们建议您在多种机器类型上加载模型并衡量延迟时间、费用、并发和吞吐量等特征。
一种方法是在多种机器类型上运行此笔记本,并比较结果以找到最适合您的机器类型。
Vertex AI 会在每个副本上预留大约 1 个 vCPU 来运行系统进程。这意味着在单核机器类型上运行笔记本与使用 2 核机器类型执行预测相当。
在考虑预测费用时,请注意,虽然较大的机器费用较高,但它们可以降低总费用,因为处理相同的工作负载需要较少的副本。这对于 GPU 来说尤其明显,因为每小时的费用往往更高,但两者都可以降低延迟和总费用。
批量预测
如需了解详情,请参阅选择机器类型和副本数量。
可选 GPU 加速器
某些配置(例如 A2 系列和 G2 系列)内置了固定数量的 GPU。
其他配置(如 N1 系列)允许您选择添加 GPU 以加快每个预测节点的速度。
如需添加可选的 GPU 加速器,您必须考虑以下几个要求:
- 只有当您的
Model
资源基于 TensorFlow SavedModel,或者当您使用旨在充分利用 GPU 的自定义容器时,您才能使用 GPU。您不能将 GPU 用于 scikit-learn 或 XGBoost 模型。 - 每种 GPU 类型的可用性因模型使用的区域而异。了解哪些区域提供了哪些类型的 GPU。
- 您只能为
DeployedModel
资源或BatchPredictionJob
使用一种 GPU 类型,您可以添加的 GPU 数量有一定限制,具体取决于您在使用的机器类型。下表介绍了这些限制。
下表展示了可用于在线预测的可选 GPU 以及可用于每种 Compute Engine 机器类型的每种 GPU 类型的数量:
每种机器类型的有效 GPU 数量 | |||||
---|---|---|---|---|---|
机器类型 | NVIDIA Tesla P100 | NVIDIA Tesla V100 | NVIDIA Tesla P4 | NVIDIA Tesla T4 | |
n1-standard-2 |
1、2、4 | 1、2、4、8 | 1、2、4 | 1、2、4 | |
n1-standard-4 |
1、2、4 | 1、2、4、8 | 1、2、4 | 1、2、4 | |
n1-standard-8 |
1、2、4 | 1、2、4、8 | 1、2、4 | 1、2、4 | |
n1-standard-16 |
1、2、4 | 2、4、8 | 1、2、4 | 1、2、4 | |
n1-standard-32 |
2、4 | 4、8 | 2、4 | 2、4 | |
n1-highmem-2 |
1、2、4 | 1、2、4、8 | 1、2、4 | 1、2、4 | |
n1-highmem-4 |
1、2、4 | 1、2、4、8 | 1、2、4 | 1、2、4 | |
n1-highmem-8 |
1、2、4 | 1、2、4、8 | 1、2、4 | 1、2、4 | |
n1-highmem-16 |
1、2、4 | 2、4、8 | 1、2、4 | 1、2、4 | |
n1-highmem-32 |
2、4 | 4、8 | 2、4 | 2、4 | |
n1-highcpu-2 |
1、2、4 | 1、2、4、8 | 1、2、4 | 1、2、4 | |
n1-highcpu-4 |
1、2、4 | 1、2、4、8 | 1、2、4 | 1、2、4 | |
n1-highcpu-8 |
1、2、4 | 1、2、4、8 | 1、2、4 | 1、2、4 | |
n1-highcpu-16 |
1、2、4 | 2、4、8 | 1、2、4 | 1、2、4 | |
n1-highcpu-32 |
2、4 | 4、8 | 2、4 | 2、4 |
可选 GPU 会产生额外费用。