永久性资源概览

Vertex AI 永久性资源指的是长时间运行的集群,您可以创建此类集群来运行自定义训练作业。在一个训练作业完成后,永久性资源会保留下来,您仍可用其来运行其他训练作业,直到您将其删除。您可以使用永久性资源来确保计算资源的可用性,并且可以缩短作业启动时间,因为省去了创建计算资源这一步骤。永久性资源支持自定义训练作业支持的所有虚拟机和 GPU。本页面介绍何时使用永久性资源,并提供有关结算和配额的信息。

何时使用永久性资源

建议在以下情况下使用永久性资源:

  • 您希望确保关键机器学习工作负载或高峰季的容量可用性。与自定义作业(训练服务在作业完成后便会释放资源)不同,永久性资源在被删除之前将一直可用。
  • 您需要多次提交同一作业,可以在同一永久性资源上运行作业,利用缓存的数据和映像来节省时间。
  • 您运行许多短期训练作业,其中实际训练时间短于作业启动时间。

如需了解何时以及为何使用永久性资源的更多背景信息,请参阅为 Vertex AI Training 引入容量保证和更快的启动时间博文。

结算详细信息

您需要为永久性资源处于运行状态的整个时长付费,无论该永久性资源上是否有正在运行的作业。对于永久性资源池中的每个实例,您都需要按核心小时付费。永久性资源上运行的所有作业都不会单独计费。您只需为永久性资源付费。

如果您为永久性资源设置了自动扩缩,则只需为预配的实例付费。例如,如果 min-replica-count 设置为 4,则系统始终至少预配 4 个实例,这也是您需要支付的最低费用。当您的工作负载增加,资源池可能会扩容到 6 以满足增长的需求量。这样,您便需要为 6 个预配实例付费,直到资源池重新缩减预配实例的数量。为避免空闲节点产生费用,可在永久性资源上启用自动扩缩,或在不再需要永久性资源时将其删除。如需详细了解价格,请参阅 Vertex AI 价格页面中的自定义训练模型部分。

配额

永久性资源使用您的训练配额,因此请验证您是否有足够的配额来创建永久性资源。如需详细了解配额,请参阅训练配额和限制

后续步骤