重新启动永久性资源

您可以重新启动处于 RUNNINGERROR 状态的任何永久性资源。 通过重新启动永久性资源,您可以从永久性资源无法自行恢复的错误中恢复。您还可以重新启动永久性资源以手动获取最新的集群。本页面介绍如何使用 Google Cloud 控制台和 REST API 重新启动永久性资源。

所需的角色

如需获得重新启动永久性资源所需的权限,请让管理员向您授予项目的 Vertex AI Administrator (roles/aiplatform.admin) IAM 角色。如需详细了解如何授予角色,请参阅管理访问权限

此预定义角色包含重新启动永久性资源所需的 aiplatform.persistentResources.update 权限。

您也可以使用自定义角色或其他预定义角色来获取此权限。

重新启动永久性资源

根据需要选择以下任一标签页,了解如何重新启动永久性资源。确保永久性资源上没有正在运行的训练作业。

控制台

如需在 Google Cloud 控制台中重新启动永久性资源,请执行以下操作:

  1. 在 Google Cloud 控制台中,转到永久性资源页面。

    转到“永久性资源”

  2. 在要重新启动的永久性资源的名称旁边,点击垂直省略号 ()。

  3. 点击重新启动

  4. 点击确认

REST

在使用任何请求数据之前,请先进行以下替换:

  • PROJECT_ID:您要重新启动的永久性资源的项目 ID。
  • LOCATION:您要重新启动的永久性资源所在的区域。
  • PERSISTENT_RESOURCE_ID:您要重新启动的永久性资源的 ID。

HTTP 方法和网址:

POST https://us-central1-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/persistentResources/PERSISTENT_RESOURCE_ID:reboot

如需发送您的请求,请展开以下选项之一:

您应该收到类似以下内容的 JSON 响应:

response: 
  {
    "name": "projects/123456789012/locations/us-central1/persistentResources/test-persistent-resource/operations/1234567890123456789",
    "metadata": {
      "@type": "type.googleapis.com/google.cloud.aiplatform.v1.RebootPersistentResourceOperationMetadata",
      "genericMetadata": {
        "createTime": "2024-03-18T17:31:54.955004Z",
        "updateTime": "2024-03-18T17:31:55.204817Z",
        "state": "RUNNING",
        "worksOn": [
          "projects/123456789012/locations/us-central1/persistentResources/test-persistent-resource"
        ]
      },
      "progressMessage": "Waiting for persistent resource shut down."
    }
  }

重新启动永久性资源是一项长时间运行的操作,在此期间无法删除永久性资源。该操作包含 progressMessage 字段,如果发生错误,则该字段会填充错误状态。在操作指示 "done: true" 后,请检查永久性资源的状态。如果永久性资源处于 RUNNING 状态,则表示重新启动成功并且可以开始运行训练作业。

限制

以下是重新启动永久性资源的限制:

  • 在某些情况下,重新启动永久性资源时,可能会失去稀缺资源的容量。无法保证完整资源保留。
  • Ray on Vertex AI 不支持重新启动。
  • 包含自动扩缩的工作器池的永久性资源会以最少的副本数重新启动。

后续步骤