重新启动永久性资源

您可以重新启动处于 RUNNINGERROR 状态的任何永久性资源。通过重新启动永久性资源,可以从资源无法自行恢复的错误中恢复。您还可以重新启动永久性资源以手动获取最新的集群。本页面介绍了如何使用 Google Cloud 控制台和 REST API 重新启动永久性资源。

所需的角色

如需获得重新启动永久性资源所需的权限,请让管理员向您授予项目的 Vertex AI Administrator (roles/aiplatform.admin) IAM 角色。如需详细了解如何授予角色,请参阅管理对项目、文件夹和组织的访问权限

此预定义角色包含重新启动永久性资源所需的 aiplatform.persistentResources.update 权限。

您也可以使用自定义角色或其他预定义角色来获取此权限。

重新启动永久性资源

根据需要选择以下任一标签页,了解如何重新启动永久性资源。确保永久性资源上没有正在运行的训练作业。

控制台

如需在 Google Cloud 控制台中重新启动永久性资源,请执行以下操作:

  1. 在 Google Cloud 控制台中,转到永久性资源页面。

    转到“永久性资源”

  2. 在要重新启动的永久性资源的名称旁边,点击垂直省略号 ()。

  3. 点击重新启动

  4. 点击确认

gcloud

在使用下面的命令数据之前,请先进行以下替换:

  • PROJECT_ID:您要重新启动的永久性资源的项目 ID。
  • LOCATION:您要重新启动的永久性资源所在的区域。
  • PERSISTENT_RESOURCE_ID:您要重新启动的永久性资源的 ID。

执行以下命令:

Linux、macOS 或 Cloud Shell

gcloud ai persistent-resources reboot PERSISTENT_RESOURCE_ID \
    --project=PROJECT_ID \
    --region=LOCATION

Windows (PowerShell)

gcloud ai persistent-resources reboot PERSISTENT_RESOURCE_ID `
    --project=PROJECT_ID `
    --region=LOCATION

Windows (cmd.exe)

gcloud ai persistent-resources reboot PERSISTENT_RESOURCE_ID ^
    --project=PROJECT_ID ^
    --region=LOCATION

您应该会收到类似如下所示的响应:

Using endpoint [https://us-central1-aiplatform.googleapis.com/]
Request to reboot the PersistentResource [projects/sample-project/locations/us-central1/persistentResources/test-persistent-resource] has been sent.

You may view the status of your persistent resource with the command

  $ gcloud ai persistent-resources describe projects/sample-project/locations/us-central1/persistentResources/test-persistent-resource

REST

在使用任何请求数据之前,请先进行以下替换:

  • PROJECT_ID:您要重新启动的永久性资源的项目 ID。
  • LOCATION:您要重新启动的永久性资源所在的区域。
  • PERSISTENT_RESOURCE_ID:您要重新启动的永久性资源的 ID。

HTTP 方法和网址:

POST https://us-central1-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/persistentResources/PERSISTENT_RESOURCE_ID:reboot

如需发送您的请求,请展开以下选项之一:

您应该收到类似以下内容的 JSON 响应:

response: 
  {
    "name": "projects/123456789012/locations/us-central1/persistentResources/test-persistent-resource/operations/1234567890123456789",
    "metadata": {
      "@type": "type.googleapis.com/google.cloud.aiplatform.v1.RebootPersistentResourceOperationMetadata",
      "genericMetadata": {
        "createTime": "2024-03-18T17:31:54.955004Z",
        "updateTime": "2024-03-18T17:31:55.204817Z",
        "state": "RUNNING",
        "worksOn": [
          "projects/123456789012/locations/us-central1/persistentResources/test-persistent-resource"
        ]
      },
      "progressMessage": "Waiting for persistent resource shut down."
    }
  }

重新启动永久性资源是一项长时间运行的操作,在此期间,永久性资源无法删除。该操作包含 progressMessage 字段,如果发生错误,则该字段会填充错误状态。操作指示 "done: true" 后,检查永久性资源的状态。如果永久性资源处于 RUNNING 状态,则表示重新启动成功,并且可以运行训练作业了。

限制

重启永久性资源存在以下限制:

  • 在某些情况下,重新启动持久性资源时可能会丢失稀缺资源的容量。无法保证完全保留资源。
  • Ray on Vertex AI 不支持重新启动。
  • 包含自动扩缩工作器池的永久性资源会以最小副本计数重新启动。

后续步骤