RUNNING
或 ERROR
状态的任何永久性资源。通过重新启动永久性资源,可以从资源无法自行恢复的错误中恢复。您还可以重新启动永久性资源以手动获取最新的集群。本页面介绍了如何使用 Google Cloud 控制台和 REST API 重新启动永久性资源。
所需的角色
如需获得重新启动永久性资源所需的权限,请让管理员向您授予项目的 Vertex AI Administrator (roles/aiplatform.admin
) IAM 角色。如需详细了解如何授予角色,请参阅管理对项目、文件夹和组织的访问权限。
此预定义角色包含重新启动永久性资源所需的 aiplatform.persistentResources.update
权限。
重新启动永久性资源
根据需要选择以下任一标签页,了解如何重新启动永久性资源。确保永久性资源上没有正在运行的训练作业。
控制台
如需在 Google Cloud 控制台中重新启动永久性资源,请执行以下操作:
在 Google Cloud 控制台中,转到永久性资源页面。
在要重新启动的永久性资源的名称旁边,点击垂直省略号 (
)。点击重新启动。
点击确认。
gcloud
在使用下面的命令数据之前,请先进行以下替换:
- PROJECT_ID:您要重新启动的永久性资源的项目 ID。
- LOCATION:您要重新启动的永久性资源所在的区域。
- PERSISTENT_RESOURCE_ID:您要重新启动的永久性资源的 ID。
执行以下命令:
Linux、macOS 或 Cloud Shell
gcloud ai persistent-resources reboot PERSISTENT_RESOURCE_ID \ --project=PROJECT_ID \ --region=LOCATION
Windows (PowerShell)
gcloud ai persistent-resources reboot PERSISTENT_RESOURCE_ID ` --project=PROJECT_ID ` --region=LOCATION
Windows (cmd.exe)
gcloud ai persistent-resources reboot PERSISTENT_RESOURCE_ID ^ --project=PROJECT_ID ^ --region=LOCATION
您应该会收到类似如下所示的响应:
Using endpoint [https://us-central1-aiplatform.googleapis.com/] Request to reboot the PersistentResource [projects/sample-project/locations/us-central1/persistentResources/test-persistent-resource] has been sent. You may view the status of your persistent resource with the command $ gcloud ai persistent-resources describe projects/sample-project/locations/us-central1/persistentResources/test-persistent-resource
REST
在使用任何请求数据之前,请先进行以下替换:
- PROJECT_ID:您要重新启动的永久性资源的项目 ID。
- LOCATION:您要重新启动的永久性资源所在的区域。
- PERSISTENT_RESOURCE_ID:您要重新启动的永久性资源的 ID。
HTTP 方法和网址:
POST https://us-central1-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/persistentResources/PERSISTENT_RESOURCE_ID:reboot
如需发送您的请求,请展开以下选项之一:
您应该收到类似以下内容的 JSON 响应:
response:{ "name": "projects/123456789012/locations/us-central1/persistentResources/test-persistent-resource/operations/1234567890123456789", "metadata": { "@type": "type.googleapis.com/google.cloud.aiplatform.v1.RebootPersistentResourceOperationMetadata", "genericMetadata": { "createTime": "2024-03-18T17:31:54.955004Z", "updateTime": "2024-03-18T17:31:55.204817Z", "state": "RUNNING", "worksOn": [ "projects/123456789012/locations/us-central1/persistentResources/test-persistent-resource" ] }, "progressMessage": "Waiting for persistent resource shut down." } }
重新启动永久性资源是一项长时间运行的操作,在此期间,永久性资源无法删除。该操作包含 progressMessage
字段,如果发生错误,则该字段会填充错误状态。操作指示 "done: true"
后,检查永久性资源的状态。如果永久性资源处于 RUNNING
状态,则表示重新启动成功,并且可以运行训练作业了。
限制
重启永久性资源存在以下限制:
- 在某些情况下,重新启动持久性资源时可能会丢失稀缺资源的容量。无法保证完全保留资源。
- Ray on Vertex AI 不支持重新启动。
- 包含自动扩缩工作器池的永久性资源会以最小副本计数重新启动。