RUNNING
o ERROR
.
Reiniciar un recurso persistente te permite recuperarte de errores que el recurso persistente no puede solucionar por sí solo. También puedes reiniciar un recurso persistente para obtener manualmente clústeres más actualizados. En esta página se explica cómo reiniciar un recurso persistente mediante la consola Google Cloud y la API REST.
Roles obligatorios
Para obtener el permiso que necesitas para reiniciar un recurso persistente, pide a tu administrador que te conceda el rol de gestión de identidades y accesos Administrador de Vertex AI (roles/aiplatform.admin
) en tu proyecto.
Para obtener más información sobre cómo conceder roles, consulta el artículo Gestionar el acceso a proyectos, carpetas y organizaciones.
Este rol predefinido contiene el permiso aiplatform.persistentResources.update
, que es necesario para reiniciar un recurso persistente.
También puedes obtener este permiso con roles personalizados u otros roles predefinidos.
Reiniciar un recurso persistente
Selecciona una de las siguientes pestañas para ver instrucciones sobre cómo reiniciar un recurso persistente. Asegúrate de que no haya trabajos de entrenamiento en ejecución en el recurso persistente.
Consola
Para reiniciar un recurso persistente en la consola Google Cloud , sigue estos pasos:
En la Google Cloud consola, ve a la página Recursos persistentes.
Junto al nombre del recurso persistente que quieras reiniciar, haz clic en los puntos suspensivos verticales (
).Haz clic en Reiniciar.
Haz clic en Confirmar.
gcloud
Antes de usar los datos de los comandos que se indican a continuación, haz los siguientes cambios:
- PROJECT_ID: el ID del proyecto del recurso persistente que quieres reiniciar.
- LOCATION: la región del recurso persistente que quieras reiniciar.
- PERSISTENT_RESOURCE_ID: el ID del recurso persistente que quieres reiniciar.
Ejecuta el siguiente comando:
Linux, macOS o Cloud Shell
gcloud ai persistent-resources reboot PERSISTENT_RESOURCE_ID \ --project=PROJECT_ID \ --region=LOCATION
Windows (PowerShell)
gcloud ai persistent-resources reboot PERSISTENT_RESOURCE_ID ` --project=PROJECT_ID ` --region=LOCATION
Windows (cmd.exe)
gcloud ai persistent-resources reboot PERSISTENT_RESOURCE_ID ^ --project=PROJECT_ID ^ --region=LOCATION
Deberías recibir una respuesta similar a la siguiente:
Using endpoint [https://us-central1-aiplatform.googleapis.com/] Request to reboot the PersistentResource [projects/sample-project/locations/us-central1/persistentResources/test-persistent-resource] has been sent. You may view the status of your persistent resource with the command $ gcloud ai persistent-resources describe projects/sample-project/locations/us-central1/persistentResources/test-persistent-resource
REST
Antes de usar los datos de la solicitud, haz las siguientes sustituciones:
- PROJECT_ID: el ID del proyecto del recurso persistente que quieres reiniciar.
- LOCATION: la región del recurso persistente que quieras reiniciar.
- PERSISTENT_RESOURCE_ID: el ID del recurso persistente que quieres reiniciar.
Método HTTP y URL:
POST https://us-central1-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/persistentResources/PERSISTENT_RESOURCE_ID:reboot
Para enviar tu solicitud, despliega una de estas opciones:
Deberías recibir una respuesta JSON similar a la siguiente:
response:{ "name": "projects/123456789012/locations/us-central1/persistentResources/test-persistent-resource/operations/1234567890123456789", "metadata": { "@type": "type.googleapis.com/google.cloud.aiplatform.v1.RebootPersistentResourceOperationMetadata", "genericMetadata": { "createTime": "2024-03-18T17:31:54.955004Z", "updateTime": "2024-03-18T17:31:55.204817Z", "state": "RUNNING", "worksOn": [ "projects/123456789012/locations/us-central1/persistentResources/test-persistent-resource" ] }, "progressMessage": "Waiting for persistent resource shut down." } }
Reiniciar un recurso persistente es una operación de larga duración, durante la cual no se puede eliminar el recurso persistente. La operación contiene un campo progressMessage
que se rellena con un estado de error si se produce alguno. Una vez que la operación indique "done: true"
,
comprueba el estado
del recurso persistente. Si el recurso persistente está en el estado RUNNING
, el reinicio se ha realizado correctamente y está listo para ejecutar trabajos de entrenamiento.
Limitaciones
Estas son las limitaciones para reiniciar un recurso persistente:
- En algunos casos, es posible que se pierda capacidad de recursos escasos al reiniciar un recurso persistente. No se garantiza la retención completa de los recursos.
- Reboot no está disponible en Ray en Vertex AI.
- Los recursos persistentes que contienen grupos de trabajadores autoescalados se reinician con el número mínimo de réplicas.
Siguientes pasos
- Consulta información sobre los recursos persistentes.
- Crea y usa un recurso persistente.
- Ejecutar tareas de entrenamiento en un recurso persistente.
- Obtener información sobre un recurso persistente.
- Eliminar un recurso persistente.