RUNNING
o ERROR
.
Reiniciar un recurso persistente te permite recuperarte de errores de los que el recurso persistente no puede recuperarse por sí solo. También puedes reiniciar un recurso persistente para obtener de forma manual más clústeres actualizados. En esta página, se muestra cómo reiniciar un recurso persistente mediante la consola de Google Cloud y la API de REST.
Roles obligatorios
Para obtener el permiso que necesitas para reiniciar un recurso persistente, pídele a tu administrador que te otorgue el rol de IAM de administrador de Vertex AI (roles/aiplatform.admin
) en tu proyecto.
Para obtener más información sobre cómo otorgar roles, consulta Administra el acceso.
Este rol predefinido contiene el permiso aiplatform.persistentResources.update
, que se requiere para reiniciar un recurso persistente.
También puedes obtener este permiso con roles personalizados o con otros roles predefinidos.
Reinicia un recurso persistente
Selecciona una de las siguientes pestañas para obtener instrucciones sobre cómo reiniciar un recurso persistente. Asegúrate de que no haya trabajos de entrenamiento en ejecución en el recurso persistente.
Console
Para reiniciar un recurso persistente en la consola de Google Cloud, haz lo siguiente:
En la consola de Google Cloud, ve a la página Recursos persistentes.
Junto al nombre del recurso persistente que deseas reiniciar, haz clic en los tres puntos verticales (
).Haz clic en Reiniciar.
Haz clic en Confirm.
REST
Antes de usar cualquiera de los datos de solicitud a continuación, realiza los siguientes reemplazos:
- PROJECT_ID: el ID del proyecto del recurso persistente que deseas reiniciar.
- LOCATION: la región del recurso persistente que deseas reiniciar.
- PERSISTENT_RESOURCE_ID: el ID del recurso persistente que deseas reiniciar.
Método HTTP y URL:
POST https://us-central1-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/persistentResources/PERSISTENT_RESOURCE_ID:reboot
Para enviar tu solicitud, expande una de estas opciones:
Deberías recibir una respuesta JSON similar a la que se muestra a continuación:
response:{ "name": "projects/123456789012/locations/us-central1/persistentResources/test-persistent-resource/operations/1234567890123456789", "metadata": { "@type": "type.googleapis.com/google.cloud.aiplatform.v1.RebootPersistentResourceOperationMetadata", "genericMetadata": { "createTime": "2024-03-18T17:31:54.955004Z", "updateTime": "2024-03-18T17:31:55.204817Z", "state": "RUNNING", "worksOn": [ "projects/123456789012/locations/us-central1/persistentResources/test-persistent-resource" ] }, "progressMessage": "Waiting for persistent resource shut down." } }
Reiniciar un recurso persistente es una operación de larga duración, durante la cual el recurso persistente no se puede borrar. La operación contiene un campo progressMessage
que se propaga con un estado de error, si se produce uno. Después de que la operación indique "done: true"
, verifica el estado del recurso persistente. Si el recurso persistente está en el estado RUNNING
, el reinicio se realizó de forma correcta y está listo para ejecutar trabajos de entrenamiento.
Limitaciones
Las siguientes son limitaciones para reiniciar un recurso persistente:
- En algunos casos, es posible perder la capacidad de los recursos pocos cuando se reinicia un recurso persistente. No se garantiza la retención completa de recursos.
- El reinicio no está disponible en Ray en Vertex AI.
- Los recursos persistentes que contienen grupos de trabajadores con ajuste de escala automático se reinician con el recuento mínimo de réplicas.
¿Qué sigue?
- Obtén más información sobre el recurso persistente.
- Crea y usa un recurso persistente.
- Ejecuta trabajos de entrenamiento en un recurso persistente.
- Obtén información sobre un recurso persistente.
- Borra un recurso persistente.