Reiniciar un recurso persistente

Puedes reiniciar cualquier recurso persistente que esté en estado RUNNING o ERROR. Reiniciar un recurso persistente te permite recuperarte de errores que el recurso persistente no puede solucionar por sí solo. También puedes reiniciar un recurso persistente para obtener manualmente clústeres más actualizados. En esta página se explica cómo reiniciar un recurso persistente mediante la consola Google Cloud y la API REST.

Roles obligatorios

Para obtener el permiso que necesitas para reiniciar un recurso persistente, pide a tu administrador que te conceda el rol de gestión de identidades y accesos Administrador de Vertex AI (roles/aiplatform.admin) en tu proyecto. Para obtener más información sobre cómo conceder roles, consulta el artículo Gestionar el acceso a proyectos, carpetas y organizaciones.

Este rol predefinido contiene el permiso aiplatform.persistentResources.update, que es necesario para reiniciar un recurso persistente.

También puedes obtener este permiso con roles personalizados u otros roles predefinidos.

Reiniciar un recurso persistente

Selecciona una de las siguientes pestañas para ver instrucciones sobre cómo reiniciar un recurso persistente. Asegúrate de que no haya trabajos de entrenamiento en ejecución en el recurso persistente.

Consola

Para reiniciar un recurso persistente en la consola Google Cloud , sigue estos pasos:

  1. En la Google Cloud consola, ve a la página Recursos persistentes.

    Ir a Recursos persistentes

  2. Junto al nombre del recurso persistente que quieras reiniciar, haz clic en los puntos suspensivos verticales ().

  3. Haz clic en Reiniciar.

  4. Haz clic en Confirmar.

gcloud

Antes de usar los datos de los comandos que se indican a continuación, haz los siguientes cambios:

  • PROJECT_ID: el ID del proyecto del recurso persistente que quieres reiniciar.
  • LOCATION: la región del recurso persistente que quieras reiniciar.
  • PERSISTENT_RESOURCE_ID: el ID del recurso persistente que quieres reiniciar.

Ejecuta el siguiente comando:

Linux, macOS o Cloud Shell

gcloud ai persistent-resources reboot PERSISTENT_RESOURCE_ID \
    --project=PROJECT_ID \
    --region=LOCATION

Windows (PowerShell)

gcloud ai persistent-resources reboot PERSISTENT_RESOURCE_ID `
    --project=PROJECT_ID `
    --region=LOCATION

Windows (cmd.exe)

gcloud ai persistent-resources reboot PERSISTENT_RESOURCE_ID ^
    --project=PROJECT_ID ^
    --region=LOCATION

Deberías recibir una respuesta similar a la siguiente:

Using endpoint [https://us-central1-aiplatform.googleapis.com/]
Request to reboot the PersistentResource [projects/sample-project/locations/us-central1/persistentResources/test-persistent-resource] has been sent.

You may view the status of your persistent resource with the command

  $ gcloud ai persistent-resources describe projects/sample-project/locations/us-central1/persistentResources/test-persistent-resource

REST

Antes de usar los datos de la solicitud, haz las siguientes sustituciones:

  • PROJECT_ID: el ID del proyecto del recurso persistente que quieres reiniciar.
  • LOCATION: la región del recurso persistente que quieras reiniciar.
  • PERSISTENT_RESOURCE_ID: el ID del recurso persistente que quieres reiniciar.

Método HTTP y URL:

POST https://us-central1-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/persistentResources/PERSISTENT_RESOURCE_ID:reboot

Para enviar tu solicitud, despliega una de estas opciones:

Deberías recibir una respuesta JSON similar a la siguiente:

response: 
  {
    "name": "projects/123456789012/locations/us-central1/persistentResources/test-persistent-resource/operations/1234567890123456789",
    "metadata": {
      "@type": "type.googleapis.com/google.cloud.aiplatform.v1.RebootPersistentResourceOperationMetadata",
      "genericMetadata": {
        "createTime": "2024-03-18T17:31:54.955004Z",
        "updateTime": "2024-03-18T17:31:55.204817Z",
        "state": "RUNNING",
        "worksOn": [
          "projects/123456789012/locations/us-central1/persistentResources/test-persistent-resource"
        ]
      },
      "progressMessage": "Waiting for persistent resource shut down."
    }
  }

Reiniciar un recurso persistente es una operación de larga duración, durante la cual no se puede eliminar el recurso persistente. La operación contiene un campo progressMessage que se rellena con un estado de error si se produce alguno. Una vez que la operación indique "done: true", comprueba el estado del recurso persistente. Si el recurso persistente está en el estado RUNNING, el reinicio se ha realizado correctamente y está listo para ejecutar trabajos de entrenamiento.

Limitaciones

Estas son las limitaciones para reiniciar un recurso persistente:

  • En algunos casos, es posible que se pierda capacidad de recursos escasos al reiniciar un recurso persistente. No se garantiza la retención completa de los recursos.
  • Reboot no está disponible en Ray en Vertex AI.
  • Los recursos persistentes que contienen grupos de trabajadores autoescalados se reinician con el número mínimo de réplicas.

Siguientes pasos