Redémarrer une ressource persistante

Vous pouvez redémarrer toute ressource persistante dont l'état est RUNNING ou ERROR. Le redémarrage d'une ressource persistante vous permet de résoudre des erreurs dont la ressource persistante ne peut pas récupérer par elle-même. Vous pouvez également redémarrer une ressource persistante pour obtenir manuellement des clusters plus à jour. Cette page vous explique comment redémarrer une ressource persistante à l'aide de la console Google Cloud et de l'API REST.

Rôles requis

Pour obtenir l'autorisation dont vous avez besoin pour redémarrer une ressource persistante, demandez à votre administrateur de vous accorder le rôle IAM Administrateur Vertex AI (roles/aiplatform.admin) sur votre projet. Pour en savoir plus sur l'attribution de rôles, consultez la section Gérer les accès.

Ce rôle prédéfini contient l'autorisation aiplatform.persistentResources.update, qui est nécessaire pour redémarrer une ressource persistante.

Vous pouvez également obtenir cette autorisation avec des rôles personnalisés ou d'autres rôles prédéfinis.

Redémarrer une ressource persistante

Sélectionnez l'un des onglets suivants pour obtenir des instructions sur le redémarrage d'une ressource persistante. Assurez-vous qu'aucun job d'entraînement n'est en cours d'exécution sur la ressource persistante.

Console

Pour redémarrer une ressource persistante dans la console Google Cloud, procédez comme suit :

  1. Dans la console Google Cloud, accédez à la page Ressources persistantes.

    Accéder à la page Ressources persistantes

  2. En regard du nom de la ressource persistante que vous souhaitez redémarrer, cliquez sur les points de suspension verticaux ().

  3. Cliquez sur Redémarrer.

  4. Cliquez sur Confirmer.

REST

Avant d'utiliser les données de requête ci-dessous, effectuez les remplacements suivants :

  • PROJECT_ID : ID du projet de la ressource persistante que vous souhaitez redémarrer.
  • LOCATION : région de la ressource persistante que vous souhaitez redémarrer.
  • PERSISTENT_RESOURCE_ID : ID de la ressource persistante que vous souhaitez redémarrer.

Méthode HTTP et URL :

POST https://us-central1-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/persistentResources/PERSISTENT_RESOURCE_ID:reboot

Pour envoyer votre requête, développez l'une des options suivantes :

Vous devriez recevoir une réponse JSON de ce type :

response: 
  {
    "name": "projects/123456789012/locations/us-central1/persistentResources/test-persistent-resource/operations/1234567890123456789",
    "metadata": {
      "@type": "type.googleapis.com/google.cloud.aiplatform.v1.RebootPersistentResourceOperationMetadata",
      "genericMetadata": {
        "createTime": "2024-03-18T17:31:54.955004Z",
        "updateTime": "2024-03-18T17:31:55.204817Z",
        "state": "RUNNING",
        "worksOn": [
          "projects/123456789012/locations/us-central1/persistentResources/test-persistent-resource"
        ]
      },
      "progressMessage": "Waiting for persistent resource shut down."
    }
  }

Le redémarrage d'une ressource persistante est une opération de longue durée au cours de laquelle la ressource persistante ne peut pas être supprimée. L'opération contient un champ progressMessage qui est renseigné avec un état d'erreur le cas échéant. Une fois que l'opération indique "done: true", vérifiez l'état de la ressource persistante. Si la ressource persistante est à l'état RUNNING, le redémarrage a réussi et la ressource est prête à exécuter des jobs d'entraînement.

Limites

Les limites suivantes s'appliquent au redémarrage d'une ressource persistante :

  • Dans certains cas, il est possible de perdre la capacité en ressources rares lors du redémarrage d'une ressource persistante. La conservation complète des ressources n'est pas garantie.
  • Le redémarrage n'est pas disponible pour Ray sur Vertex AI.
  • Les ressources persistantes contenant des pools de nœuds de calcul avec autoscaling redémarrent avec le nombre minimal d'instances dupliquées.

Étapes suivantes