RUNNING
ou ERROR
.
Le redémarrage d'une ressource persistante vous permet de résoudre des erreurs dont la ressource persistante ne peut pas récupérer par elle-même. Vous pouvez également redémarrer une ressource persistante pour obtenir manuellement des clusters plus à jour. Cette page vous explique comment redémarrer une ressource persistante à l'aide de la console Google Cloud et de l'API REST.
Rôles requis
Pour obtenir l'autorisation dont vous avez besoin pour redémarrer une ressource persistante, demandez à votre administrateur de vous accorder le rôle IAM Administrateur Vertex AI (roles/aiplatform.admin
) sur votre projet.
Pour en savoir plus sur l'attribution de rôles, consultez la page Gérer l'accès aux projets, aux dossiers et aux organisations.
Ce rôle prédéfini contient l'autorisation aiplatform.persistentResources.update
, qui est nécessaire pour redémarrer une ressource persistante.
Vous pouvez également obtenir cette autorisation avec des rôles personnalisés ou d'autres rôles prédéfinis.
Redémarrer une ressource persistante
Sélectionnez l'un des onglets suivants pour obtenir des instructions sur le redémarrage d'une ressource persistante. Assurez-vous qu'aucun job d'entraînement n'est en cours d'exécution sur la ressource persistante.
Console
Pour redémarrer une ressource persistante dans la console Google Cloud, procédez comme suit :
Dans la console Google Cloud, accédez à la page Ressources persistantes.
En regard du nom de la ressource persistante que vous souhaitez redémarrer, cliquez sur les points de suspension verticaux (
).Cliquez sur Redémarrer.
Cliquez sur Confirmer.
gcloud
Avant d'utiliser les données de la commande ci-dessous, effectuez les remplacements suivants :
- PROJECT_ID : ID du projet de la ressource persistante que vous souhaitez redémarrer.
- LOCATION : région de la ressource persistante que vous souhaitez redémarrer.
- PERSISTENT_RESOURCE_ID : ID de la ressource persistante que vous souhaitez redémarrer.
Exécutez la commande suivante :
Linux, macOS ou Cloud Shell
gcloud ai persistent-resources reboot PERSISTENT_RESOURCE_ID \ --project=PROJECT_ID \ --region=LOCATION
Windows (PowerShell)
gcloud ai persistent-resources reboot PERSISTENT_RESOURCE_ID ` --project=PROJECT_ID ` --region=LOCATION
Windows (cmd.exe)
gcloud ai persistent-resources reboot PERSISTENT_RESOURCE_ID ^ --project=PROJECT_ID ^ --region=LOCATION
Vous devriez obtenir un résultat semblable à celui-ci :
Using endpoint [https://us-central1-aiplatform.googleapis.com/] Request to reboot the PersistentResource [projects/sample-project/locations/us-central1/persistentResources/test-persistent-resource] has been sent. You may view the status of your persistent resource with the command $ gcloud ai persistent-resources describe projects/sample-project/locations/us-central1/persistentResources/test-persistent-resource
REST
Avant d'utiliser les données de requête ci-dessous, effectuez les remplacements suivants :
- PROJECT_ID : ID du projet de la ressource persistante que vous souhaitez redémarrer.
- LOCATION : région de la ressource persistante que vous souhaitez redémarrer.
- PERSISTENT_RESOURCE_ID : ID de la ressource persistante que vous souhaitez redémarrer.
Méthode HTTP et URL :
POST https://us-central1-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/persistentResources/PERSISTENT_RESOURCE_ID:reboot
Pour envoyer votre requête, développez l'une des options suivantes :
Vous devriez recevoir une réponse JSON de ce type :
response:{ "name": "projects/123456789012/locations/us-central1/persistentResources/test-persistent-resource/operations/1234567890123456789", "metadata": { "@type": "type.googleapis.com/google.cloud.aiplatform.v1.RebootPersistentResourceOperationMetadata", "genericMetadata": { "createTime": "2024-03-18T17:31:54.955004Z", "updateTime": "2024-03-18T17:31:55.204817Z", "state": "RUNNING", "worksOn": [ "projects/123456789012/locations/us-central1/persistentResources/test-persistent-resource" ] }, "progressMessage": "Waiting for persistent resource shut down." } }
Le redémarrage d'une ressource persistante est une opération de longue durée au cours de laquelle la ressource persistante ne peut pas être supprimée. L'opération contient un champ progressMessage
qui est renseigné avec un état d'erreur le cas échéant. Une fois que l'opération indique "done: true"
, vérifiez l'état de la ressource persistante. Si la ressource persistante est à l'état RUNNING
, le redémarrage a réussi et la ressource est prête à exécuter des jobs d'entraînement.
Limites
Les limites suivantes s'appliquent au redémarrage d'une ressource persistante :
- Dans certains cas, il est possible de perdre la capacité en ressources rares lors du redémarrage d'une ressource persistante. La conservation complète des ressources n'est pas garantie.
- Le redémarrage n'est pas disponible pour Ray sur Vertex AI.
- Les ressources persistantes contenant des pools de nœuds de calcul avec autoscaling redémarrent avec le nombre minimal d'instances dupliquées.
Étapes suivantes
- Apprenez-en plus sur les ressources persistantes.
- Créer et utiliser une ressource persistante.
- Exécuter des jobs d'entraînement sur une ressource persistante.
- Obtenir des informations sur une ressource persistante.
- Supprimer une ressource persistante.