Arrêter et démarrer des clusters Dataproc

Après avoir créé un cluster, vous pouvez l'arrêter, puis le redémarrer lorsque vous en avez besoin. L'arrêt d'un cluster inactif évite des frais et la nécessité de supprimer un cluster inactif, puis de créer un cluster avec la même configuration par la suite.

Remarques sur les fonctionnalités:

  • La fonctionnalité de démarrage/d'arrêt du cluster n'est compatible qu'avec les versions d'image Dataproc suivantes ou ultérieures :
    • 1.4.35-debian10/ubuntu18
    • 1.5.10-debian10/ubuntu18
    • 2.0.0-RC6-debian10/ubuntu18
  • L'arrêt de nœuds de cluster individuels n'est pas recommandé, car l'état d'une VM arrêtée peut ne pas être synchronisé avec l'état du cluster, ce qui peut entraîner des erreurs.

Arrêter un cluster

L'arrêt d'un cluster arrête toutes les VM Compute Engine du cluster. Ces VM ne vous sont pas facturées tant qu'elles sont arrêtées. Toutefois, les ressources du cluster associées, telles que les disques persistants, continuent de vous être facturées.

Remarques :

  • Opérations en cours d'exécution : si un cluster dispose d'opérations en cours d'exécution (telles que des opérations de mise à jour ou de diagnostic), la requête d'arrêt échoue.
  • Tâches en cours d'exécution : si un cluster comporte des tâches en cours d'exécution, la requête d'arrêt aboutit, les VM s'arrêtent et les tâches en cours d'exécution échouent.
  • Réponse à l'arrêt : lorsque la requête d'arrêt renvoie une opération d'arrêt à l'utilisateur ou à l'appelant dans la réponse, le cluster se trouve à l'état STOPPING et aucune autre tâche ne peut être envoyée (les requêtes SubmitJob échoueront).
  • Autoscaling : si vous arrêtez un cluster sur lequel l'autoscaling est activé, l'autoscaler Dataproc arrête le scaling du cluster. Le scaling reprend une fois le cluster redémarré. Si vous activez l'autoscaling sur un cluster arrêté, la règle d'autoscaling ne prendra effet qu'après le démarrage du cluster.

Surveiller l'opération d'arrêt

Vous pouvez exécuter gcloud dataproc operations describe operation-id pour surveiller l'opération d'arrêt du cluster de longue durée. Vous pouvez également utiliser la commande gcloud dataproc clusters describe cluster-name pour surveiller la transition de l'état du cluster de RUNNING vers STOPPING vers STOPPED.

Limites

Démarrer un cluster

  • Lorsque vous démarrez un cluster arrêté, les actions d'initialisation ne sont pas réexécutées. Les actions d'initialisation ne sont exécutées sur les nœuds de cluster que lors de la création de celui-ci et lorsque des nœuds sont ajoutés lors du scaling à la hausse du cluster.

  • Une fois l'opération de démarrage terminée, vous pouvez envoyer immédiatement des tâches au cluster. Cependant, l'exécution de ces tâches peut être retardée (d'environ 30 secondes) pour permettre à HDFS et à YARN de devenir opérationnels.

Utiliser Démarrer/Arrêter

Vous pouvez arrêter et démarrer un cluster à l'aide de gcloud CLI ou de l'API Dataproc.

Commande gcloud

Arrêter un cluster

gcloud dataproc clusters stop cluster-name \
    --region=region

Démarrer un cluster

gcloud dataproc clusters start cluster-name \
    --region=region

API REST

Arrêter un cluster

Envoyez une requête clusters.stop.

Démarrer un cluster

Envoyez une requête clusters.start.

Console

Cliquez sur le nom du cluster sur la page Dataproc Clusters dans la console Google Cloud. Cliquez ensuite sur ARRÊTER pour arrêter le cluster et sur DÉMARRER pour le démarrer.