Réutiliser des clusters

Cette page explique comment réutiliser des clusters Dataproc pour les exécutions de pipeline dans Cloud Data Fusion. Pour en savoir plus, consultez les pages Quand réutiliser des clusters et Exécuter un pipeline sur un cluster Dataproc existant.

Avant de commencer

  • Vous devez disposer d'une instance Cloud Data Fusion version 6.5.0 ou ultérieure.

Activer la réutilisation des clusters

Vous pouvez réutiliser des clusters dans un nouveau profil de calcul ou dans un profil utilisé dans un pipeline déployé.

Activer la réutilisation des clusters dans un nouveau profil

  1. Accédez à votre instance :

    1. Dans la console Google Cloud, accédez à la page Cloud Data Fusion.

    2. Pour ouvrir l'instance dans Cloud Data Fusion Studio, Cliquez sur Instances, puis sur Afficher l'instance.

      Accéder à la page "Instances"

  2. Cliquez sur System admin > Configuration > System compute profiles (Administrateur système > Configuration > Profils de calcul système).

  3. Cliquez sur Créer un profil.

  4. Choisissez l'approvisionneur Dataproc.

  5. Dans la fenêtre Créer un profil pour Dataproc, saisissez les détails de votre cluster:

    1. Dans les champs Libellé du profil et Nom du profil, saisissez un nom permettant d'identifier le profil (par exemple, execution_compute-profile).
    2. Dans le champ Description, décrivez l'objectif du profil (par exemple, Profile used for pipeline execution).
    3. Dans le champ Temps d'inactivité maximal, saisissez une valeur. Pour en savoir plus, consultez Définir la durée d'inactivité maximale.
    4. Définissez le champ Skip cluster delete (Ignorer la suppression du cluster) sur True. Pour en savoir plus, consultez la section Quand réutiliser des clusters.
    5. Facultatif: configurez d'autres champs facultatifs.
    6. Cliquez sur Créer.

Activer la réutilisation des clusters dans un pipeline déployé

  1. Accédez à votre instance :

    1. Dans la console Google Cloud, accédez à la page Cloud Data Fusion.

    2. Pour ouvrir l'instance dans Cloud Data Fusion Studio, Cliquez sur Instances, puis sur Afficher l'instance.

      Accéder à la page "Instances"

  2. Cliquez sur Liste.

  3. Cliquez sur l'onglet Déployé, puis sur le nom d'un pipeline. Le pipeline déployé s'ouvre sur la page Studio de l'interface Web de Cloud Data Fusion.

  4. Cliquez sur Configurer.

  5. Dans la fenêtre Configuration du calcul, accédez au profil choisi et cliquez sur Personnaliser.

  6. Dans la fenêtre qui s'affiche, saisissez les valeurs suivantes:

    1. Dans le champ Temps d'inactivité maximal, saisissez une valeur. Pour en savoir plus, consultez Définir la durée d'inactivité maximale.
    2. Définissez Skip cluster delete (Ignorer la suppression du cluster) sur True. Pour en savoir plus, consultez la section Quand réutiliser des clusters.
  7. Cliquez sur OK.

Étapes suivantes