Réutiliser des clusters

Cette page explique comment réutiliser des clusters Dataproc pour vos exécutions de pipeline dans Cloud Data Fusion. Pour en savoir plus, consultez les pages Quand réutiliser des clusters et Exécuter un pipeline sur un cluster Dataproc existant.

Avant de commencer

  • Vous devez disposer d'une instance Cloud Data Fusion version 6.5.0 ou ultérieure.

Activer la réutilisation de clusters

Vous pouvez réutiliser des clusters dans un nouveau profil de calcul ou dans un profil déjà utilisé dans un pipeline déployé.

Activer la réutilisation de clusters dans un nouveau profil

  1. Accédez à votre instance :

    1. Dans la console Google Cloud, accédez à la page Cloud Data Fusion.

    2. Pour ouvrir l'instance dans Cloud Data Fusion Studio, cliquez sur Instances, puis sur Afficher l'instance.

      Accéder à la page "Instances"

  2. Cliquez sur Administrateur système > Configuration > Profils de calcul système.

  3. Cliquez sur Créer un profil.

  4. Choisissez le provisionneur Dataproc.

  5. Dans la fenêtre Créer un profil pour Dataproc, saisissez les informations sur votre cluster:

    1. Dans les champs Libellé de profil et Nom de profil, saisissez un nom pour identifier le profil (par exemple, execution_compute-profile).
    2. Dans le champ Description, décrivez l'objectif du profil (par exemple, Profile used for pipeline execution).
    3. Dans le champ Temps d'inactivité maximal, saisissez une valeur. Pour en savoir plus, consultez la section Définir le délai d'inactivité maximal.
    4. Définissez le champ Ignorer la suppression du cluster sur True. Pour en savoir plus, consultez la section Quand réutiliser des clusters.
    5. Facultatif: configurez d'autres champs facultatifs.
    6. Cliquez sur Créer.

Activer la réutilisation de clusters dans un pipeline déployé

  1. Accédez à votre instance :

    1. Dans la console Google Cloud, accédez à la page Cloud Data Fusion.

    2. Pour ouvrir l'instance dans Cloud Data Fusion Studio, cliquez sur Instances, puis sur Afficher l'instance.

      Accéder à la page "Instances"

  2. Cliquez sur Liste.

  3. Cliquez sur l'onglet Déployé, puis sur le nom d'un pipeline. Le pipeline déployé s'ouvre sur la page Studio de l'interface Web Cloud Data Fusion.

  4. Cliquez sur Configurer.

  5. Dans la fenêtre Compute config (Configuration Compute), accédez au profil choisi, puis cliquez sur Customize (Personnaliser).

  6. Dans la fenêtre qui s'ouvre, saisissez les valeurs suivantes:

    1. Dans le champ Durée d'inactivité maximale, saisissez une valeur. Pour en savoir plus, consultez la section Définir le délai d'inactivité maximal.
    2. Définissez Skip cluster delete (Ignorer la suppression du cluster) sur True. Pour en savoir plus, consultez la section Quand réutiliser des clusters.
  7. Cliquez sur OK.

Étape suivante