Exécuter un pipeline sur un cluster Dataproc existant

Vous trouverez sur cette page la procédure à suivre pour exécuter un pipeline dans Cloud Data Fusion sur un cluster Dataproc existant.

Par défaut, Cloud Data Fusion crée des clusters éphémères pour chaque pipeline : il crée un cluster au début de l'exécution du pipeline, puis le supprime une fois l'exécution du pipeline terminée. Même si ce comportement permet de réduire les coûts en veillant à ce que les ressources ne soient créées que lorsque cela est requis, ce comportement par défaut peut ne pas être souhaitable dans les scénarios suivants :

  • Si le temps nécessaire à la création d'un cluster pour chaque pipeline est prohibitif pour votre cas d'utilisation.

  • Si votre organisation exige que les clusters soient créés de manière centralisée. Par exemple, lorsque vous souhaitez appliquer certaines stratégies à tous les clusters Dataproc.

Pour ces scénarios, vous exécutez plutôt des pipelines sur un cluster existant en procédant comme suit :

Avant de commencer

Vous devez disposer des éléments suivants :

Se connecter au cluster existant

Dans Cloud Data Fusion versions 6.2.1 et ultérieures, vous pouvez vous connecter à un cluster Dataproc existant lorsque vous créez un profil Compute Engine.

  1. Accédez à votre instance :

    1. Dans la console Google Cloud, accédez à la page Cloud Data Fusion.

    2. Pour ouvrir l'instance dans Cloud Data Fusion Studio, Cliquez sur Instances, puis sur Afficher l'instance.

      Accéder à la page "Instances"

  2. Cliquez sur Administrateur système.

  3. Cliquez sur l'onglet Configuration.

  4. Cliquez sur Profils de calcul système.

  5. Cliquez sur Créer un profil. Une page d'approvisionneurs s'ouvre.

  6. Cliquez sur Existing Dataproc (Cluster Dataproc existant).

  7. Saisissez les informations de profil, de cluster et de surveillance.

  8. Cliquez sur Créer.

Configurer votre pipeline pour utiliser le profil personnalisé

  1. Accédez à votre instance :

    1. Dans la console Google Cloud, accédez à la page Cloud Data Fusion.

    2. Pour ouvrir l'instance dans Cloud Data Fusion Studio, Cliquez sur Instances, puis sur Afficher l'instance.

      Accéder à la page "Instances"

  2. Accédez à votre pipeline sur la page Studio.

  3. Cliquez sur Configurer.

  4. Cliquez sur Compute config (Configuration de calcul).

  5. Cliquez sur le profil que vous avez créé.

    Utiliser le profil personnalisé.
    Figure 1: Cliquez sur le profil personnalisé
  6. Exécutez le pipeline. Il s'exécute sur le cluster Dataproc existant.

Étapes suivantes