Gérer les macros, les préférences et les arguments d'exécution

Cette page explique comment définir des préférences, des macros et des arguments d'exécution dans les pipelines Cloud Data Fusion.

Termes clés

Macros
Les macros sont des espaces réservés dans les configurations du plug-in Cloud Data Fusion. Ils sont représentés par des variables contenues dans ${ }, telles que ${input_file_path}. Les macros apportent de la flexibilité à vos pipelines en vous permettant d'utiliser des valeurs d'espace réservé, qui sont remplacées par des valeurs réelles au moment de l'exécution. Cela active la configuration dynamique des paramètres, tels que les chemins d'accès aux fichiers et les noms de tables.
Préférences
Les préférences sont des configurations prédéfinies qui s'appliquent à différents niveaux dans Cloud Data Fusion, y compris le système lui-même, les espaces de noms, les applications (qui contiennent des pipelines) et les programmes individuels au sein des pipelines. Les préférences vous permettent de définir des valeurs par défaut pour les configurations couramment utilisées. Les pipelines et les programmes peuvent hériter des valeurs par défaut à des niveaux inférieurs, ce qui réduit les tâches de configuration répétitives.
Arguments d'exécution
Les arguments d'exécution sont des paires clé/valeur qui fournissent des valeurs aux macros et remplacent potentiellement les préférences lorsque vous déployez ou exécutez un pipeline. Ils sont hautement personnalisables, ce qui vous permet d'ajuster les configurations pour chaque exécution du pipeline, sans modifier le pipeline sous-jacent ni les préférences.

Configurer des macros

Pour utiliser une macro comme valeur de propriété de plug-in, procédez comme suit:

  1. Dans Cloud Data Fusion Studio, accédez au nœud du plug-in et cliquez sur "Propriétés".
  2. Accédez au champ dans lequel vous souhaitez utiliser une macro, puis cliquez sur le symbole** M** à côté du champ.
  3. Saisissez une clé pour la macro. Par exemple, dans les propriétés du plug-in de la source de fichier, saisissez la clé suivante dans le champ Format: ${format.type}.

Définir des valeurs de macro

Définissez des valeurs pour les macros avant de prévisualiser les données d'un pipeline et avant de l'exécuter. Vous pouvez définir des valeurs de macro aux endroits suivants:

  • Plug-ins setter d'arguments
  • Arguments d'exécution
  • Préférences de l'application
  • Préférences d'espace de noms
  • Préférences système

L'exécution d'un pipeline avec des macros entraîne les effets suivants:

  • Cloud Data Fusion vérifie d'abord si le pipeline inclut un plug-in setter d'argument :
    • S'il possède un setter d'argument, Cloud Data Fusion utilise les valeurs pour les macros de celui-ci.
    • En l'absence de setter d'argument, ou si des macros ne sont pas attribuées dans le setter d'argument, Cloud Data Fusion utilise à la place les valeurs contenues dans les arguments d'exécution du pipeline.
  • Les arguments d'exécution héritent des macros des préférences de l'application.
  • Les préférences d'application héritent des macros des préférences d'espace de noms
  • Les préférences d'espace de noms héritent des macros des préférences système.

Exemples

Les macros sont couramment utilisées dans les champs de chemin d'accès. Au lieu d'utiliser des chemins d'accès codés en dur, vous pouvez utiliser des chemins d'accès dynamiques. Par exemple, dans un plug-in source Cloud Storage, vous pouvez remplacer la valeur du chemin par plusieurs macros. La valeur suivante divise les éléments de bucket, de dossier et de fichier: gs://${bucket.name}/${folder}/${file.name}.

L'exemple suivant permet de charger des données à partir d'un bucket statique et d'un fichier dont le nom n'est pas statique. Saisissez le nom du bucket et utilisez une macro pour le nom de fichier: gs://<BUCKET_NAME>/${folder}/${file.name}.

Configurer les préférences

La section suivante décrit la hiérarchie des préférences, dans laquelle les préférences sont définies, héritées ou remplacées.

Définir les préférences système

Vous pouvez définir des préférences pour le système. Étant donné que les noms de macro doivent être uniques, chaque préférence s'applique à tous les pipelines qui utilisent cette macro.

Par exemple, vous disposez d'un pipeline avec une source de base de données, et vous utilisez des macros pour le nom de la base de données et le nom d'utilisateur. Vous pouvez définir les préférences de base de données et de nom d'utilisateur dans les préférences système. Chaque espace de noms et chaque pipeline de cette instance hérite de ces préférences.

Pour définir les préférences système, procédez comme suit:

  1. Dans Cloud Data Fusion Studio, cliquez sur Administrateur système > Configuration.
  2. Cliquez sur Préférences système > Modifier les préférences système.
  3. Dans la boîte de dialogue Preferences (Préférences), saisissez de nouvelles préférences ou modifiez des préférences existantes.
  4. Cliquez sur Enregistrer et fermer. Ces préférences sont disponibles dans tous les espaces de noms, applications et pipelines.

Définir les préférences d'espace de noms

Vous pouvez définir des préférences pour les espaces de noms individuels.

Lorsque vous définissez des préférences d'espace de noms, les préférences système héritées s'affichent. Lorsque vous définissez des préférences pour un espace de noms, vous pouvez remplacer les préférences héritées en définissant des valeurs différentes. Vous pouvez également ajouter de nouvelles préférences d'espace de noms.

Pour définir les préférences d'espace de noms, procédez comme suit:

  1. Dans Cloud Data Fusion Studio, cliquez sur System admin > Configuration (Administrateur système > Configuration).
  2. Cliquez sur Espaces de noms , puis sélectionnez un espace de noms pour ouvrir sa page de configurations.
  3. Pour modifier les préférences héritées ou ajouter de nouvelles préférences, accédez à l'onglet Preferences (Préférences), puis cliquez sur Edit (Modifier). Une boîte de dialogue Preferences (Préférences) s'ouvre. Elle vous permet de saisir une nouvelle préférence ou de remplacer les préférences système héritées. Cliquez sur <span class="material-icons">add</span> Ajouter, puis saisissez la clé et la nouvelle valeur de la macro.
  4. Cliquez sur Enregistrer et fermer. La préférence d'espace de noms est créée avec la nouvelle valeur, qui prévaut sur les préférences du système.

Définir les préférences de l'application

Vous pouvez définir des préférences pour chaque pipeline déployé dans un espace de noms. Lorsque vous définissez des préférences d'application, toutes les préférences héritées du système et de l'espace de noms apparaissent. Lorsque vous définissez des préférences pour une application, vous pouvez ignorer les préférences héritées en définissant des valeurs différentes ou ajouter de nouvelles préférences pour l'application:

  1. Dans Cloud Data Fusion Studio, cliquez sur , puis sur le menu Espace de noms pour sélectionner l'espace de noms auquel vous souhaitez ajouter des préférences d'application.
  2. Cliquez sur Centre de contrôle.
  3. Cliquez sur l'icône en forme de clé à molette "Définir les préférences". La page "Préférences" s'affiche et répertorie toutes les préférences héritées.
  4. Pour modifier les préférences héritées ou ajouter de nouvelles préférences, accédez à l'onglet Preferences (Préférences), puis cliquez sur Edit (Modifier). Une boîte de dialogue Preferences (Préférences) s'ouvre. Elle vous permet de saisir une nouvelle préférence ou de remplacer les préférences système héritées. Cliquez sur <span class="material-icons">add</span> Ajouter, puis saisissez la clé et la nouvelle valeur de la macro.
  5. Cliquez sur Enregistrer et fermer. La préférence de l'application est créée avec la nouvelle valeur, qui remplace les préférences du système ou de l'espace de noms. Lorsque vous exécutez le pipeline déployé, les préférences de l'application apparaissent sous forme d'arguments d'exécution que vous pouvez modifier si vous le souhaitez.

Configurer des arguments d'exécution

Configurez des arguments d'exécution pour fournir des valeurs pour les macros et éventuellement remplacer les préférences lorsque vous déployez ou exécutez un pipeline.

Arguments d'exécution pour la prévisualisation des données

Pour définir les valeurs de chaque macro du pipeline lorsque vous prévisualisez des données dans Cloud Data Fusion Studio, cliquez sur Liste > Configurer.

Arguments d'exécution pour l'exécution de pipelines déployés

Si un pipeline inclut des macros, après l'avoir déployé, vous ajoutez des arguments d'exécution qui définissent les valeurs des macros.

Lorsque vous déployez un pipeline avec des macros, cliquez sur le menu déroulant à côté de Run (Exécuter) pour ouvrir la boîte de dialogue Runtime arguments (Arguments d'exécution) et définir les valeurs de chaque macro.

Définir les préférences de pipeline

Pour définir les préférences d'un pipeline, procédez comme suit:

  1. Dans Cloud Data Fusion Studio, cliquez sur Liste > Déployé, puis sélectionnez un pipeline déployé pour l'afficher.
  2. Dans le canevas du pipeline, cliquez sur le menu déroulant à côté de Run (Exécuter). La boîte de dialogue Arguments d'exécution s'ouvre.
  3. Dans la boîte de dialogue Runtime arguments (Arguments d'exécution) qui s'affiche, spécifiez la valeur de chaque macro du pipeline.

Présentation des préférences, des macros et des arguments d'exécution

Vous pouvez définir des préférences aux niveaux suivants:

  • System preference (Préférences système) : niveau le plus élevé où vous définissez des préférences, telles que les valeurs par défaut, pour l'ensemble de l'instance.
  • Préférences d'espace de noms: hérite des préférences des préférences système. Vous pouvez définir des préférences pour un espace de noms spécifique.
  • Préférences d'application: hérite des préférences des préférences d'espace de noms. Ils peuvent être propres à des applications individuelles (contenant des pipelines).
  • Arguments d'exécution: paires clé/valeur qui remplacent les préférences aux niveaux supérieurs.

Si vous définissez une préférence au niveau des préférences système, les valeurs de macro sont automatiquement insérées dans les préférences d'espace de noms, les préférences d'application et les arguments d'exécution.

Si vous définissez des préférences au niveau de l'espace de noms, elles apparaissent dans la liste des préférences héritées des préférences de l'application. Si un pipeline utilise une macro définie dans une préférence, les arguments d'exécution utilisent la paire clé/valeur définie dans la préférence. Vous pouvez remplacer les valeurs des préférences à chaque niveau de préférence et dans les arguments d'exécution.

Utilisez les préférences, les macros et les arguments d'exécution pour les cas d'utilisation suivants:

  • Développer un pipeline. Intégrez des macros dans lesquelles vous avez besoin de valeurs dynamiques pour les propriétés du plug-in.
  • Facultatif: définir des préférences Définissez des valeurs par défaut pour les macros dans les préférences à différents niveaux.
  • Déployer et exécuter un pipeline. Voici ce qui se produit lorsque vous exécutez un pipeline :
    • Les préférences pour le niveau approprié, telles que les préférences système ou les préférences d'espace de noms, sont appliquées.
    • Tous les arguments d'exécution que vous fournissez remplacent les valeurs attribuées aux macros dans les préférences.
    • Cloud Data Fusion résout les macros en substituant leurs valeurs à partir des arguments d'exécution (ou des préférences si aucun argument d'exécution n'est fourni).

Exemple

Un pipeline dispose d'un récepteur BigQuery dont la valeur de nom de table doit changer de manière dynamique. Pour ce faire, procédez comme suit:

  1. Définissez la macro. Dans les propriétés du récepteur, utilisez la macro suivante dans le champ Nom de la table: ${output_table}.
  2. **Définissez votre préférence. **Dans les préférences de l'application, définissez une préférence pour ${output_table} avec la valeur par défaut suivante: data_staging.
  3. Définissez l'argument "runtime". Lors de l'exécution du pipeline, fournissez un argument d'exécution (par exemple, output_table=final_analytics_data).

Lors de l'exécution du pipeline, la macro ${output_table}, est remplacée par final_analytics_data.