Présentation de Wrangler

Wrangler est un outil de préparation des données visuel dans l'interface Cloud Data Fusion Studio. Il vous permet de nettoyer et de transformer les données avant de les utiliser dans des pipelines ETL (extraction, transformation et chargement). Wrangler applique des transformations à un échantillon de vos données au même endroit (appelé aperçu) avant d'exécuter la logique sur l'ensemble de données complet. Cet aperçu vous aide à appliquer des transformations et à comprendre leur impact sur l'ensemble de données.

Directives Wrangler

Une directive est une instruction unique utilisée dans Wrangler. Les directives spécifient comment manipuler vos données, par exemple en les transformant, en les filtrant ou en pivotant des enregistrements individuels.

Les concepts suivants sont liés aux directives:

Recette
Une recette est un ensemble de directives. Il se compose d'une ou de plusieurs directives.
Étape de transformation
Une étape de transformation est une implémentation d'une directive de transformation de données, qui s'applique à un seul enregistrement ou à un ensemble d'enregistrements. Une étape de transformation peut générer zéro ou plusieurs enregistrements en appliquant une directive. Wrangler applique les étapes de transformation dans l'ordre indiqué dans la recette.

Composants Wrangler

Les sections suivantes expliquent les composants de Wrangler dans Cloud Data Fusion Studio.

Espace de travail Wrangler

L'espace de travail Wrangler est une page de l'interface Cloud Data Fusion Studio dans laquelle vous analysez, mélangez, nettoyez et transformez des ensembles de données. Sur la page Espace de travail, vous pouvez effectuer les actions suivantes:

  • Ajoutez des étapes de transformation à une recette à l'aide du menu déroulant de chaque colonne.
  • Pour afficher ou supprimer des étapes d'une recette, sélectionnez l'onglet Étapes de transformation.
  • Découvrez les colonnes contenant des champs vides et d'autres informations en consultant la barre Qualité des données.
  • Pour afficher le schéma de l'ensemble de données, cliquez sur Plus.
  • Créez un pipeline de données avec un plug-in source pour l'ensemble de données et la transformation Wrangler avec la recette contenant les étapes de transformation, qui sont exécutées lorsque le pipeline s'exécute.

Mode d'alimentation Wrangler (CLI)

Pour spécifier des directives à l'aide d'une syntaxe déclarative, utilisez le mode Power (CLI). Il est utile pour les tâches suivantes:

  • Utilisation de directives qui ne sont pas disponibles dans l'interface Studio
  • Ajouter des directives définies par l'utilisateur
  • Appliquer une directive à plusieurs colonnes

Pour utiliser le mode Power de Wrangler, saisissez des directives dans la barre noire en bas de l'onglet Données de Wrangler.

Onglet "Insights" de Wrangler

Vous pouvez utiliser l'onglet Insights de la page Wrangler pour découvrir des données sur un ensemble de données.

Limites

  • Wrangler n'est compatible qu'avec les pipelines ETL par lot.
  • Wrangler n'applique la transformation qu'aux données d'échantillon. Cet échantillon de données est limité aux 1 000 premiers enregistrements.
  • Wrangler nécessite la création de connexions avec la source. Pour en savoir plus, consultez la section Créer et gérer des connexions.
  • Wrangler nécessite toujours qu'au moins un espace de travail Wrangler soit ouvert.
  • Il n'est pas possible de cliquer sur le bouton "Wrangle" dans la transformation Wrangler.

Vous pouvez accéder à Wrangler de deux manières depuis l'interface Cloud Data Fusion Studio:

  • Pour ouvrir l'espace de travail Wrangler de Cloud Data Fusion, accédez à Cloud Data Fusion Studio, puis cliquez sur Wrangler.
  • Pour configurer les propriétés Wrangler, accédez à Cloud Data Fusion Studio, puis cliquez sur Studio > Transformations > Wrangler.

Vous connecter à une source de données

Wrangler est compatible avec diverses sources de données, telles que BigQuery, Cloud Storage et les bases de données externes (avec une configuration supplémentaire). Pour utiliser Wrangler, vous devez créer une connexion avec la source.

Pour créer la connexion, accédez à la liste Connexions, puis sélectionnez la connexion à votre source de données. Pour en savoir plus, consultez la section Créer et gérer des connexions.

Explorer et prévisualiser les données

Wrangler affiche un échantillon de vos données (généralement 1 000 lignes) à des fins d'inspection. Vous pouvez obtenir une vue d'ensemble du schéma de données, y compris les types de données et les statistiques de base.

Appliquer des directives

Wrangler propose diverses directives intégrées pour les tâches de nettoyage de données courantes.

  • Faites glisser la directive choisie sur une colonne spécifique ou sur la fenêtre d'aperçu des données.
  • Chaque directive dispose d'options de configuration pour personnaliser son comportement.

Pour en savoir plus, consultez la section Directives de ligne de commande Wrangler.

Prévisualiser les résultats de la transformation

Lorsque vous appliquez des directives, la fenêtre d'aperçu des données est mise à jour dynamiquement pour refléter les modifications. Vous pouvez ainsi voir l'impact immédiat de chaque transformation sur vos données.

Affiner et itérer

Pour affiner votre processus de nettoyage des données, continuez à ajouter des directives, à modifier des configurations et à examiner l'aperçu.

L'interface visuelle de Wrangler vous aide à effectuer des tests et à vous assurer que vos transformations produisent le résultat attendu.

Ajouter des transformations à un pipeline

Bien que Wrangler ne soit pas une solution de stockage persistante, Cloud Data Fusion propose des moyens de capturer votre logique de nettoyage:

  • Créez un pipeline. Dans l'espace de travail Wrangler, convertissez vos transformations Wrangler en pipeline Cloud Data Fusion en procédant comme suit:

    1. Cliquez sur Créer un pipeline.
    2. Sélectionnez Pipeline par lot. La page Pipeline Studio s'ouvre avec un pipeline contenant une source et une transformation Wrangler.
  • Appliquez des transformations. Si vous utilisez le plug-in Wrangler sur la page Studio, convertissez vos transformations Wrangler en pipeline Cloud Data Fusion en cliquant sur Appliquer.

Modifier des recettes

Lorsque vous utilisez l'espace de travail Wrangler pour créer une transformation Wrangler, après avoir ajouté la transformation Wrangler à un pipeline, nous vous recommandons d'utiliser l'interface Wrangler pour ajouter ou modifier des recettes.

Dans la transformation Wrangler, si vous modifiez manuellement la recette ou ajoutez des étapes à la recette et que les modifications affectent le schéma de sortie, vous devez mettre à jour manuellement le schéma de sortie dans la transformation Wrangler pour qu'il corresponde aux modifications apportées à la recette. Seules les recettes créées ou modifiées dans l'espace de travail Wrangler créeront et mettront automatiquement à jour le schéma de sortie dans la transformation Wrangler.

Pour modifier une recette dans la transformation Wrangler créée dans l'interface Web Wrangler, procédez comme suit:

  1. Accédez au nœud Wrangler de votre pipeline, puis cliquez sur Properties (Propriétés).
  2. Cliquez sur Wrangle.
  3. Modifier ou ajouter une recette
  4. Cliquez sur Appliquer.

Étape suivante