Extraire des données à partir de champs

Cette page explique comment extraire et transformer des données à partir d'un champ (une cellule) lorsque vous préparez des données dans l'espace de travail Wrangler de Cloud Data Fusion Studio.

Pour effectuer des transformations sur ces données, vous devez les diviser en colonnes distinctes. Dans Wrangler, vous pouvez extraire des données d'une colonne et créer des colonnes pour les données extraites. Vous pouvez extraire des valeurs basées sur des modèles, des délimiteurs ou des positions.

Extraire des données à l'aide de modèles

Vous pouvez extraire des données à partir de champs dans des colonnes de type de données "Chaîne" à l'aide des modèles suivants :

  • Cartes de crédit
  • Date
  • Date et heure
  • E-mail
  • URL des ancres HTML
  • Adresse IPv4
  • Codes ISBN
  • Adresse MAC
  • Numéro à N chiffres
  • SSN
  • Modèle de début et de fin
  • Heure

Pour extraire des données en fonction d'un modèle, procédez comme suit :

  1. Accédez à l'espace de travail Wrangler dans Cloud Data Fusion.
  2. Dans l'onglet Données, accédez au nom d'une colonne, puis cliquez sur l'icône arrow_drop_down flèche de développement.
  3. Sélectionnez Extraire des champs > À l'aide de modèles, puis sélectionnez une option (par exemple, URL).
  4. Facultatif : cliquez sur Afficher le modèle pour afficher l'expression régulière du modèle.
  5. Cliquez sur Extraire.

Wrangler extrait les champs en fonction du modèle choisi et ajoute le extract-regex-groups à la recette. Lorsque vous exécutez le pipeline de données, Cloud Data Fusion applique la transformation à toutes les lignes de la colonne.

Dans l'exemple suivant, une colonne contient un nombre, suivi d'une adresse e-mail:

Adresses e-mail
1 222larabrown@gmail.com
2 cloudysanfrancisco@gmail.com

Pour extraire l'adresse e-mail, sélectionnez le format Email (E-mail). Lorsque vous cliquez sur Extraire, Wrangler conserve la colonne d'origine et crée une colonne contenant uniquement les adresses e-mail :

Adresses e-mail Emails_1
1 222larabrown@gmail.com 222larabrown@gmail.com
2 cloudysanfrancisco@gmail.com cloudysanfrancisco@gmail.com

Extraire des données avec des délimiteurs

Vous pouvez extraire des données dans au moins deux colonnes en fonction des éléments suivants : délimiteurs:

  • Virgule
  • Tabulation
  • Barre verticale
  • Espace blanc
  • Séparateur personnalisé

Si une valeur n'a pas de délimiteur, aucune valeur n'est ajoutée au champ correspondant dans la nouvelle colonne.

Pour extraire des valeurs en fonction d'un délimiteur :

  1. Accédez à l'espace de travail Wrangler dans Cloud Data Fusion.
  2. Dans l'onglet Données, accédez à un nom de colonne, puis cliquez sur la flèche d'expansion arrow_drop_down.
  3. Sélectionnez Extraire des champs > À l'aide de délimiteurs, puis sélectionnez une option (par exemple, Virgule).
  4. Cliquez sur Extraire.

Wrangler extrait les champs en fonction du délimiteur sélectionné et ajoute la directive split-to-columns à la recette. Lorsque vous exécutez le pipeline de données, Cloud Data Fusion transforme toutes les valeurs de la colonne.

Dans l'exemple suivant, une colonne contient plusieurs noms séparés par des virgules :

ID Nom
1 Lee,Lucian,Luka
2 Mahan, Noam, Nur

Dans cet exemple, l'utilisation du modèle de séparateurs de virgules extrait les valeurs de la colonne Name d'origine dans trois nouvelles colonnes :

ID Nom Nom_1 Name_2 Name_3
1 Lee,Lucian,Luka Lee Lucien Luka
2 Mahan,Noam,Nur Mahan Noam Nur

Extraire des données par position

Vous pouvez extraire une partie d'une chaîne en fonction de sa position dans la chaîne.

Pour extraire des données en fonction de leur position:

  1. Accéder à l'espace de travail Wrangler dans Cloud Data Fusion
  2. Dans l'onglet Données, accédez à un nom de colonne, puis cliquez sur la flèche d'expansion arrow_drop_down.
  3. Sélectionnez Extraire les champs > Utiliser les positions. Les valeurs de colonne que vous pouvez extraire apparaissent avec un arrière-plan bleu.
  4. Dans n'importe quelle cellule de la colonne, sélectionnez les caractères à extraire.
  5. Dans le champ Nom de la colonne de destination, saisissez un nom.
  6. Cliquez sur Appliquer.

La partie choisie de la valeur est extraite de chaque ligne de la colonne.

Wrangler extrait les champs en fonction du modèle sélectionné et ajoute la directive cut-character à la recette. Lorsque vous exécutez le pipeline de données, Cloud Data Fusion applique la transformation à toutes les valeurs de la colonne.

Étape suivante