Cette page explique comment filtrer les données lorsque vous préparez des données dans l'espace de travail Wrangler de Cloud Data Fusion Studio. Dans Wrangler, vous pouvez filtrer les lignes de données dans les colonnes de n'importe quel type de données, à l'exception du type booléen. Vous conservez ou supprimez des lignes en fonction d'une condition que vous configurez.
Pour conserver ou supprimer des lignes en fonction d'une condition, procédez comme suit:
- Accédez à l'espace de travail Wrangler dans Cloud Data Fusion.
- Dans l'onglet Données, accédez à un nom de colonne, puis cliquez sur la flèche d'expansion arrow_drop_down.
- Sélectionnez Filtrer, puis une option (par exemple, Conserver les lignes et Si la valeur contient).
- Spécifiez la condition.
- Cliquez sur Appliquer.
Les valeurs changent en fonction du filtre. Wrangler ajoute la directive filter-rows-on
à la recette. Lorsque vous exécutez le pipeline de données, la transformation est appliquée aux valeurs de la colonne.
Conserver les lignes
Si vous choisissez de conserver des lignes en fonction d'une condition, celles qui ne répondent pas à la condition sont supprimées. Seules les lignes qui répondent à la condition restent dans l'ensemble de données. Par exemple, si vous sélectionnez la valeur est et saisissez la condition Customer
, Wrangler conserve les lignes contenant la chaîne Customer
et supprime les lignes contenant d'autres valeurs.
Supprimer des lignes
Si vous choisissez de supprimer des lignes en fonction d'une condition, les lignes qui répondent à la condition sont supprimées de l'ensemble de données. Par exemple, si vous supprimez des lignes et sélectionnez La valeur est vide, Wrangler supprime les lignes de la colonne dont les valeurs sont vides ou nulles.
Conditions de filtre compatibles
Vous pouvez filtrer les lignes en fonction des conditions suivantes:
Condition | Description |
---|---|
La valeur est vide | Conserve ou supprime les valeurs contenant des valeurs vides. |
value est | Conserve ou supprime les valeurs dont la valeur est exactement celle spécifiée. Pour les colonnes contenant le type de données "Chaîne", vous pouvez choisir d'ignorer la casse. Par défaut, la casse est incluse dans la condition. |
valeur contient | Conserve ou supprime les valeurs contenant la valeur spécifiée. |
valeur commence par | Conserve ou supprime les valeurs commençant par la valeur spécifiée. |
valeur se terminant par | Conserve ou supprime les valeurs qui se terminent par la valeur spécifiée. |
correspond à l'expression régulière | Conserve ou supprime les valeurs qui correspondent à l'expression régulière. |
condition personnalisée | Conserve ou supprime les valeurs correspondant à la condition personnalisée. |
Étape suivante
- En savoir plus sur les directives Wrangler