Cette page explique comment filtrer lorsque vous préparez des données dans Wrangler de Cloud Data Fusion Studio. Dans Wrangler, vous pouvez filtrer les lignes de données dans les colonnes de n'importe quel type de données, à l'exception du type booléen. Vous conservez ou supprimez en fonction d'une condition que vous configurez.
Pour conserver ou supprimer des lignes en fonction d'une condition, procédez comme suit :
- Accéder à l'espace de travail Wrangler dans Cloud Data Fusion
- Dans l'onglet Données, accédez à un nom de colonne, puis cliquez sur la flèche d'expansion arrow_drop_down.
- Sélectionnez Filtrer, puis une option (par exemple, Conserver les lignes et Si la valeur contient).
- Spécifiez la condition.
- Cliquez sur Appliquer.
Les valeurs changent en fonction du filtre. Wrangler ajoute le filter-rows-on
à la recette. Lorsque vous exécutez le pipeline de données, la transformation est appliquée aux valeurs de la colonne.
Conserver les lignes
Si vous choisissez de conserver des lignes en fonction d'une condition, celles qui ne répondent pas à la condition sont supprimées. Seules les lignes qui remplissent la condition restent dans l'ensemble de données. Par exemple, si vous sélectionnez la valeur est et que vous saisissez la condition
Customer
, Wrangler conserve les lignes contenant la chaîne Customer
et supprime
avec d'autres valeurs.
Supprimer des lignes
Si vous choisissez de supprimer des lignes en fonction d'une condition, celles qui remplissent la condition sont supprimées de l'ensemble de données. Par exemple, si vous supprimez des lignes et sélectionnez valeur est vide, Wrangler supprime de la colonne les lignes vides ou nulles valeurs.
Conditions de filtre compatibles
Vous pouvez filtrer les lignes en fonction des conditions suivantes:
Condition | Description |
---|---|
La valeur est vide | Conserve ou supprime les valeurs vides. |
value est | Conserve ou supprime les valeurs qui correspondent exactement à la valeur spécifiée. Pour les colonnes contenant le type de données "string", vous pouvez choisir d'ignorer la casse. La par défaut est d'inclure la casse dans la condition. |
la valeur contient | Conserve ou supprime les valeurs contenant la valeur spécifiée. |
valeur commence par | Conserve ou supprime les valeurs commençant par la valeur spécifiée. |
valeur se terminant par | Conserve ou supprime les valeurs qui se terminent par la valeur spécifiée. |
correspond à l'expression régulière | Conserve ou supprime les valeurs correspondant à l'expression régulière. |
condition personnalisée | Conserve ou supprime les valeurs correspondant à la condition personnalisée. |
Étape suivante
- En savoir plus sur les directives Wrangler