Cette page explique comment supprimer les erreurs courantes d'un ensemble de données lorsque vous préparez des données dans l'espace de travail Wrangler de Cloud Data Fusion Studio.
Les types d'erreurs suivants se produisent dans les ensembles de données:
- Erreurs systémiques, telles que des défaillances de service ou d'instance
- Erreurs logiques, telles que les échecs d'exécution de pipeline
- Erreurs de données, telles que des numéros de carte de crédit non valides, des formats de date non valides ou des codes postaux non valides
Wrangler fournit un ensemble de plus de 50 directives pour vous aider à supprimer les erreurs courantes d'un ensemble de données.
Pour envoyer des enregistrements dans une erreur, procédez comme suit:
- Accéder à l'espace de travail Wrangler dans Cloud Data Fusion
- Dans l'onglet Données, accédez à un nom de colonne, puis cliquez sur la flèche d'expansion arrow_drop_down.
- Sélectionnez Envoyer à une erreur, puis sélectionnez la condition qui envoie les enregistrements incorrects à une erreur.
Wrangler supprime de l'échantillon les valeurs correspondant à la condition spécifiée et ajoute la directive send to error
à la recette. Lorsque vous exécutez le pipeline de données, la transformation est appliquée à toutes les valeurs de la colonne.
Ajouter un plug-in de collecteur d'erreurs à un pipeline de données
Lorsque vous ajoutez une transformation Wrangler avec une recette qui inclut la directive send to
error
à un pipeline de données, vous pouvez choisir de la connecter au plug-in Error Collector. Le plug-in Error Collector est généralement connecté
Plug-in de récepteur en aval, tel qu'un récepteur BigQuery.
Lorsque vous exécutez le pipeline, les enregistrements signalés par la directive send to error
passent de l'étape de transformation Wrangler de votre pipeline à l'étape du collecteur d'erreurs, puis à l'étape du sink. Une fois l'exécution terminée, vous pouvez examiner les problèmes signalés
qui sont écrits dans le récepteur.
Si votre recette inclut la transformation send to error
, mais que le pipeline n'inclut pas le plug-in Error Collector, les enregistrements signalés par la directive send to
error
sont supprimés lors de l'exécution du pipeline.
Étape suivante
- En savoir plus sur les directives Wrangler