Questa pagina spiega come rimuovere gli errori comuni da un set di dati durante la preparazione nell'area di lavoro Wrangler di Cloud Data Fusion Studio.
Nei set di dati si verificano i seguenti tipi di errori:
- Errori sistemici, ad esempio errori del servizio o delle istanze
- Errori logici, ad esempio errori di esecuzione della pipeline
- Errori nei dati, come numeri di carte di credito non validi, formati di data non validi o codici postali non validi
Wrangler fornisce un insieme di oltre 50 direttive per aiutarti a rimuovere gli errori comuni da un set di dati.
Per inviare i record in stato di errore:
- Vai allo spazio di lavoro Wrangler in Cloud Data Fusion.
- Nella scheda Dati, vai al nome di una colonna e fai clic sull'icona arrow_drop_down freccia di espansione.
- Seleziona Invia a errore, quindi la condizione che invia errori all'errore.
Wrangler rimuove dal campione i valori che corrispondono alla condizione specificata
aggiunge l'istruzione send to error
alla formula. Quando esegui la pipeline
di dati, la trasformazione viene applicata a tutti i valori della colonna.
Aggiungere un plug-in per la raccolta degli errori a una pipeline di dati
Quando aggiungi una trasformazione di Wrangler con una ricetta che include l'istruzione send to
error
a una pipeline di dati, puoi scegliere di collegarla al plug-in ErrorCollector. Il plug-in Error Collector è solitamente collegato a un plug-in di destinazione a valle, ad esempio un'area di destinazione BigQuery.
Quando esegui la pipeline, i record segnalati dall'istruzione send to error
vai dal passaggio di trasformazione Wrangler nella pipeline al raccoglitore degli errori
al passaggio del sink. Al termine dell'esecuzione, puoi esaminare le segnalazioni
record scritti nel sink.
Se la formula include la trasformazione send to error
, ma la pipeline
non include il plug-in Error Collector, i record segnalati dall'istruzione send to
error
vengono eliminati durante l'esecuzione della pipeline.
Passaggi successivi
- Scopri di più sulle istruzioni Wrangler.