Invia record a error

Questa pagina spiega come rimuovere gli errori comuni da un set di dati quando prepari i dati nello spazio di lavoro Wrangler di Cloud Data Fusion Studio.

Nei set di dati si verificano i seguenti tipi di errori:

  • Errori sistemici, ad esempio errori di servizio o di istanza
  • Errori logici, ad esempio errori di esecuzione della pipeline
  • Errori nei dati, ad esempio numeri di carte di credito non validi, formati di date non validi o codici postali non validi

Wrangler fornisce un insieme di oltre 50 direttive per aiutarti a rimuovere gli errori comuni da un set di dati.

Per inviare i record in stato di errore:

  1. Vai allo spazio di lavoro Wrangler in Cloud Data Fusion.
  2. Nella scheda Dati, vai a un nome di colonna e fai clic sulla freccia di espansione arrow_drop_down.
  3. Seleziona Invia a errore, quindi seleziona la condizione che invia i record errati a errore.

Wrangler rimuove dal campione i valori corrispondenti alla condizione specificata e aggiunge la direttiva send to error alla ricetta. Quando esegui la pipeline di dati, la trasformazione viene applicata a tutti i valori della colonna.

Aggiungere un plug-in di raccolta degli errori a una pipeline di dati

Quando aggiungi una trasformazione di Wrangler con una ricetta che include la direttiva send to error a una pipeline di dati, puoi scegliere di collegarla al plug-in ErrorCollector. Il plug-in Error Collector è solitamente collegato a un plug-in di destinazione a valle, ad esempio un'area di destinazione BigQuery.

Quando esegui la pipeline, i record segnalati dalla direttiva send to error passano dal passaggio di trasformazione di Wrangler nella pipeline al passaggio del Raccogli errori e al passaggio del sink. Al termine dell'esecuzione, puoi esaminare i record contrassegnati come problematici scritti nello sink.

Se la ricetta include la trasformazione send to error, ma la pipeline non include il plug-in Error Collector, i record segnalati dalla direttiva send to error vengono eliminati durante l'esecuzione della pipeline.send to error

Passaggi successivi