Invia record in caso di errore

Questa pagina spiega come rimuovere gli errori comuni da un set di dati durante la preparazione nell'area di lavoro Wrangler di Cloud Data Fusion Studio.

Nei set di dati si verificano i seguenti tipi di errori:

  • Errori sistemici, ad esempio errori del servizio o delle istanze
  • Errori logici, ad esempio errori di esecuzione della pipeline
  • Errori nei dati, come numeri di carte di credito non validi, formati di data non validi o codici postali non validi

Wrangler fornisce un insieme di oltre 50 direttive per aiutarti a rimuovere gli errori comuni da un set di dati.

Per inviare i record in stato di errore:

  1. Vai allo spazio di lavoro Wrangler in Cloud Data Fusion.
  2. Nella scheda Dati, vai al nome di una colonna e fai clic sull'icona arrow_drop_down freccia di espansione.
  3. Seleziona Invia a errore, quindi la condizione che invia errori all'errore.

Wrangler rimuove dal campione i valori che corrispondono alla condizione specificata aggiunge l'istruzione send to error alla formula. Quando esegui la pipeline di dati, la trasformazione viene applicata a tutti i valori della colonna.

Aggiungere un plug-in per la raccolta degli errori a una pipeline di dati

Quando aggiungi una trasformazione di Wrangler con una ricetta che include l'istruzione send to error a una pipeline di dati, puoi scegliere di collegarla al plug-in ErrorCollector. Il plug-in Error Collector è solitamente collegato a un plug-in di destinazione a valle, ad esempio un'area di destinazione BigQuery.

Quando esegui la pipeline, i record segnalati dall'istruzione send to error vai dal passaggio di trasformazione Wrangler nella pipeline al raccoglitore degli errori al passaggio del sink. Al termine dell'esecuzione, puoi esaminare le segnalazioni record scritti nel sink.

Se la formula include la trasformazione send to error, ma la pipeline non include il plug-in Error Collector, i record segnalati dall'istruzione send to error vengono eliminati durante l'esecuzione della pipeline.

Passaggi successivi