Esta página explica como remover erros comuns de um conjunto de dados quando prepara dados no espaço de trabalho do Wrangler do Cloud Data Fusion Studio.
Os seguintes tipos de erros ocorrem em conjuntos de dados:
- Erros sistémicos, como falhas de serviços ou instâncias
- Erros lógicos, como falhas de execução de pipelines
- Erros de dados, como números de cartões de crédito inválidos, formatos de data inválidos ou códigos postais inválidos
O Wrangler oferece um conjunto de mais de 50 diretivas para ajudar a remover erros comuns de um conjunto de dados.
Para enviar registos para o erro, siga estes passos:
- Aceda ao espaço de trabalho do Wrangler no Cloud Data Fusion.
- No separador Dados, aceda ao nome de uma coluna e clique na seta de expansão arrow_drop_down.
- Selecione Enviar para erro e, de seguida, selecione a condição que envia registos inválidos para erro.
O Wrangler remove os valores que correspondem à condição especificada da amostra e
adiciona a diretiva send to error
à receita. Quando executa o pipeline de dados, a transformação é aplicada a todos os valores na coluna.
Adicione um plug-in de recolha de erros a um pipeline de dados
Quando adiciona uma transformação do Wrangler com uma receita que inclui a diretiva send to
error
a um pipeline de dados, pode optar por associá-la ao plug-in Error
Collector. Normalmente, o plug-in Error Collector está ligado a um plug-in de destino a jusante, como um destino do BigQuery.
Quando executa o pipeline, os registos sinalizados pela diretiva send to error
passam do passo de transformação do Wrangler no pipeline para o passo de recolha de erros e, em seguida, para o passo de destino. Quando a execução terminar, pode examinar os registos sinalizados escritos no destino.
Se a sua receita incluir a transformação send to error
, mas o pipeline não incluir o plug-in Error Collector, os registos sinalizados pela diretiva send to
error
são ignorados durante a execução do pipeline.
O que se segue?
- Saiba mais acerca das diretivas do Wrangler.