Esta página explica como remover erros comuns de um conjunto de dados ao preparar dados no espaço de trabalho do Wrangler do Cloud Data Fusion Studio.
Os seguintes tipos de erros ocorrem em conjuntos de dados:
- Erros sistêmicos, como falhas de serviço ou de instância
- Erros lógicos, como falhas na execução de pipelines
- Erros de dados, como números de cartão de crédito, formatos de data inválidos ou CEPs inválidos
O Wrangler fornece um conjunto de mais de 50 diretivas para ajudar você a remover erros comuns de um conjunto de dados.
Para enviar registros para erro, siga estas etapas:
- Acesse o espaço de trabalho do Wrangler no Cloud Data Fusion.
- Na guia Dados, acesse o nome de uma coluna e clique na seta de expansão arrow_drop_down.
- Selecione Enviar para erro e, em seguida, selecione a condição que envia registros inválidos para erro.
O Wrangler remove os valores que correspondem à condição especificada da amostra e
adiciona a diretiva send to error
à receita. Quando você executa o pipeline de dados, a transformação é aplicada a todos os valores na coluna.
Adicionar um plug-in de coletor de erros a um pipeline de dados
Quando você adiciona uma transformação do Wrangler com um roteiro que inclui a diretiva send to
error
em um pipeline de dados, é possível conectá-lo ao erro
plug-in do coletor. O plug-in do coletor de erros geralmente é conectado a um
plug-in de coletor downstream, como um coletor do BigQuery.
Quando você executa o pipeline, os registros sinalizados pela diretiva send to error
vão da etapa de transformação do Wrangler no pipeline para a etapa do coletor de erros
e para a etapa de sink. Quando a execução terminar, você poderá examinar os registros sinalizados
gravados no sink.
Se o roteiro incluir a transformação send to error
, mas o pipeline
não incluir o plug-in do coletor de erros, os registros sinalizados pela diretiva send to
error
serão descartados durante a execução do pipeline.
A seguir
- Saiba mais sobre as diretivas do Wrangler.