Enviar registros para erro

Nesta página, explicamos como remover erros comuns de um conjunto de dados ao preparar dados no espaço de trabalho do Wrangler do Cloud Data Fusion Studio.

Os seguintes tipos de erros ocorrem nos conjuntos de dados:

  • Erros sistêmicos, como falhas de serviço ou de instância
  • Erros lógicos, como falhas na execução do pipeline
  • Erros de dados, como números de cartão de crédito, formatos de data ou CEPs inválidos

O Wrangler fornece um conjunto de mais de 50 diretivas para ajudar a remover erros comuns de um conjunto de dados.

Para enviar registros para erro, siga estas etapas:

  1. Acesse o espaço de trabalho do Wrangler no Cloud Data Fusion.
  2. Na guia Dados, acesse o nome de uma coluna e clique na seta de expansão arrow_drop_down.
  3. Selecione Enviar para erro e, em seguida, selecione a condição que envia registros inválidos para erro.

O Wrangler remove os valores que correspondem à condição especificada da amostra e adiciona a diretiva send to error à receita. Quando você executa o pipeline de dados, a transformação é aplicada a todos os valores na coluna.

Adicionar um plug-in de coletor de erros a um pipeline de dados

Ao adicionar uma transformação do Wrangler com uma receita que inclui a diretiva send to error a um pipeline de dados, é possível conectá-la ao plug-in Error Collector. O plug-in do coletor de erros geralmente é conectado a um plug-in de coletor downstream, como um coletor do BigQuery.

Quando você executa o pipeline, os registros sinalizados pela diretiva send to error vão da etapa de transformação do Wrangler no pipeline para a etapa do coletor de erros e para a etapa de sink. Quando a execução terminar, será possível examinar os registros sinalizados gravados no sink.

Se a receita incluir a transformação send to error, mas o pipeline não incluir o plug-in do coletor de erros, os registros sinalizados pela diretiva send to error serão descartados durante a execução do pipeline.

A seguir