Rastrear alterações de dados

Criar backup

Depois de ter criado o fluxo e os conjuntos de dados dentro do fluxo e antes de aplicar as etapas da receita para alterar os dados, crie uma cópia do fluxo. Ela será um instantâneo do seu conjunto de dados original. Como os conjuntos de dados importados não são afetados, as despesas gerais de armazenamento para criação de backups são relativamente baixas. Consulte a página Visualização de fluxo.

Rastrear caminho e nome do arquivo de origem

Quando você carregar seu conjunto de dados na página do Transformer pela primeira vez, adicione os dados abaixo para capturar o caminho completo para o arquivo original que é a fonte dos dados:

Nome da transformação New formula
Parâmetro: tipo de fórmula Single row formula
Parâmetro: fórmula $filepath
Parâmetro: nome da nova coluna sourceRowNumber

É possível executar algumas etapas extras para extrair o nome do arquivo a partir da saída acima. Para mais informações, consulte Referências de metadados de origem.

Rastrear informações da linha de origem

Você pode marcar os números de linha originais de seus dados de origem. Na primeira etapa da sua receita após a análise inicial, adicione o seguinte comando:

Nome da transformação New formula
Parâmetro: tipo de fórmula Single row formula
Parâmetro: fórmula $sourcerownumber
Parâmetro: novo nome da coluna sourceRowNumber

Esse passo gera uma nova coluna que contém o número da linha de origem do conjunto de dados de origem.

OBSERVAÇÃO: as informações da linha de origem podem tornar-se inválidas se você executar operações de conjuntos de dados múltiplos, como pesquisas, uniões e junções. Para um rastreamento mais preciso das informações da origem, pense em criar chaves de várias colunas, incluindo as informações do número da linha de origem. Para saber mais, consulte Gerar chaves primárias.

Consulte Referências de metadados de origem.

Rastrear etapas que afetam uma coluna

Para ver todas as etapas da receita atual que fazem referência a uma coluna específica, selecione Mostrar etapas relacionadas... no menu de colunas.

Todas as etapas serão destacadas no painel "Receita".

OBSERVAÇÃO: se outra coluna for dependente da coluna selecionada, todas as etapas relativas a essa coluna também serão destacadas.

Para mais informações, consulte Menus da coluna.

Rastrear alterações de valores da coluna

O Cloud Dataprep by TRIFACTA® permite que você realize facilmente as etapas do roteiro de transformação para verificar o estado do conjunto de dados em qualquer ponto durante o processo. Em alguns casos, talvez convenha rastrear as alterações feitas em uma coluna individual lado a lado com a coluna original. Esta seção fornece uma abordagem generalizada para rastrear as alterações de colunas dessa maneira.

OBSERVAÇÃO: só use este fluxo de trabalho se for importante monitorar os valores que foram alterados em uma coluna. Para a maioria dos casos de uso, a página do Transformer fornece visibilidade suficiente sobre os dados de amostra para gerenciar os valores das colunas.

Etapas:

Na sequência a seguir, a coluna original chama-se String. Para colunas numéricas, você pode realizar uma análise mais detalhada entre os valores originais e os valores modificados das colunas.

  1. Depois de concluir as etapas gerais de configuração da transformação, crie uma cópia da coluna original:

    Nome da transformação New formula
    Parâmetro: tipo de fórmula Single row formula
    Parâmetro: fórmula String
    Parâmetro: novo nome da coluna String_orig
  2. Agora você tem uma cópia da coluna original antes da aplicação de qualquer manipulação.
  3. Adicione quaisquer transformações à receita, incluindo as que alteram os valores de String. No exemplo abaixo, a seguinte transformação foi aplicada:

    Nome da transformação Edit with formula
    Parâmetro: colunas String
    Parâmetro: fórmula TRIM(String)
  4. No ponto da receita em que você quer testar a coluna quanto a alterações, insira:

    Nome da transformação New formula
    Parâmetro: tipo de fórmula Single row formula
    Parâmetro: fórmula String <> String_orig
    Parâmetro: novo nome da coluna String_changes
  5. A coluna String_changes agora contém valores true onde os valores de String foram alterados a partir dos valores originais (String_orig).
  6. Antes de executar a receita, talvez convenha remover as colunas de rastreamento que você gerou (String_orig e String_changes no nosso exemplo).

Figura: exemplo de rastreamento de alterações de coluna

Esta página foi útil? Conte sua opinião sobre:

Enviar comentários sobre…

Documentação do Google Cloud Dataprep
Precisa de ajuda? Acesse nossa página de suporte.