Inserir metadados

Metadados são dados sobre os dados. Por exemplo, talvez você decida que um ou mais dos seguintes tipos de informações sobre o conjunto de dados precisam ser rastreados:

  • sistema(s) de origem
  • nome e caminho do arquivo

  • data de criação da origem
  • data de importação
  • data de uso do Wrangle
  • nome da pessoa que realizou a operação no Wrangle

Nesta seção, apresentamos alguns métodos para inserir metadados no conjunto de dados.

Inserir caminho do arquivo

Para fontes de dados baseadas em arquivos, use a referência $filepath para inserir o caminho do arquivo de origem no conjunto de dados.

Dica: as informações do caminho do arquivo podem ser perdidas durante a execução de operações em vários conjuntos de dados, como uniões e junções. Essas etapas precisam ser adicionadas bem cedo no roteiro.

No roteiro, insira a seguinte transformação:

Nome da transformação New formula
Parâmetro: tipo de fórmula Single row formula
Parâmetro: fórmula $filepath
Parâmetro: nome da nova coluna sourceDatasetPath

Para mais informações, consulte Referências de metadados de origem.

Inserir o número da linha de origem

Use a referência $sourcerownumber para inserir o número da linha do arquivo de origem de onde as linhas do seu conjunto de dados são retiradas.

Dica: as informações do número da linha do arquivo de origem podem ser perdidas durante a execução de operações em vários conjuntos de dados, como uniões e junções. Essas etapas precisam ser adicionadas bem cedo no roteiro.

No roteiro, insira a seguinte transformação:

Nome da transformação New formula
Parâmetro: tipo de fórmula Single row formula
Parâmetro: fórmula $sourcerownumber
Parâmetro: nome da nova coluna sourceRowNumber

Para mais informações, consulte Referências de metadados de origem.

Dica: é possível derivar o número da linha atual no seu conjunto de dados. Para mais informações, consulte Função ROWNUMBER.

Inserir uma única coluna de metadados

O exemplo a seguir descreve como inserir uma única coluna de metadados. Nesse caso, o caminho completo para a origem é inserido como uma nova coluna no conjunto de dados.

Etapas:

  1. Na página "Conjunto de dados", localize o conjunto de dados importado que é a fonte da sua receita. Clique no filtro "Importado" para mostrar apenas os conjuntos de dados importados.
  2. Para o conjunto de dados importado, clique em Details.
  3. Na página "Detalhes do conjunto de dados", selecione o valor inteiro para o local, que é onde a origem está armazenada.

    Dica: se o caminho completo do conjunto de dados for muito longo para a exibição na tela, inclua as reticências (...) ao final do valor de local.

  4. Copie o valor. Cole-o em um editor de texto. Você verá o caminho completo, como este:

    <root_dir>/uploads/1/2580298d-3477-4907-bfa7-f71978eace04/SF Restaurants - businesses.csv
  5. Carregue o conjunto de dados na página "Transformer".
  6. Especifique a seguinte transformação:

    Nome da transformação New formula
    Parâmetro: tipo de fórmula Single row formula
    Parâmetro: fórmula '\/uploads\/1\/2580298d-3477-4907-bfa7-f71978eace04\/SF Restaurants - businesses.csv'
    Parâmetro: novo nome da coluna datasetPath

Inserir várias colunas de metadados

Talvez seja necessário rastrear mais campos de informações do conjunto de dados. Ainda que você possa realizar esses tipos de inserções individuais, pode ser mais fácil criar essa informação com base em um arquivo separado.

OBSERVAÇÃO: neste método, usamos a função FILL. Ela precisa ser limitada a conjuntos de dados menores quando aplicada com apenas uma chave. Do contrário, pode haver um impacto sobre o desempenho durante a execução do job no conjunto de dados completo.

Dica: realize uma mesclagem semelhante de conjuntos de dados usando a ferramenta "Join". Consulte o painel "Mesclagem".

Por exemplo, convém rastrear os seguintes campos como metadados:

  • source_system
  • source_author
  • source_date_create

Crie um arquivo CSV semelhante ao seguinte:

source_system,source_author,source_date_create
Excel,Joe Guy,12/9/15

Neste caso, os cabeçalhos de coluna estão na primeira linha e os valores de cada coluna estão na segunda linha.

Etapas:

  1. Use o arquivo CSV como origem de um novo conjunto de dados dentro do fluxo que contém o conjunto associado.
  2. Na grade de dados, verifique se a primeira linha é tratada como cabeçalho. Caso contrário, adicione uma transformação header à receita.
  3. Abra o outro conjunto de dados (origem) na página "Transformer".
  4. No painel de receitas da página, adicione uma nova etapa. Na caixa de texto "Transformação", digite union.

  5. Crie uma união:
    1. Inclua todas as colunas dos dois conjuntos de dados.
    2. Configure a etapa para realizar a união por nome, e não por posição.
    3. Consulte Página "Union".
  6. Adicione esta etapa à receita.
  7. Você precisa ver uma linha na receita da união que contém os novos dados.
  8. Determine um parâmetro de agrupamento apropriado. Esta etapa é necessária para simplificar o processo de preenchimento quando o job é executado em escala. O ideal é que você escolha uma coluna de agrupamento que contenha um número relativamente pequeno de valores (por exemplo, region).

  9. Preencha os valores nas linhas de dados com valores de coluna de metadados. Para cada coluna de metadados, adicione a transformação a seguir, feita aqui para a coluna source_system de metadados.

    Nome da transformação Window
    Parâmetro: fórmula FILL(source_system)
    Parâmetro: agrupar por region
    Parâmetro: organizar por business_id
  10. Repita a etapa acima para cada coluna de metadados que você quer inserir.

  11. Exclua as colunas de metadados de origem.
  12. Renomeie as colunas window para usar um nome mais apropriado.
  13. Exclua a linha que tenha os valores de metadados originais.
Esta página foi útil? Conte sua opinião sobre:

Enviar comentários sobre…

Documentação do Google Cloud Dataprep
Precisa de ajuda? Acesse nossa página de suporte.