Página "União"

Na página "Union", você pode anexar dados de um ou mais conjuntos de dados a um conjunto de dados existente. Por exemplo, se você tem vários conjuntos de dados que contenham dados transacionais, como arquivos de registros, use a operação de união para juntar pedaços diários ou semanais desses dados em um único conjunto de dados.

Em uma operação de união, o aplicativo Cloud Dataprep tenta corresponder colunas entre vários conjuntos de dados. Conforme necessário, é possível ajustar manualmente a correspondência e decidir quais colunas serão incluídas ou excluídas no conjunto de dados resultante.

  • Uma operação union é diferente de uma operação join. Em uma operação join, os dados de dois conjuntos de dados são reunidos com base em uma chave primária definida. O tipo de junção determina as colunas incluídas na saída. Para mais informações, consulte o Painel de mesclagem.

No painel Pesquisar, insira union na caixa de texto.

Figura: página Union

Ações do conjunto de dados:

  • Para adicionar dados de um conjunto de dados, receita ou referência à união, clique em Adicionar dados.
  • Selecione um ou mais objetos para adicionar à união e escolha um dos métodos a seguir para corresponder as colunas:
    • Alinhamento automático. Quando essa opção é selecionada, o Cloud Dataprep by TRIFACTA INC. executa o mapeamento inteligente das colunas do novo conjunto de dados para o conjunto de dados já carregado na página do Transformer. O alinhamento automático usa estes elementos para mapear:
      • Editar distância entre os nomes das colunas
      • Tipos de dados de coluna
      • Similaridade entre dados amostrados nos conjuntos de dados

        OBSERVAÇÃO: o alinhamento automático não está disponível após você ter selecionado o conjunto de dados para união. O alinhamento automático pode adicionar alguns segundos à operação de união.

      Adicionar conjuntos de dados e alinhar por nome. As correspondências são feitas com base no nome de cada coluna. Combinações parciais também podem ser identificadas como correspondências.
    • Adicionar conjuntos de dados e alinhar por posição. As correspondências são feitas com base na posição horizontal de cada coluna em cada conjunto de dados. Colunas extras serão descartadas. Esse método será útil se os nomes das colunas forem alterados entre os conjuntos de dados.
  • Para remover dados da união, clique no X ao lado do nome no painel direito.
    • Não é possível remover o conjunto de dados original a partir do qual a página "Union" foi aberta.

Esquema de mapeamento

O esquema da saída que será gerado pela operação "union" é exibido no painel esquerdo.

  • Os nomes das colunas do conjunto de dados original são usados para preencher os das colunas do conjunto de dados gerado, quando aplicável.
  • Cada objeto adicionado à união é exibido no painel direito.
PainelLado esquerdoLado direito 1Lado direito 2
SuperiorConjunto de dados de saída - colunas incluídasConjunto de dados 1 - colunas incluídasConjunto de dados 2 - colunas incluídas
InferiorConjunto de dados de saída - colunas excluídasConjunto de dados 1 - colunas excluídasConjunto de dados 2 - colunas excluídas

Mapeamentos de colunas personalizadas

Se necessário, você pode modificar os mapeamentos de coluna padrão no conjunto de dados. Para remapear uma coluna, passe o cursor sobre a entrada da coluna no painel direito e clique no ícone "Mais":

Figura: mapeamento de colunas personalizadas

Na janela, selecione a coluna do conjunto de dados atual para aparecer nesse local. Use essa caixa de diálogo para remapear a ordem das colunas em cada conjunto de dados.

  • Clique no campo "Pesquisar colunas" e comece a digitar para localizar outras colunas.
  • Você também pode especificar que nenhuma correspondência será realizada. Nesse caso, nenhum dado será importado dessa coluna para o conjunto de dados unificado.

    Dica: para mapear uma das colunas descartadas nos dados adicionais para uma das colunas de origem, passe o mouse sobre a área vazia "Nenhuma correspondência" ao lado da entrada da coluna de origem. Clique no ícone de adição para abrir o mapeamento acima. Em seguida, selecione a coluna dos dados adicionais para encaixá-la no local.

Painel de saída

No painel esquerdo, você pode revisar e modificar as colunas a serem incluídas e excluídas da saída. Por padrão, todas as colunas correspondentes estão incluídas na saída. Se não houver colunas de correspondência iniciais, todas as colunas do conjunto de dados original serão incluídas na saída por padrão. Você pode ver as colunas de origem para a coluna de saída da união na mesma linha no painel direito.

  • Cada entrada de coluna contém um identificador de tipo de dados para a coluna de origem. Os tipos de dados podem ser inferidos novamente como parte da união. Você pode alterar o tipo de dados após a conclusão da operação "union".
  • À direita do nome da coluna, você pode ver o número de conjuntos de dados no union em que a coluna ocorre.

Ações da coluna:

  • Para revisar os cinco melhores valores para qualquer coluna, clique no ícone de expansão. Você pode ver a contagem de cada valor em todos os dados incluídos.
  • Para remover uma coluna da saída de "union", clique no ícone "X" à esquerda da entrada da coluna no painel superior.
  • Para adicionar uma coluna à saída do union, clique no ícone "+" à esquerda da entrada da coluna no painel inferior.
  • Para incluir todas as colunas disponíveis na saída, clique em include all.
  • Para adicionar a união conforme especificado, clique em Add to Recipe.

    OBSERVAÇÃO: transformações de desaninhamento (unnest), união (union) ou junção (join) podem aumentar de maneira significativa o número de linhas ou colunas no conjunto de dados. Para evitar sobrecarregar a memória do navegador, o aplicativo pode aplicar uma função limite aos resultados para restringir artificialmente o número de linhas exibidas na amostra. Se quiser, você poderá gerar uma nova amostra. Essa limitação não é aplicada durante a execução do job.


Atualizações

Para modificar uma união depois da criação dela, clique no ícone de edição para a entrada no painel "Receita". Consulte o painel Receita.

Depois de adicionar "union" à receita, as mudanças nos dados subjacentes serão propagadas automaticamente ao conjunto de dados em que eles foram unidos. Não é necessário atualizar os dados.

No entanto, é possível que alterações subsequentes às origens possam causar problemas nas referências de saída e downstream. Você pode corrigir esses problemas de dependência.

Dica: se for necessário congelar os dados que você está adicionando, crie uma cópia deles como um instantâneo e execute "union" na cópia. Consulte a página "Detalhes do conjunto de dados".

Para usar a cópia, edite a transformação union nela e altere os dados que estão em uso. Consulte Corrigir problemas de dependência.

Esta página foi útil? Conte sua opinião sobre:

Enviar comentários sobre…

Documentação do Google Cloud Dataprep
Precisa de ajuda? Acesse nossa página de suporte.