Anexar conjuntos de dados

Se você está escrevendo em Wrangle conjuntos que representam dados transacionais ou serializados, pode agrupar fatias de dados para criar um conjunto maior visando uma análise mais detalhada. Por exemplo, você limpa mensagens de registro semanalmente. É possível criar conjuntos de dados separados para as mensagens de registro de cada dia e, em seguida, agrupá-los em um único conjunto para processamento por meio de uma só receita. Esse método funciona melhor para conjuntos de dados com estruturas idênticas ou muito semelhantes.

Veja a seguir dois conjuntos de dados de contato. Esses conjuntos de dados simplificados rastreiam os registros de contato do cliente.

Dataset01:

NomeE-mailÚltimo contato
Jack Jonesjack@example.com15/06/2015
Tina Tomstinat@example.com02/08/2015
Larry Lyonslarry.lyons@example.com22/03/2015


Dataset02:

NomeData do último contatoE-mail
Amy Abrams24/07/2015amy.abrams@example.com
Tina Toms12/05/2015tinat@example.com
Samantha Smith22/04/2015samantha@example.com


Observações:

  • Há um registro sobreposto para Tina Toms.
  • Há uma incompatibilidade em um nome de coluna ("Último contato" e "Data do último contato").
  • As colunas estão em uma ordem diferente.

Etapas:

  1. Carregue o primeiro conjunto de dados (Dataset01).
  2. No painel de receitas, adicione uma etapa. Na caixa de texto "Choose a transformation", digite union.
  3. Na página "Union", agrupe dois ou mais conjuntos de dados com base em um conjunto compartilhado de campos.
    1. Uma operação de união agrupa os conjuntos de dados. Para mais informações, consulte a página União.
  4. Para adicionar outro conjunto de dados, clique em Adicionar conjuntos de dados. Navegue para selecionar o arquivo e adicioná-lo à união (Dataset02).
  5. Inicialmente, os campos são mapeados com base nos nomes das colunas. Neste exemplo, porém, o campo Last_Contact_Date de Dataset02 não está incluído. Você pode:
    1. clicar no ícone + ao lado do campo Last_Contact_Date no painel esquerdo. O campo é adicionado separadamente. No entanto, ele não é compatível com o outro campo de contato do conjunto de dados original;
    2. selecionar Por posição, no menu suspenso "Corresponder colunas". Neste caso, você pode ver que há apenas três campos, mas a ordem é incompatível.

      Dica: quando possível, tente renomear ou alinhar as colunas nos conjuntos de dados antes de criar uma etapa de transformação de união. Caso contrário, talvez seja necessário editar as colunas após a conclusão da união.

      Para renomear uma coluna, clique em Rename na lista suspensa da coluna na página "Transformer". Você pode usar o mesmo menu suspenso para mover uma coluna.

  6. Neste caso, você pode cancelar a união e reposicionar a coluna Email após a coluna Last Contact no Dataset01.
  7. Em seguida, abra a página "Union" novamente e adicione Dataset02. Selecione Por posição no menu suspenso "Corresponder colunas". A correspondência das colunas é realizada.
  8. Clique em Adicionar à receita.

Agora, os registros de Dataset02 foram adicionados a Dataset01, que contém todos os registros dos dois conjuntos de dados. Observe que o registro de Tina Toms aparece duas vezes no conjunto de dados anexado.

  • Se o conjunto de dados anexado for um registro de todos os contatos, será necessário manter o registro duplicado no lugar.
  • Se o conjunto de dados anexado for um registro do contato mais recente de cada cliente, será necessário remover o registro duplicado. Para mais informações, consulte Eliminar duplicação de dados.

OBSERVAÇÃO: verifique se o tipo de dados de cada coluna é preciso.

Esta página foi útil? Conte sua opinião sobre:

Enviar comentários sobre…

Documentação do Google Cloud Dataprep
Precisa de ajuda? Acesse nossa página de suporte.