Se você está escrevendo em Wrangle conjuntos que representam dados transacionais ou serializados, pode agrupar fatias de dados para criar um conjunto maior visando uma análise mais detalhada. Por exemplo, você limpa mensagens de registro semanalmente. É possível criar conjuntos de dados separados para as mensagens de registro de cada dia e, em seguida, agrupá-los em um único conjunto para processamento por meio de uma só receita. Esse método funciona melhor para conjuntos de dados com estruturas idênticas ou muito semelhantes.
Veja a seguir dois conjuntos de dados de contato. Esses conjuntos de dados simplificados rastreiam os registros de contato do cliente.
Dataset01:
Nome | Último contato | |
---|---|---|
Jack Jones | jack@example.com | 15/06/2015 |
Tina Toms | tinat@example.com | 02/08/2015 |
Larry Lyons | larry.lyons@example.com | 22/03/2015 |
Dataset02:
Nome | Data do último contato | |
---|---|---|
Amy Abrams | 24/07/2015 | amy.abrams@example.com |
Tina Toms | 12/05/2015 | tinat@example.com |
Samantha Smith | 22/04/2015 | samantha@example.com |
Observações:
- Há um registro sobreposto para Tina Toms.
- Há uma incompatibilidade em um nome de coluna ("Último contato" e "Data do último contato").
- As colunas estão em uma ordem diferente.
Etapas:
- Carregue o primeiro conjunto de dados (
Dataset01
). - No painel de receitas, adicione uma etapa. Na caixa de texto "Choose a transformation", digite
union
. - Na página "Union", agrupe dois ou mais conjuntos de dados com base em um conjunto compartilhado de campos.
- Uma operação de união agrupa os conjuntos de dados. Para mais informações, consulte a página União.
- Para adicionar outro conjunto de dados, clique em Adicionar conjuntos de dados. Navegue para selecionar o arquivo e adicioná-lo à união (
Dataset02
). - Inicialmente, os campos são mapeados com base nos nomes das colunas. Neste exemplo, porém, o campo
Last_Contact_Date
deDataset02
não está incluído. Você pode:- clicar no ícone + ao lado do campo
Last_Contact_Date
no painel esquerdo. O campo é adicionado separadamente. No entanto, ele não é compatível com o outro campo de contato do conjunto de dados original; selecionar Por posição, no menu suspenso "Corresponder colunas". Neste caso, você pode ver que há apenas três campos, mas a ordem é incompatível.
Dica: quando possível, tente renomear ou alinhar as colunas nos conjuntos de dados antes de criar uma etapa de transformação de união. Caso contrário, talvez seja necessário editar as colunas após a conclusão da união.
Para renomear uma coluna, clique em Rename na lista suspensa da coluna na página "Transformer". Você pode usar o mesmo menu suspenso para mover uma coluna.
- clicar no ícone + ao lado do campo
- Neste caso, você pode cancelar a união e reposicionar a coluna
Email
após a colunaLast Contact
noDataset01
. - Em seguida, abra a página "Union" novamente e adicione
Dataset02
. Selecione Por posição no menu suspenso "Corresponder colunas". A correspondência das colunas é realizada. - Clique em Adicionar à receita.
Agora, os registros de Dataset02
foram adicionados a Dataset01
, que contém todos os registros dos dois conjuntos de dados. Observe que o registro de Tina Toms aparece duas vezes no conjunto de dados anexado.
- Se o conjunto de dados anexado for um registro de todos os contatos, será necessário manter o registro duplicado no lugar.
- Se o conjunto de dados anexado for um registro do contato mais recente de cada cliente, será necessário remover o registro duplicado. Para mais informações, consulte Eliminar duplicação de dados.
OBSERVAÇÃO: verifique se o tipo de dados de cada coluna é preciso.