Como enriquecer dados

O Cloud Dataprep by TRIFACTA® fornece várias ferramentas para importar dados de outras origens para o conjunto de dados.

União

Uma operação de união concatena vários conjuntos de dados. Vejamos um exemplo a seguir.

Dica: o exemplo a seguir faz a união de dois conjuntos de dados com base na posição das colunas. Uniões também podem ser realizadas com base nos nomes das colunas.

Conjunto de dados 1:

CNome1CNome2CNome3
C1.1C2.1C3.1
C1.2C2.2C3.2
C1.3C2.3C3.3

Conjunto de dados 2:

CNome1CNome2CNome4
C4.1C5.1C6.1
C4.2C5.2C6.2
C4.3C5.3C6.3

Quando uma união é realizada com base na posição das colunas em cada conjunto de dados, todas as linhas do conjunto 1 são incluídas, seguidas de todas as linhas do conjunto 2. Você pode escolher quais colunas inclui de cada um dos conjuntos de dados de origem.

Saída:

Acima, observe que o nome da terceira coluna em cada conjunto de dados é diferente (CName3 e CName4).

CNome1CNome2CNome3CNome4
C1.1C2.1C3.1
C1.2C2.2C3.2
C1.3C2.3C3.3
C4.1C5.1 C6.1
C4.2C5.2 C6.2
C4.3C5.3 C6.3

Quando usar:

Dica: execute operações de união o quanto antes nos roteiros.

  • Se os conjuntos de dados incluem informações de eventos ou registros, você pode usar a operação de união para criar uma sequência mais longa dessas transações. Por exemplo, você pode unir todos os dados de registro de uma semana a partir de arquivos de registro diários.

Para fazer a mesclagem de dois conjuntos de dados, digite Union datasets na caixa de texto "Transformation" no painel do roteiro. Consulte o Painel Roteiro.

Consulte a página "União".

Mesclagem

Uma operação de mesclagem reúne dois conjuntos de dados com base em uma coluna que aparece em ambos e contém os mesmos valores exclusivos usados para identificar registros. Com base nos valores desta coluna, chamada chave primária, os registros no segundo conjunto de dados são juntados aos registros no primeiro. Como parte da definição de mesclagem, você pode selecionar os campos de ambos os conjuntos de dados a incluir, filtrando os campos duplicados ou desnecessários no conjunto combinado.

A maneira como os dois conjuntos de dados são juntados é definida pelo tipo de mesclagem:

  • Mesclagem interna: inclua apenas os registros em que os valores de chave (chave primária) no primeiro conjunto de dados aparecem como valores de chave (chave estrangeira) no segundo conjunto de dados.
  • Mesclagem à esquerda: inclua apenas os registros que contêm um valor de chave primária que aparece no primeiro conjunto de dados (à esquerda).
    • Se um valor de chave primária do primeiro conjunto de dados não aparecer como uma chave externa no segundo conjunto, quaisquer colunas trazidas a partir do segundo conjunto de dados terão valores ausentes.
    • Os valores das chaves estrangeiras que aparecem no segundo conjunto de dados e não no primeiro não geram linhas no conjunto de saída.
  • Mesclagem à direita: inclua apenas os registros que contêm um valor de chave estrangeira que aparece no segundo conjunto de dados (à direita). As outras condições acima aplicam-se em sentido inverso.
  • Mesclagem externa: inclua todos os registros de ambos os conjuntos de dados. Se um valor de chave estiver ausente em qualquer conjunto de dados, os valores de coluna incluídos nesse conjunto estarão ausentes.

Quando usar:

Dica: execute as operações de mesclagem o mais tarde possível nas roteiros.

  • Uma mesclagem é útil para puxar os campos selecionados de um segundo conjunto de dados com base em correspondências de valores-chave. A execução dessas operações pode ser cara, mas é possível gerar um intervalo muito maior de conjuntos de dados de saída.

Para mesclar seu conjunto de dados a outro, insira join no painel de pesquisa. Consulte Painel Mesclagem.

Pesquisa

Uma operação de pesquisa é usada para extrair campos de referência de outro conjunto de dados com base nos valores contidos em uma coluna selecionada do primeiro conjunto. Esses segundos conjuntos de dados normalmente são estáticos ou mudam com pouca frequência.

OBSERVAÇÃO: uma pesquisa é semelhante a uma mesclagem à esquerda. No entanto, com uma pesquisa, todos os campos do conjunto de dados de referência são trazidos para o conjunto gerado. Além disso, todos os campos do conjunto original são incluídos automaticamente. Quando você cria uma mesclagem, é possível especificar os campos a serem incluídos no conjunto de dados de saída.

Por exemplo, você pode criar um conjunto de dados como este:

Estado-2letrasEstado-completo
ALAlabama
AKAlasca
AZArizona
WIWisconsin
WYWyoming

Se você tem um conjunto de dados contendo abreviaturas de duas letras, é possível executar uma pesquisa no conjunto de dados acima para recuperar os nomes completos correspondentes, que são inseridos como uma coluna adjacente chamada State-full no conjunto de dados original.

OBSERVAÇÃO: quando um valor na coluna do primeiro conjunto de dados não aparece no segundo, é porque não há um valor correspondente na coluna State-full gerada.

Quando usar:

  • As pesquisas são úteis para referenciar conjuntos de dados compartilhados cujo significado precisa ser consistente em vários conjuntos de dados. É possível usar pesquisas para extrair os dados mestre do cliente ou do produto (nome do cliente, endereço etc.) com base nos valores de CustomerId ou ProductId.

Para executar uma pesquisa em uma coluna no conjunto de dados, abra a lista suspensa da coluna e selecione Pesquisar.... Consulte o Assistente de pesquisa.

Agregação

A agregação é uma operação de conjunto de dados único. Ela é usada para realizar cálculos de resumo em colunas no conjunto de dados, agrupando opcionalmente os dados pelos valores em uma ou mais colunas.

Por exemplo, suponha que o conjunto de dados contenha transações de pontos de venda de todas as lojas da sua organização. Você pode usar uma agregação para resumir as vendas totais executando uma operação de soma na coluna Total_Sale. Se você agrupar esse cálculo por mês e por StoreId, poderá ver as vendas mensais por mês e por loja.

Quando usar:

  • Uma agregação é útil para realizar cálculos exploratórios em todo o conjunto de dados ou em segmentos do conjunto.

  • Você pode executar agregações e jobs para gerar os resultados. Quando tiver esses relatórios de resumo, você poderá retornar à página Transformer e remover a agregação para continuar a transformar os dados.

Para mais informações sobre agregações na coluna, consulte Criar agregações.

Para mais informações sobre como criar tabelas dinâmicas agregadas, consulte Dados dinâmicos.

Esta página foi útil? Conte sua opinião sobre:

Enviar comentários sobre…

Documentação do Google Cloud Dataprep
Precisa de ajuda? Acesse nossa página de suporte.