Painel de mesclagem

No painel "Mesclagem" do aplicativo Cloud Dataprep, mescle o conjunto de dados atual com outro conjunto ou roteiro com base em informações comuns a ambos. Por exemplo, mescle dois conjuntos de dados de vendas regionais com base nos identificadores de produto que ambos usam para rastrear vendas. No painel "Pesquisar", digite join datasets ou selecione na barra de ferramentas.

  • A operação join é padrão para mesclar os dados de dois conjuntos de dados diferentes. Algumas informações sobre essa operação são fornecidas abaixo.
  • Não é possível executar junções em colunas de tipo de dados Object ou Array.
  • Uma operação "join" é diferente de uma operação "union". Em uma operação union, os dados de um ou mais conjuntos de dados são anexados ao conjunto de dados atual, supondo que as colunas sejam idênticas ou muito semelhantes. Para ver mais informações, consulte a página União.

Dica: dependendo dos tipos de operações que você precisa executar, talvez seja necessário executar junções mais cedo ou mais tarde na sua receita. Para ver mais informações, consulte Otimizar o processamento de jobs.

OBSERVAÇÃO: as transformações desaninhar (unnest), união (union) ou junção (join) podem aumentar significativamente o número de linhas ou colunas no conjunto de dados. Para evitar sobrecarregar a memória do navegador, o aplicativo pode aplicar uma função limite aos resultados para restringir artificialmente o número de linhas exibidas na amostra. Se quiser, você poderá gerar uma nova amostra. Essa limitação não é aplicada durante a execução do job.

Antes de começar

  • Revise as contagens de registros. Antes de especificar a junção, revise as contagens de registros e a singularidade das chaves para ter uma ideia do número de registros que poderão ser exibidos na saída. Observe que o número de registros de saída depende do tipo de junção e das correspondências entre as chaves de junção.
  • Revise os valores de chaves de junção. Se houver variações nos valores das chaves de junção, você poderá ficar com registros duplicados no conjunto de dados mesclado. Procure valores incompatíveis ou ausentes nas chaves de junção e corrija-os, se possível.
  • Revise a granularidade dos dados. Se reunir dados com menor fidelidade do que a origem, você poderá ficar com correspondências de registros que não estão realmente combinando dados. Por exemplo, se os carimbos de data/hora forem amostrados de milissegundos a segundos como parte da junção, você poderá ter carimbos "correspondentes" em segundos que não correspondem no nível de milissegundos nos dados de origem.

Etapa 1: selecionar conjuntos de dados ou roteiro

No painel "Pesquisar", digite join.

Na caixa de diálogo "Escolher conjuntos de dados a serem mesclados", selecione o conjunto de dados que você quer mesclar ao conjunto de dados atual.

Figura: selecione o conjunto de dados a ser mesclado

Use a guia "Dados" para visualizar os dados no objeto selecionado.

OBSERVAÇÃO: você precisa ter acesso de leitura ao objeto para mesclá-lo ao conjunto de dados.

  • Use a barra de pesquisa para localizar conjuntos de dados específicos.
  • Clique em Aceitar.

Passo 2 - Selecionar condições de mesclagem

Na próxima etapa, especifique o tipo de mesclagem e uma ou mais chaves de mesclagem.

Figura: especifique o tipo e as chaves de mesclagem.

Tipo de mesclagem:

Na lista suspensa, selecione o tipo de mesclagem a ser aplicada. Para saber mais informações, consulte "Tipos de mesclagem" abaixo.

Chaves de mesclagem:

Na imagem acima, a plataforma determinou que o campo do número de item (Item_Nbr) dos dados da Região 1 e o campo do número de item (ITEM_NBR) de REF_PROD precisam ser usados como as chaves para realizar a mesclagem.

  • Para fazer alterações nas duas chaves de mesclagem, passe o mouse sobre as chaves especificadas.
    • Para remover as duas colunas como chaves de mesclagem, clique no ícone "X".
    • Para editar as chaves a serem usadas e outras opções de chave, clique no ícone de lápis. Consulte abaixo.
    • Para adicionar mais chaves de mesclagem, clique em Adicionar.

      OBSERVAÇÃO: tenha cuidado ao aplicar várias chaves de junção. Dependendo do tipo de mesclagem, esse tipo de operação pode expandir o tamanho dos dados gerados.

Editar chaves:

Por padrão, as correspondências entre as chaves de mesclagem são realizadas de maneira rigorosa entre os valores das chaves nas colunas selecionadas, com diferenciação entre maiúsculas e minúsculas. Em alguns casos, pode ser útil atenuar as condições em que as correspondências são encontradas.As seguintes opções se aplicam às colunas de chave de mesclagem em ambas as origens para tentar encontrar correspondências. Após a execução da mesclagem, os dados em qualquer coluna não serão alterados com base nessas seleções.

OpçãoDescrição
correspondência difusa

Use um algoritmo de correspondência difusa para uma correspondência do valor de chave.

Dica: use esta opção para realizar a correspondência de mesclagem difusa de chaves primárias entre conjuntos de dados.

A correspondência difusa usa o algoritmo doublemetaphone para correspondência de strings (chaves). Ambas as codificações principais de cada valor de chave precisam ser correspondentes. Consulte a função DOUBLEMETAPHONEEQUALS.

Ignorar diferença entre maiúsculas e minúsculasIgnore as diferenças de maiúsculas/minúsculas entre os valores das chaves de mesclagem para fins de correspondência.
Ignorar caracteres especiaisIgnore todos os caracteres que não sejam alfanuméricos, caracteres latinos acentuados ou espaços em branco antes de testar uma correspondência.
Ignorar espaço em brancoIgnore todos os caracteres de espaço em branco, inclusive espaços, guias, retornos de carro e novas linhas.

Resumo:

Use essas métricas para identificar a probabilidade de correspondência precisa entre as chaves de mesclagem e a contagem de linhas gerada na saída.

Clique em Avançar.

Passo 3 - Selecionar colunas de saída

Nos conjuntos de dados selecionados, especifique as colunas a serem incluídas na saída.

Figura: selecionar colunas de saída

Selecionar colunas

Verifique a lista de colunas disponíveis, exibidas para ambas as origens.

  • Use o painel de pesquisa para procurar colunas específicas.
  • Para incluir todas as colunas:
    • Clique nas guias "Tudo", "Atual" ou "Mesclagem".
    • Clique na caixa de seleção na parte superior da lista.

Opções avançadas

Prefixos de nome

Aplique prefixos a nomes de coluna no conjunto de dados mesclado, o que pode ser útil para rastrear a origem de uma coluna em conjuntos de dados complexos. Por exemplo, convém preceder cada coluna de um conjunto de dados chamado salesRegion01 com o prefixo: sR01.

  • Prefixo de nome para colunas em dados atuais: insira um prefixo a ser aplicado aos nomes de colunas vindos do conjunto de dados atual exibido na saída mesclada.
  • Prefixo de nome para colunas em dados mesclados: insira um prefixo a ser aplicado aos nomes de colunas vindos do conjunto de dados mesclado exibido na saída mesclada.

Atualização dinâmica de mesclagens

Depois que tiver mesclado outro conjunto de dados, as alterações subsequentes feitas nesses dados poderão se refletir automaticamente na saída da mesclagem.

  • Incluir todas as colunas dos dados atuais: as atualizações dinâmicas sempre incluem os dados mais recentes do conjunto de dados atual.
  • Incluir todas as colunas dos dados mesclados: as atualizações dinâmicas sempre incluem os dados mais recentes do conjunto de dados de mesclagem.

OBSERVAÇÃO: depois que você tiver adicionado a mesclagem à receita, se a grade de dados estiver vazia, as chaves especificadas na mesclagem poderão não ter uma correspondência na amostra selecionada no momento. Revise as chaves usadas na mesclagem. Se a mesclagem continuar gerando uma grade vazia na nova amostra, colete uma nova amostra. Consulte o painel "Amostras".

Dica: se for necessário congelar os dados no conjunto de dados que você está mesclando, crie uma cópia do conjunto de dados como um instantâneo e mescle a cópia. Veja a página "Dataset Details".

Para realizar a junção da cópia, edite a junção e altere a origem dessa operação. Consulte Corrigir problemas de dependência.

Clique em Salvar e continuar.

Depois que tiver selecionado as colunas e todas as configurações avançadas, clique em Revisar.

Passo 4 - Revisar mesclagem

Revise a mesclagem especificada. Para modificar qualquer aspecto dela, clique em Editar.

Figura: revisar mesclagem

Para adicionar a mesclagem especificada ao conjunto de dados, clique em Adicionar ao roteiro.

Esta página foi útil? Conte sua opinião sobre:

Enviar comentários sobre…

Documentação do Google Cloud Dataprep
Precisa de ajuda? Acesse nossa página de suporte.