Assistente de pesquisa

Você pode realizar pesquisas em um conjunto de valores no conjunto de dados. A origem dessa pesquisa é um grupo de valores de um conjunto de dados diferente. Uma pesquisa compara cada valor na coluna selecionada em relação aos valores em uma coluna selecionada do conjunto de dados de destino. Quando uma correspondência é encontrada, os valores em outras colunas do conjunto de dados de destino são inseridos como novas colunas no conjunto de dados no qual a pesquisa foi executada.

Por exemplo, a empresa está mudando os nomes de todos os produtos. Em vez de realizar um conjunto complexo de transformações de substituição, você pode fazer uma pesquisa na coluna "productName" em um conjunto de dados de duas colunas, que contém o nome original e o novo nome em colunas separadas. Quando o novo nome é inserido no conjunto de dados de origem por meio de pesquisa, você pode excluir a coluna de origem e continuar transformando os dados com os novos nomes.

  • Não é possível executar pesquisas em colunas com tipo de dados de Objeto ou Matriz.
  • Uma pesquisa essencialmente realiza uma junção à esquerda entre o primeiro conjunto de dados e o segundo. No entanto, as pesquisas são menos flexíveis em termos de definição e edição.

    OBSERVAÇÃO: se os valores de coluna não forem únicos, o conjunto de dados resultante poderá ser bem maior que o conjunto original.

Este fluxo de trabalho é mais bem demonstrado por meio de um exemplo. Nesse caso, os dados brutos de vendas registram informações do produto em identificadores numéricos internos. Para análise, convém integrar dados a partir dos dados mestre de produtos com base no identificador interno. Dessa maneira, você terá uma descrição do produto e outras informações úteis como parte do conjunto de dados.

Para realizar uma pesquisa, selecione o circunflexo ao lado de um título de coluna e selecione Lookup...

Assistente de pesquisa: etapa 1

Na primeira etapa, você seleciona o conjunto de dados no qual gostaria de realizar a pesquisa de dados correspondentes para a coluna Item_Nbr. Neste exemplo, o conjunto de dados dos produtos é selecionado, porque contém a lista de produtos reconhecidos:

Dica: você pode pesquisar os fluxos e conjuntos de dados disponíveis. Quando você procura fluxos, todos os conjuntos de dados no fluxo têm correspondência.

Figura: assistente de pesquisa - etapa 1

Assistente de pesquisa: etapa 2

Depois de selecionar o conjunto de dados no qual realizar a pesquisa, você selecionará o campo no conjunto de dados de destino a ser usado como a chave de pesquisa. A chave de pesquisa fornece o conjunto de identificadores para os quais você está tentando encontrar uma correspondência para cada valor na coluna de origem. Nesse caso, a coluna da chave de pesquisa tem o mesmo nome da coluna de origem: ITEM_NBR.

Figura: assistente de pesquisa - etapa 2

Limpeza da coluna

Quando a pesquisa é executada para cada valor na coluna item_nbr de origem que pode ser encontrado na coluna ITEM_NBR do conjunto de dados de destino, todas as outras colunas na linha correspondente do segundo conjunto de dados são inseridas como colunas separadas no primeiro conjunto de dados. Essas colunas são inseridas logo à direita da coluna que foi usada para a pesquisa:

Figura: assistente de pesquisa - resultados

OBSERVAÇÃO: se o segundo conjunto de dados contiver várias entradas correspondentes para valores individuais de chave de pesquisa no primeiro conjunto de dados, as linhas do primeiro conjunto de dados serão duplicadas nos resultados.

OBSERVAÇÃO: talvez seja necessário excluir algumas das colunas que foram importadas para o conjunto de dados.

Como atualizar pesquisas automaticamente

Depois de adicionar uma pesquisa ao roteiro, as alterações subsequentes feitas nesses dados de referência serão refletidas automaticamente no conjunto de dados.

Dica: se for necessário congelar os dados no conjunto usado como entrada, crie uma cópia do conjunto de dados como um snapshot. Consulte Página "Dataset Details".

Para usar a cópia, exclua e reconstrua a pesquisa usando a versão copiada. Veja Corrigir problemas de dependência.

Esta página foi útil? Conte sua opinião sobre:

Enviar comentários sobre…

Documentação do Google Cloud Dataprep
Precisa de ajuda? Acesse nossa página de suporte.