Princípios básicos de transformação

Depois de criar ou selecionar o conjunto de dados, a página Transformer é aberta para que você inicie suas tarefas de transformação em uma amostra do conjunto de dados. Por meio dessa interface, você cria sua receita de transformação e vê os resultados em tempo real aplicados à amostra. Quando você estiver satisfeito com o que vê, poderá executar um job em todo o conjunto de dados.

Meta

Dica: antes de começar a transformação, conheça o esquema de destino aos quais os dados transformados precisam corresponder. Um esquema é o conjunto de colunas e os tipos de dados dele, que definem as restrições do seu conjunto de dados.

A transformação de dados é concluída quando você realiza as seguintes ações:

  • limitação dos dados de valores inválidos, perdidos ou imprecisos
  • modificação do conjunto de dados para restringir os valores dele a fim de atender ao esquema de destino
  • melhoria do seu conjunto de dados conforme necessário com dados de outros conjuntos
  • exportação do conjunto de dados e a receita de transformação para uso em sistemas subsequentes

Métodos recomendados para a criação de receitas

O Cloud Dataprep é compatível com os métodos a seguir para a criação de receitas. Eles estão listados por ordem de facilidade de uso:

  1. Selecionar algo. Ao fazer uma seleção na página "Transformer", você recebe um conjunto de sugestões para as etapas que você pode seguir na seleção ou padrões que correspondem à seleção. Você pode selecionar colunas ou um ou mais valores das colunas.

    Dica: o método mais fácil para a criação de receitas é selecionar itens no aplicativo. Com o tempo, o aplicativo aprende com suas seleções e solicita sugestões com base no uso anterior que você fez. Para mais informações, consulte Visão geral sobre transformação preditiva.

  2. Criar etapas. Usando o Transform Builder, você pode montar etapas de receita rapidamente por meio de uma interface simples e orientada por menus. Quando você modifica uma etapa, ela é carregada no Transform Builder. Nele, você pode fazer alterações selecionando e inserindo valores em campos já preenchidos. Para saber mais, consulte Transform Builder.

    Dica: use o Transform Builder para realizar modificações na transformação que você selecionou de um cartão de sugestão.

Amostra

O carregamento de conjuntos de dados muito grandes no Cloud Dataprep pode sobrecarregar seu navegador ou afetar o desempenho. Por isso, o aplicativo foi projetado para funcionar em uma amostra de dados. Depois de terminar a receita trabalhando em uma amostra, você executa a receita em todo o conjunto de dados.

  • A amostra padrão é o primeiro conjunto de linhas de dados de origem no conjunto de dados, cujo número é determinado pela plataforma. Para conjuntos de dados menores, todo o conjunto de dados pode ser usado como sua amostra.

Em alguns casos, a amostra padrão pode ser inadequada ou do tipo errado. Para gerar uma nova amostra, clique em Amostra das primeiras linhas:

Figura: link da Amostra das primeiras linhas

OBSERVAÇÃO: coletar novas amostras aleatórias exige recursos do sistema e armazenamento. Você pode coletar uma nova amostra aleatória se já incluiu uma etapa para alterar o número de linhas em seu conjunto de dados ou se já modificou dados permanentemente (operações keep, delete, lookup, join ou aggregate). Se você retirar posteriormente a etapa que fez a modificação, a amostra gerada não será mais válida e será removida. Esse processo limita o crescimento desnecessário nas amostras de dados.

No lado direito da tela, você pode iniciar um novo job de amostragem em seu conjunto de dados. Para saber mais, consulte o Painel de amostras.

Limpeza

As tarefas de limpeza de dados tratam de problemas na qualidade dos dados, que podem ser categorizados de modo geral da seguinte maneira:

  • Consistência. Valores que descrevem a mesma coisa concordarão um com o outro. Valores numéricos terão a mesma precisão. Valores de strings serão estruturados de maneira consistente para significar a mesma coisa.
  • Validade. Os valores serão restritos aos requisitos do tipo de dados de cada campo. Por exemplo, um campo DateOfSale será uma data válida.
  • Confiabilidade. Valores no mesmo campo em registros diferentes terão o mesmo significado. Por exemplo, o valor 15 no campo "Temperatura" de dois registros diferentes não significará graus centígrados em um registro e graus Fahrenheit no outro.

Quando os dados são importados inicialmente, eles podem conter várias colunas, linhas ou valores específicos que não são necessários para o resultado final. Especificamente, essa fase pode envolver as atividades básicas a seguir:

  • remoção de colunas não utilizadas
  • endereço faltando e dados incompatíveis
  • alteração de tipos de dados
  • melhoria da consistência, da validade e da confiabilidade dos dados

Primeiras etapas da receita:

Quando uma amostra de conjunto de dados é carregada pela primeira vez na página "Transformer", o Cloud Dataprep tenta dividir os dados brutos para formar dados tabulares regulares. Se os dados parecem conter uma linha de cabeçalho, ela pode ser usada para os títulos das colunas.

Figura: página "Transformer"

Na imagem acima, algumas etapas de análise inicial foram aplicadas para estruturar os dados em tabela, mas essas etapas não são adicionadas como partes formais da receita.

  • Por padrão, essas etapas são adicionadas automaticamente à receita quando você permite que o aplicativo detecte a estrutura dos dados importados.
  • Para mais informações, consulte Etapas de análise inicial.

Os dados resultantes dessas transformações iniciais são exibidos na grade de dados. Consulte Painel de grade de dados.

  • Sua receita é exibida no painel "Recipe" do lado direito. Talvez seja preciso abrir esse painel para enxergá-lo. Consulte o Painel de receita.
  • Quando você seleciona itens na grade de dados, os cartões de sugestão são exibidos para que você comece a criar etapas de transformação. Consulte o Painel de cartões de sugestão.
  • Essas sugestões podem ser modificadas para criar comandos mais complexos ou sutis no Transform Builder. Consulte Transform Builder.

Criar uma linha de cabeçalho:

Na maioria dos casos, os nomes das colunas são inferidos a partir da primeira linha dos dados no conjunto de dados. Caso contrário, na caixa de texto "Escolher uma transformação", digite:

header

Se você precisa determinar uma linha diferente para usar, pode indicar um número de linha específico:

header sourcerownumber:4

Para adicionar essa ou qualquer transformação em desenvolvimento à sua receita, clique em Add to Recipe. Esse botão estará desativado se a etapa for inválida.

Gerar números de linha:

No lado esquerdo da grade de dados, você verá um conjunto de pontos pretos. Se você passar o mouse sobre um deles, o número da linha original dos dados de origem será listado. Como o processo de transformação de dados pode alterar o número de linhas ou a ordem delas, é recomendável manter a ordem original das linhas. Cole o comando a seguir no Transform Builder para gerar uma nova coluna, chamada rowId, que contém os números de linha originais do conjunto de dados.

derive value:SOURCEROWNUMBER() as:'rowId'

Dica: é recomendável criar esse tipo de identificador exclusivo para linhas no conjunto de dados. No entanto, algumas operações, como join ou union, podem invalidar esses números ou gerar valores em branco na coluna. Para saber mais, consulte Gerar chaves primárias.

Remover colunas não utilizadas:

Os seus dados podem conter colunas que não são úteis para você, por isso é bom removê-las para simplificar o conjunto de dados. Para remover uma coluna, clique no cursor ao lado do título dela e selecione Drop.

Dica: se você não tem certeza se quer remover a coluna, pode usar o mesmo menu para ocultar a coluna por enquanto. As colunas ocultas são exibidas na saída.

Dica: você também pode remover intervalos de colunas. Consulte Remover dados.

Exibir apenas colunas de interesse:

Você pode escolher quais colunas quer exibir na grade de dados, o que pode ser útil para restringir o foco a áreas problemáticas.

Na barra "Transformer", na parte superior da tela, clique no ícone "Visualização de colunas".

Dica: você também pode alternar a exibição de colunas na página Transformer. Clique no ícone de olho para ver as colunas visíveis.

Essas ferramentas de criação de perfis visuais fornecem informações imediatas sobre categorias gerais e elementos incomuns do conjunto de dados, incluindo erros e valores de valores atípicos. Para mais informações, consulte Painel "Navegador de colunas".

Revisar a qualidade dos dados:

Depois de remover os dados não utilizados, você pode examinar a qualidade dos dados dentro de cada coluna logo abaixo do título dela.

Figura: cabeçalho da coluna

A barra horizontal, conhecida como barra de qualidade de dados, identifica a qualidade dos dados na coluna pelas seguintes cores:

CorDescrição
VerdeEsses valores são válidos para o tipo de dados especificado.
VermelhoEsses valores não correspondem aos do tipo especificado.
PretoNão há valores para a coluna nessas linhas.

Dica: quando você seleciona valores na barra de qualidade de dados, eles são destacados nas linhas de exemplo, e as sugestões são exibidas na parte inferior da tela nos cartões de sugestão para lidar com as linhas selecionadas.

Para mais informações, consulte Barras de qualidade de dados.

Cartões de sugestão:

O Cloud Dataprep usa técnicas de inferência de dados para examinar os dados com base em suas seleções e fornecer a você as transformações sugeridas.

Dica: sempre que possível, tente criar as transformações selecionando dados e, em seguida, o cartão de sugestão apropriado. Em alguns casos, você precisará modificar os detalhes da receita.

No exemplo a seguir, os valores ausentes na coluna SUBSCRIBER_AGE foram selecionados, e um conjunto de cartões é exibido.

Figura: seleção de valores ausentes

Dica: ao visualizar uma etapa de receita, use as caixas de seleção na barra de status para exibir apenas linhas e colunas afetadas. Isso ajuda você a avaliar os efeitos da etapa.

Dependendo da natureza dos dados, é recomendável manter, excluir ou modificar os valores. Como os dados estão ausentes, o card delete foi selecionado.

  • Para aceitar essa sugestão, clique em Add to Recipe.
  • Você pode modificar a etapa, se necessário. Você verá um exemplo mais tarde.

Transformações de menu:

Você pode aplicar etapas de transformação a colunas inteiras. Clique no menu suspenso à direita do nome da coluna e selecione as opções disponíveis. As etapas de transformação são preenchidas previamente no Transform Builder. Para mais informações, consulte Menus da coluna.

Alterar tipos de dados:

Se uma coluna contiver uma alta concentração de dados incompatíveis (vermelho), ela pode ter sido identificada como um tipo de dados errado. Por exemplo, seu conjunto de dados inclui identificadores internos que são principalmente dados numéricos (por exemplo, 10000022), mas algumas vezes têm caracteres alfabéticos em alguns valores (por exemplo, 1000002A). A coluna para esses dados pode ser tipada para valores inteiros, quando deveria ser tratada como valores de string.

Dica: sempre que possível, defina o tipo de dados para cada coluna como o tipo apropriado. O Cloud Dataprep mantém informações estatísticas e permite algumas etapas de transformação com base no tipo de dados. Consulte Referência de estatísticas de colunas.

  • Para alterar o tipo de dados de uma coluna, clique no ícone à esquerda do título da coluna. Selecione o novo tipo de dados. Analise os valores incompatíveis da coluna para verificar se a contagem caiu. Para mais informações, consulte Tipos de dados compatíveis.

Explorar detalhes da coluna:

Revisar os histogramas:

Logo abaixo da barra de qualidade de dados de uma coluna, você pode revisar um histograma dos valores encontrados na coluna. No exemplo a seguir, o histograma de dados à esquerda aplica-se à coluna ZIP, enquanto o da direita aplica-se à coluna WEB_CHAT_ID.

Figura: histograma de dados da coluna

Quando você passa o mouse sobre as categorias no histograma, pode ver o valor correspondente, a contagem de instâncias na coluna da amostra e a porcentagem das linhas afetadas. No lado esquerdo, a barra com o maior número de instâncias foi selecionada. O valor 21202 ocorre 506 vezes (21,28%) no conjunto de dados. À direita, o sombreamento mais escuro indica como linhas com ZIP=21202 mapeiam para valores na coluna WEB_CHAT_ID.

Dica: de maneira semelhante à barra de qualidade de dados, você pode clicar em valores em um histograma de dados para destacar as linhas afetadas e acionar um conjunto de sugestões. Dessa forma, você pode usar as mesmas ferramentas de qualidade de dados para aplicar mudanças ainda mais refinadas a valores individuais em uma coluna.

Para uma lista com as tarefas comuns para limpar os dados, consulte Tarefas de limpeza.

Modificar

Depois de realizar a limpeza inicial dos dados, talvez seja necessário executar modificações nos dados para formatá-los de maneira adequada para o sistema de destino, especificar o nível apropriado de agregação ou fazer outra modificação. Quando você seleciona dados, as transformações sugeridas são apresentadas como cartões de sugestão. Selecione uma delas ou crie sua própria conforme necessário.

Dica: as etapas de modificação são muitas vezes específicas para o caso de uso subsequente dos dados. Se o conjunto de dados de origem precisa satisfazer vários usos subsequentes, talvez seja necessário fazer modificações para satisfazer cada caso de uso, que estão em conflito um com o outro. Pode ser mais fácil primeiro fazer a limpeza, copiar o conjunto de dados e depois modificar cada um deles para satisfazer cada caso de uso.

No exemplo a seguir, a palavra incorretamente maiúscula BALTIMORE foi selecionada para que você possa alterá-la para a ortografia adequada (Baltimore). Essas linhas são destacadas nos dados da linha, e um conjunto de sugestões sobre como fazer a correção foi fornecido nos cartões na parte inferior da tela. Consulte o Painel de cartões de sugestão.

Figura: seleção de valores para modificação

Dependendo da natureza dos dados, é recomendável manter ou alterar os valores. Você também pode remover completamente as linhas problemáticas.

Dica: quando você seleciona um dos cartões de sugestão, as mudanças implícitas são visualizadas na página Transformer para que você possa ver os efeitos da alteração. Essa capacidade de visualização permite que você revise e ajuste as alterações antes que elas sejam aplicadas formalmente. Você sempre pode remover uma etapa de transformação se ela estiver incorreta ou até mesmo executar novamente a receita para gerar um conjunto corrigido de resultados, uma vez que os dados de origem estão inalterados. Para mais informações, consulte Visualização de transformação.

Dica: este processo de seleção de dados na barra de qualidade de dados de uma coluna ou no histograma de valores é o método recomendado para identificar dados problemáticos em seu conjunto de dados. Você pode aplicar esse método a valores incompatíveis (vermelhos), ausentes (pretos) ou valores atípicos de dados em todas as colunas do conjunto de dados.

Nesse caso, selecione a transformação replace. No entanto, há algumas questões menores com a sugestão fornecida.

  • Como a plataforma não tem ideia do significado da seleção, ela pode sugerir inicialmente a remoção total do texto. Nesse caso, é recomendável alterar a ortografia.
  • No card, o valor do parâmetro on contém o padrão usado para identificar a seleção. Nesse caso, ele está selecionando todos os valores em maiúsculas. Por enquanto, você só vai corrigir BALTIMORE.

Portanto, alguns aspectos dessa transformação precisam ser alterados. Clique em Editar.

Transform Builder:

Quando você modifica uma etapa de transformação, pode fazer alterações no Transform Builder, que é uma interface simples e orientada por menus para criar etapas de transformação:

Figura: modificação de etapas no Transform Builder

No Transform Builder, você pode substituir o padrão pela a string específica a ser localizada: BALTIMORE. O novo valor, que está vazio atualmente, pode ser preenchido com o valor substituto: Baltimore. Clique em Adicionar.

A sugestão é adicionada à receita e aplicada automaticamente à amostra de dados exibida na página Transformer. Para saber mais, consulte Transform Builder.

Dados agregados:

Os valores brutos no seu conjunto de dados podem ser refinados demais para uso em seu sistema de destino, ou talvez seja necessário padronizar todos os valores no mesmo nível de agregação. Por exemplo, seus dados podem ser armazenados no nível de produto individual quando você precisa usá-los em nível de marca. Para mais informações, consulte Transformação Aggregate.

Aprimorar

Antes de entregar os dados ao sistema de destino, talvez seja necessário aprimorar ou aumentar o conjunto de dados com novas colunas ou valores de outros conjuntos de dados. Essas operações com vários conjuntos de dados podem expandir bastante os recursos dos fluxos de trabalho de transformação.

Conjuntos de dados unidos:

Você pode anexar um conjunto de dados de estrutura idêntica ao que está carregado atualmente para expandir o volume de dados. Por exemplo, você pode juntar dados de registros diários em uma string para criar semanas de informações de registro. Consulte a página "União".

Valores de pesquisa:

Em alguns casos, talvez seja necessário incluir ou substituir valores em seu conjunto de dados com outras colunas de outro conjunto de dados. Por exemplo, os dados transacionais podem fazer referência ao produto e ao cliente por meio de identificadores internos. Você pode criar pesquisas no conjunto de dados mestre para recuperar versões fáceis de usar de códigos de clientes e de produtos.

OBSERVAÇÃO: os dados de referência usados para pesquisas precisam ser carregados primeiro como um conjunto de dados no Cloud Dataprep.

Para realizar uma pesquisa para uma coluna de valores, clique na lista suspensa ao lado do título da coluna e selecione Lookup....

Consulte Assistente de pesquisa.

Conjuntos de dados unidos:

Você também pode unir dois ou mais conjuntos de dados com base em um conjunto comum de valores. Por exemplo, você está usando dados de vendas brutos para criar um conjunto de dados de comissão de vendas:

  • Seu conjunto de dados de transações de vendas contém uma coluna para o identificador do vendedor, que indica o funcionário que receberá a comissão.
  • Talvez você queira unir seu conjunto de dados de transações de vendas com o conjunto de dados do funcionário, o que fornece informações sobre o nome do funcionário e a taxa de comissão por meio do identificador interno.
  • Se não houver registro correspondente no conjunto de dados do funcionário, nenhuma comissão será paga e o registro da transação de vendas não estará presente no conjunto de dados da comissão.

Esse conjunto de dados de comissão é criado por meio da realização de uma união interna entre o conjunto de dados da transação de vendas e o conjunto de dados do funcionário. No Transform Builder, digite join. Consulte a página "Junção".

Para ver uma lista de fluxos de trabalho comuns para aprimorar seu conjunto de dados, consulte Tarefas de aprimoramento.

Perfil

Como parte do processo de transformação, você pode gerar e analisar perfis visuais de colunas individuais e todo o conjunto de dados. Esses perfis interativos podem ser muito úteis na identificação de anomalias, valores atípicos e outros problemas com seus dados.

Esses perfis aparecem como:

  • histogramas e barras de qualidade de dados na grade de dados;
  • perfis visuais detalhados de colunas individuais;
  • perfis visuais em todo o conjunto de dados, como parte da execução do job.
  • Para saber mais, consulte Princípios básicos da criação de perfil.

Esta página foi útil? Conte sua opinião sobre:

Enviar comentários sobre…

Documentação do Google Cloud Dataprep
Precisa de ajuda? Acesse nossa página de suporte.