Visão geral da Transformação preditiva

Segundo uma pesquisa acadêmica, a Transformação preditiva se refere a um conjunto de princípios de design e interface que funcionam como base para como os usuários do Cloud Dataprep interagem com os respectivos dados. A Transformação preditiva é o elemento determinante da plataforma. Nesta seção, você encontra uma visão geral dos conceitos e links para locais em que esses conceitos são abordados na interface.

Visão geral

Basicamente, a Transformação preditiva procura reunir:

  1. o conhecimento do domínio sobre os dados e
  2. o conhecimento técnico das operações às vezes complexas obrigatórias para renderizar o formato utilizável final dos dados.

No processo de transformação de dados por "data wrangling", o conjunto de conhecimentos relacionados ao domínio está com especialistas em domínios que entendem o significado dos dados. Já o conhecimento técnico normalmente requer envolvimento de TI, que pode não ter uma compreensão contextual dos dados para informar os respectivos designs de solução.

Esse processo de renderização de dados de um formato em outro costuma ser chamado de transformação de dados, que se divide em um conjunto de tarefas de programação, com ênfase na estrutura, no significado e nas propriedades estatísticas dos dados. Entre essas tarefas, estão as seguintes:

  • manipulação estatística (criação de perfis, pontos fora da curva, imputação)
  • reestruturação (extração de dados, aninhamento, dinâmico/não dinâmico)
  • limpeza (padronização, eliminação de duplicação, remoção de dados)
  • enriquecimento (junção com outros dados, pesquisas de dados de referência)
  • destilação (amostragem, filtragem, agregação, criação de janelas)

Em grandes conjuntos de dados distribuídos, a execução apropriada dessas tarefas pode ser tecnicamente desafiadora. Para removê-los do domínio de TI, a Transformação preditiva procura oferecer as seguintes capacidades:

  1. Recursos e visualizações: métodos inovadores para exibir e selecionar dados de interesse para o usuário.
  2. Sugestões: com base na seleção do usuário, as transformações sugeridas são apresentadas ao usuário para seleção e configuração.
  3. Visualizações: para a sugestão selecionada, as visualizações da alteração prevista estão disponíveis para avaliação antes da inclusão nas transformações no conjunto de dados.

O ciclo acima será repetido até o conjunto de transformações ser definido e executado de maneira satisfatória.

Fases

Com base na seleção do usuário, a Transformação preditiva orienta o usuário em relação às próximas etapas possíveis. Além disso, ainda permite ao usuário decidir a etapa a ser seguida e (se necessário) refinar a definição da etapa. O núcleo da repetição orientar/decidir da Transformação preditiva se ajusta às fases iterativas a seguir. Quando as etapas são selecionadas, as visualizações são atualizadas e o ciclo se repete.

FaseElemento de IUDescrição
VisualizarvisualizaçõesUm componente crítico da Transformação preditiva é a representação visual dos dados, inclusive itens de interesse para seleção. Em conjuntos de dados maiores, as dicas visuais em torno de itens de interesse e as ferramentas para interagir com eles dão informações sobre o significado de cada tipo de interação e são fundamentais para uma experiência do usuário produtiva e agradável.
InteragirseleçõesOs usuários interagem diretamente com as visualizações para selecionar valores, colunas ou outros itens de interesse.
Prevermodelo preditivo e sugestõesAutomaticamente, as seleções de usuário acionam consultas no modelo preditivo. Dados, metadados e a seleção deles definem efetivamente consultas do modelo preditivo. O modelo retorna um conjunto de transformações sugeridas. As sugestões orientam o usuário em relação às ações recomendadas sobre itens que o usuário decidiu serem interessantes por meio de seleções. O usuário pode, então, decidir qual sugestão seguir, inclusive a modificação dos parâmetros específicos em torno da sugestão. O usuário também pode definir uma etapa completamente diferente a seguir.
ApresentarvisualizaçõesSempre que a etapa a ser seguida for selecionada ou modificada depois, os resultados previstos dessa etapa serão exibidos como uma sobreposição de visualização sobre os dados. Este método possibilita um desenvolvimento fácil, operações de desfazer rápidas e uma compreensão mais clara dos impactos de cada etapa.

Visualizações

Na Transformação preditiva, as visualizações precisam ser projetadas cuidadosamente para revelar dados ou metadados selecionáveis de interesse para o usuário. No Cloud Dataprep, a página "Transformer" foi projetada para representar o conjunto de dados subjacente, ao mesmo tempo que orienta o usuário com itens selecionáveis.

Figura: a página "Transformer" contém uma sobreposição avançada de informações e dicas de seleção

Dicas de visualização específicas:

  1. Os dados são renderizados no conhecido formato de grade, independentemente da estrutura subjacente.
    1. valores e colunas selecionáveis
  2. Barras de qualidade de dados com diferenciação por cores:
    1. verde: válido
    2. preto: não encontrado
    3. vermelho: inválido (verificado em relação ao tipo de dados)
    4. seleção de uma cor para escolher todos os valores correspondentes
  3. Histogramas para colunas individuais:
    1. Selecione um ou mais valores no histograma para destacar valores correspondentes em outros histogramas de coluna. Isso facilita as comparações visuais.
  4. metadados em todas as informações estatísticas, de tipo e de conjuntos de dados para colunas individuais. Consulte Painel "Column Details".

Dessa maneira, esta visualização aumenta a interação do usuário nos domínios de dados e códigos em uma representação mais visual.

Os usuários ainda precisam especificar por meio da seleção. A sintaxe da especificação é aumentada para o domínio visual, e os detalhes da elaboração da consulta técnica são gerenciados pelo aplicativo.

Exploração: por design, este modelo de interação aceita especificidade detalhada e ambiguidade. O usuário seleciona, visualiza os resultados e determina se a visualização atende às expectativas. Além disso, todas as etapas podem ser desfeitas e removidas da receita. Dessa forma, os usuários podem explorar etapas diferentes e abordagens inteiras para transformar dados. As soluções que exigem interações mais técnicas do usuário normalmente sofrem de uma intolerância de ambiguidade, o que limita a capacidade de um usuário de expressar intenção sem experiência e/ou treinamento significativo. Consulte Página "Transformer".

Seleções

À medida que o usuário avalia a visualização, uma alteração no cursor indica os itens disponíveis para seleção.

Figura: o cursor de seleção muda quando é passado sobre itens selecionáveis

Os seguintes tipos de seleções acionam as fases subsequentes:

  • valores de célula e valores dentro de uma célula
  • colunas
  • valores em um histograma de dados
  • categorias de valores (válido, inválido, não encontrado) dentro de uma barra de qualidade de dados

Todos os valores podem ter seleção múltipla.

O usuário ainda é obrigado a fazer seleções nos dados, o que exige um conhecimento específico do domínio na hora da transformação. Essa seleção, por sua vez, aciona uma consulta mais complexa por meio da aplicação ao serviço de predição.

Modelo preditivo

Com base no conjunto de seleções, um algoritmo de inferência tenta interpretar a intenção de transformação dos dados da seleção e gera um conjunto classificado de sugestões e padrões para correspondência das seleções. Por exemplo, se você selecionar os três primeiros caracteres em uma célula, o algoritmo poderá produzir duas sugestões de transformação para remoção de dados: uma para remover as linhas que contêm o texto específico e outra para manter todas as linhas que contêm esse padrão de texto na coluna.

Como parte dos resultados retornados do modelo preditivo, os valores correspondentes das seleções são destacados na tabela.

O modelo preditivo interpreta a seleção para identificar a intenção. As possíveis intenções surgem como uma ou mais transformações sugeridas de uma maneira visual que minimiza a exposição à linguagem de transformação.

Sugestões e as respectivas variantes

O conjunto de próximas etapas prováveis é calculado pelo modelo preditivo a partir da interação do usuário, dos dados selecionados, das informações históricas e de outras origens e renderizado como um conjunto de sugestões. Como são essencialmente previsões de intenção do usuário, essas etapas surgem como cartões visualizáveis. Por meio deles, o usuário pode explorar para esclarecer a incerteza da intenção em torno das respectivas seleções de dados.

Figura: cartões de sugestão - sugestão de guias de seleção

Os cartões de transformação são específicos o suficiente para execução imediata. O usuário poderá optar por modificar a transformação e os respectivos parâmetros, se a especificação e a orientação adicionais forem necessárias.

Na parte inferior de cada cartão de transformação, você pode ver um ou mais pontos. Cada ponto representa uma variante da transformação selecionada.

A primeira variante é a mais específica aplicável à seleção atual na grade de dados. Passe o cursor do mouse sobre as variantes para ver versões diferentes da transformação. Quando você passa o cursor do mouse sobre as variantes mais à direita no cartão de sugestão, elas normalmente se tornam mais específicas nas respectivas alterações feitas no conjunto de dados ou são mais raras quanto ao uso.

Quando você passa o cursor mouse sobre uma variante de transformação diferente no cartão de sugestão, esse cartão é atualizado automaticamente para refletir a variação. Quando você seleciona a variante, a visualização é atualizada. Você sempre pode modificar a transformação para avaliar as diferenças detalhadas.

Visualizações

Quando um cartão de transformação é selecionado, os resultados da transformação selecionada são visualizados na grade de dados. Dessa forma, o usuário possa ver antecipadamente as alterações feitas no conjunto de dados.

Figura: efeitos visualizados da transformação

Quando é adicionada à receita, a transformação é renderizada na linguagem de transformação dos dados e aplicada em tempo real ao conjunto de dados. Dessa maneira, o usuário pode começar a trabalhar imediatamente na próxima etapa do processo.

Quando uma transformação é selecionada, esta e qualquer orientação adicional do usuário são convertidas em uma etapa programática específica na linguagem de transformação. Essa etapa, por sua vez, é renderizada em uma consulta complexa e potencialmente distribuída, aplicada em todo o conjunto de dados. Dessa maneira, o usuário não precisa conhecer os detalhes técnicos adicionais nem ter o conhecimento necessário para dominá-los.

Etapas adicionais: modificação

Modificação por meio do Transform Builder

Conforme necessário, qualquer seleção pode ser modificada, de maneira que o usuário possa ajustar parâmetros para refinar ainda mais a intenção de alcançar um resultado específico. No Cloud Dataprep, os usuários podem clicar em Modify para ajustar transformações individuais no Transform Builder.

Figura: como modificar uma transformação no Transform Builder

Wrangle

As etapas reais da transformação são criadas no Wrangle, uma linguagem específica do domínio para transformação de dados. O Wrangle inclui as seguintes características:

  • transformações de origem única, com resultados renderizados sem modificação feita nos dados de origem
  • operações gerais de limpeza e transformação em dados numéricos e textuais de tipos de dados variados e personalizados
  • transformações estruturais para gerenciar dados aninhados como JSON
  • transformações de vários conjuntos de dados, como pesquisas, associações e uniões
  • transformação de dados em metadados, como operações dinâmicas e não dinâmicas
  • padrões de seleção de texto, inclusive expressões regulares, como um conjunto de referências de tipo macro (consulte Correspondência de texto)

Para mais informações, consulte Linguagem Wrangle.

Esta página foi útil? Conte sua opinião sobre:

Enviar comentários sobre…

Documentação do Google Cloud Dataprep
Precisa de ajuda? Acesse nossa página de suporte.