O Wrangler é uma ferramenta de preparação de dados visual na interface do Cloud Data Fusion Studio. Permite limpar e transformar dados antes de os usar em pipelines de extração, transformação e carregamento (ETL). O Wrangler aplica transformações a uma amostra dos seus dados num único local (denominado Pré-visualização) antes de executar a lógica no conjunto de dados completo. Esta pré-visualização ajuda a aplicar transformações e a compreender como afetam o conjunto de dados completo.
Diretivas do Wrangler
Uma diretiva é uma única instrução usada no Wrangler. As diretivas especificam como manipular os seus dados, como transformar, filtrar ou criar tabelas dinâmicas de registos individuais.
Os seguintes conceitos estão relacionados com as diretivas:
- Receita
- Uma receita é um conjunto de diretivas. Consiste numa ou mais diretivas.
- Passo de transformação
- Um passo de transformação é uma implementação de uma diretiva de transformação de dados, que opera num único registo ou num conjunto de registos. Um passo de transformação pode gerar zero ou mais registos a partir da aplicação de uma diretiva. O Wrangler aplica os passos de transformação pela ordem indicada na receita.
Componentes do Wrangler
As secções seguintes explicam os componentes do Wrangler no Cloud Data Fusion Studio.
Espaço de trabalho do Wrangler
O espaço de trabalho do Wrangler é uma página na interface do Cloud Data Fusion Studio onde analisa, mistura, limpa e transforma conjuntos de dados. Na página Espaço de trabalho, pode fazer o seguinte:
- Adicione passos de transformação a uma receita através do menu pendente em cada coluna.
- Veja ou elimine passos numa receita selecionando o separador Passos de transformação.
- Descubra colunas com campos em branco e outras informações verificando a barra de qualidade dos dados.
- Clique em Mais para ver o esquema do conjunto de dados.
- Crie um pipeline de dados com um plug-in de origem para o conjunto de dados e a transformação do Wrangler com a receita que contém os passos de transformação, que são executados quando o pipeline é executado.
Modo de potência do Wrangler (CLI)
Para especificar diretivas através da sintaxe declarativa, use o modo de energia (CLI). É útil para as seguintes tarefas:
- Usar diretivas que não estão disponíveis na interface do Studio
- Adicionar diretivas definidas pelo utilizador
- Aplicar uma diretiva a várias colunas
Para usar o modo avançado do Wrangler, introduza diretivas na barra preta na parte inferior do separador Dados do Wrangler.
Separador Wrangler Insights
Pode usar o separador Estatísticas na página do Wrangler para realizar a deteção de dados num conjunto de dados.
Limitações
- O Wrangler só é suportado para pipelines de ETL em lote.
- O Wrangler aplica a transformação apenas aos dados de amostra. Estes dados de amostra estão limitados aos primeiros 1000 registos.
- O Wrangler requer que as ligações sejam criadas com a origem. Para mais informações, consulte Crie e faça a gestão de associações.
- O Wrangler requer sempre que, pelo menos, um espaço de trabalho do Wrangler esteja aberto.
- Clicar no botão Organizar na transformação Wrangler não é suportado.
Navegue para o Wrangler no Cloud Data Fusion
Pode aceder ao Wrangler de duas formas a partir da interface do Cloud Data Fusion Studio:
- Para abrir o espaço de trabalho do Cloud Data Fusion Wrangler, aceda ao Cloud Data Fusion Studio e clique em Wrangler.
- Para configurar as propriedades do Wrangler, aceda ao Cloud Data Fusion Studio e clique em Studio > Transformações > Wrangler.
Faça a associação a uma origem de dados
O Wrangler suporta várias origens de dados, como o BigQuery, o Cloud Storage e bases de dados externas (com configuração adicional). Para usar o Wrangler, tem de criar uma ligação à origem.
Para criar a associação, aceda à lista Associações e selecione a associação à sua origem de dados. Para mais informações, consulte o artigo Crie e faça a gestão de associações.
Explore e pré-visualize dados
O Wrangler apresenta uma amostra dos seus dados (normalmente, 1000 linhas) para inspeção. Pode obter uma vista geral do esquema de dados, incluindo os tipos de dados e as estatísticas básicas.
Aplique diretivas
O Wrangler oferece uma variedade de diretivas incorporadas para tarefas comuns de organização de dados.
- Arraste a diretiva escolhida para uma coluna específica ou para a janela de pré-visualização de dados.
- Cada diretiva tem opções de configuração para personalizar o respetivo comportamento.
Para mais informações, consulte as diretivas de linha de comandos do Wrangler.
Pré-visualize os resultados da transformação
À medida que aplica diretivas, a janela de pré-visualização de dados é atualizada dinamicamente para refletir as alterações. Isto permite-lhe ver o impacto imediato de cada transformação nos seus dados.
Refine e itere
Para refinar o processo de gestão de dados, continue a adicionar diretivas, modificar as configurações e rever a pré-visualização.
A interface visual do Wrangler ajuda a fazer experiências e a garantir que as suas transformações produzem o resultado esperado.
Adicione transformações a um pipeline
Embora o Wrangler não seja uma solução de armazenamento persistente, o Cloud Data Fusion oferece formas de capturar a sua lógica de organização:
Crie um pipeline. No espaço de trabalho do Wrangler, converta as transformações do Wrangler num pipeline do Cloud Data Fusion seguindo estes passos:
- Clique em Criar pipeline.
- Selecione Pipeline em lote. A página Pipeline Studio é aberta com um pipeline que tem uma origem e uma transformação do Wrangler.
Aplique transformações. Se estiver a usar o plug-in Wrangler na página Studio, converta as transformações do Wrangler num pipeline do Cloud Data Fusion clicando em Aplicar.
Edite receitas
Quando usa o espaço de trabalho do Wrangler para criar uma transformação do Wrangler, depois de adicionar a transformação do Wrangler a um pipeline, recomendamos que use a interface do Wrangler para adicionar ou editar receitas.
Na transformação do Wrangler, se editar manualmente a receita ou adicionar novos passos à receita e as alterações afetarem o esquema de saída, tem de atualizar manualmente o esquema de saída na transformação do Wrangler para corresponder às alterações na receita. Apenas as receitas criadas ou editadas no espaço de trabalho do Wrangler criam e atualizam automaticamente o esquema de saída na transformação do Wrangler.
Para editar uma receita na transformação do Wrangler criada na interface Web do Wrangler, siga estes passos:
- Aceda ao nó Wrangler no pipeline e clique em Propriedades.
- Clique em Wrangle.
- Editar ou adicionar uma nova receita.
- Clique em Aplicar.
O que se segue?
- Saiba mais acerca das diretivas da CLI do Wrangler.