O Wrangler é uma ferramenta visual de preparação de dados do Cloud Data Fusion Interface do Studio. Ele permite limpar e transformar dados antes de usá-los em pipelines de extração, transformação e carregamento (ETL). O Wrangler aplica transformações em uma amostra dos seus dados em um só lugar (chamado de pré-visualização) antes de executar a lógica em todo o conjunto de dados. Essa visualização ajuda você a aplicar transformações e entender como elas afetam todo o conjunto de dados.
Diretivas do Wrangler
Uma diretiva é uma instrução única usada no Wrangler. Diretivas especificar como manipular os dados, por exemplo, transformar, filtrar ou dinamizar registros individuais.
Os seguintes conceitos estão relacionados a diretivas:
- Roteiro
- Uma receita é um conjunto de diretivas. Ele consiste em uma ou mais diretivas.
- Etapa de transformação
- Uma etapa de transformação é uma implementação de uma diretiva de transformação de dados, operando em um único registro ou conjunto de registros. Uma etapa de transformação pode gerar zero ou mais registros ao aplicar uma diretiva. Wrangler aplica as etapas de transformação na ordem listada no roteiro.
Componentes do Wrangler
As seções a seguir explicam os componentes do Wrangler na o Cloud Data Fusion Studio.
Espaço de trabalho do Wrangler
O espaço de trabalho do Wrangler é uma página na interface do Studio do Cloud Data Fusion em que você analisa, mescla, limpa e transforma conjuntos de dados. Na página Espaço de trabalho, é possível fazer o seguinte:
- Adicione etapas de transformação a uma receita usando o menu suspenso em cada coluna.
- Veja ou exclua etapas de um roteiro selecionando as Etapas de transformação. .
- Para descobrir colunas com campos em branco e outras informações, verifique a barra Qualidade de dados.
- Clique em Mais para conferir o esquema do conjunto de dados.
- Crie um pipeline de dados com um plug-in de origem para o conjunto de dados e a transformação do Wrangler com a receita que contém as etapas de transformação, que são executadas quando o pipeline é executado.
Modo de energia do Wrangler (CLI)
Para especificar diretivas usando a sintaxe declarativa, use o modo de energia (CLI). Está úteis para as seguintes tarefas:
- Usar diretivas que não estão disponíveis na interface do Studio
- Como adicionar diretivas definidas pelo usuário
- Como aplicar uma diretiva a várias colunas
Para usar o modo de potência do Wrangler, insira diretivas na barra preta na parte de baixo da guia Dados do Wrangler.
Guia "Insights" do Wrangler
Use a guia Insights na página do Wrangler para fazer a descoberta de dados. em um conjunto de dados.
Limitações
- O Wrangler é compatível apenas com pipelines de ETL em lote.
- O Wrangler aplica a transformação apenas aos dados de amostra. Esses dados de amostra são limitados aos primeiros 1.000 registros.
- O Wrangler exige que as conexões sejam criadas com a origem. Para mais informações, consulte Criar e gerenciar conexões.
- O Wrangler sempre exige que pelo menos um espaço de trabalho do Wrangler esteja aberto.
- Não é possível clicar no botão Wrangle na transformação do Wrangler.
Navegue até o Wrangler no Cloud Data Fusion
É possível acessar o Wrangler de duas maneiras na interface do Cloud Data Fusion Studio:
- Para abrir o espaço de trabalho do Wrangler do Cloud Data Fusion, Acesse o Studio do Cloud Data Fusion e clique em Wrangler.
- Para configurar as propriedades do Wrangler, acesse o Studio do Cloud Data Fusion. e clique em Studio > Transformações > Wrangler.
Conectar a uma fonte de dados
O Wrangler oferece suporte a várias fontes de dados, como BigQuery, Cloud Storage e bancos de dados externos (com configuração adicional). Para usar o Wrangler, crie uma conexão com a origem.
Para criar a conexão, vá para a lista Conexões e selecione o conexão com a fonte de dados. Para mais informações, consulte Criar e gerenciar conexões.
Analisar e visualizar dados
O Wrangler exibe uma amostra dos seus dados (normalmente 1.000 linhas) para inspeção. Você pode ter uma visão geral do esquema de dados, incluindo tipos de dados e estatísticas básicas.
Aplicar diretivas
O Wrangler oferece diversas diretivas integradas para disposição de dados comuns tarefas.
- Arraste a diretiva escolhida para uma coluna específica ou para a janela de visualização de dados.
- Cada diretiva tem opções de configuração para personalizar o comportamento.
Para mais informações, consulte Diretivas de linha de comando Wrangler.
Visualizar resultados da transformação
À medida que você aplica as diretivas, a janela de visualização de dados é atualizada dinamicamente para refletir as mudanças. Isso permite que você veja o impacto imediato de cada transformação com base nos seus dados.
Refinar e iterar
Para refinar o processo de manipulação de dados, continue adicionando diretivas, modificando configurações e revisando a visualização.
A interface visual do Wrangler ajuda você a testar e garantir que suas transformações produzam o resultado esperado.
Adicionar transformações a um pipeline
Embora o Wrangler não seja uma solução de armazenamento persistente, o Cloud Data Fusion oferece maneiras de capturar sua lógica de manipulação:
Crie um pipeline. No espaço de trabalho do Wrangler, converta suas transformações em um pipeline do Cloud Data Fusion seguindo estas etapas:
- Clique em Criar pipeline.
- Selecione Pipeline em lote. A página do Pipeline Studio é aberta com uma pipeline com uma origem e uma transformação do Wrangler.
Aplicar transformações. Se você estiver usando o plug-in Wrangler na Studio, converta as transformações do Wrangler em uma pipeline do Cloud Data Fusion clicando em Aplicar.
Editar receitas
Quando você usa o espaço de trabalho do Wrangler para criar uma transformação, depois de adicionar a transformação a um pipeline, é recomendável usar a interface do Wrangler para adicionar ou editar receitas.
Na transformação do Wrangler, se você editar manualmente o roteiro ou adicionar novas etapas. para o roteiro e as alterações afetarem o esquema de saída, será preciso atualizar manualmente o esquema de saída na transformação do Wrangler para corresponder às alterações na receita. Somente os roteiros criados ou editados no espaço de trabalho do Wrangler criar e atualizar automaticamente o esquema de saída na transformação do Wrangler.
Editar um roteiro na transformação do Wrangler que foi criado no Wrangler do Google, siga estas etapas:
- Acesse o nó do Wrangler no pipeline e clique em Propriedades.
- Clique em Wrangle.
- Edite ou adicione uma nova receita.
- Clique em Aplicar.
A seguir
- Saiba mais sobre as diretivas da CLI do Wrangler.