Como explorar a linhagem de dados


Neste tutorial, mostramos como usar o Cloud Data Fusion para explorar a linhagem de dados: as origens e o movimento dos dados ao longo do tempo.

Para mais informações sobre a integração da linhagem de recursos do Data Catalog, consulte Visualizar a linhagem no Dataplex.

Linhagem de dados do Cloud Data Fusion

É possível usar a linhagem de dados do Cloud Data Fusion para fazer o seguinte:

  • Detecta a causa raiz de eventos de dados inválidos.

  • Realize uma análise de impacto antes de fazer alterações nos dados.

O Cloud Data Fusion oferece linhagem no nível do conjunto de dados e do campo, além de mostrar a linhagem ao longo do tempo.

  • A linhagem no nível do conjunto de dados mostra a relação entre conjuntos de dados e pipelines em um intervalo de tempo selecionado.

  • A linhagem em nível de campo mostra as operações realizadas em um conjunto de campos no conjunto de dados de origem para produzir um conjunto diferente de campos no conjunto de dados de destino.

Cenário do tutorial

Neste tutorial, você trabalhará com dois pipelines:

  • O pipeline Shipment Data Cleansing lê dados brutos de remessa de um pequeno conjunto de dados de amostra e aplica transformações para limpar os dados.

  • Em seguida, o pipeline Delayed Shipments USA lê os dados de frete limpos, analisa-os e encontra os fretes nos EUA que atrasaram além de um limite.

Esses pipelines de tutorial demonstram um cenário típico em que os dados brutos são limpos e enviados para processamento downstream. Essa trilha de dados brutos para os dados de frete limpos até os resultados da análise pode ser explorada usando o recurso de linhagem do Cloud Data Fusion.

Objetivos

  • Produza linhagem executando pipelines de amostra
  • Explorar o conjunto de dados e a linhagem no nível do campo
  • Descobrir como transmitir informações de handshake do pipeline upstream para o pipeline downstream

Custos

Neste documento, você usará os seguintes componentes faturáveis do Google Cloud:

  • Cloud Data Fusion
  • Cloud Storage
  • BigQuery

Para gerar uma estimativa de custo baseada na projeção de uso deste tutorial, use a calculadora de preços. Novos usuários do Google Cloud podem estar qualificados para uma avaliação gratuita.

Antes de começar

  1. Faça login na sua conta do Google Cloud. Se você começou a usar o Google Cloud agora, crie uma conta para avaliar o desempenho de nossos produtos em situações reais. Clientes novos também recebem US$ 300 em créditos para executar, testar e implantar cargas de trabalho.
  2. No console do Google Cloud, na página do seletor de projetos, selecione ou crie um projeto do Google Cloud.

    Acessar o seletor de projetos

  3. Verifique se a cobrança está ativada para o seu projeto do Google Cloud.

  4. No console do Google Cloud, na página do seletor de projetos, selecione ou crie um projeto do Google Cloud.

    Acessar o seletor de projetos

  5. Verifique se a cobrança está ativada para o seu projeto do Google Cloud.

  6. Ative as APIs Cloud Data Fusion, Cloud Storage, Dataproc, and BigQuery.

    Ative as APIs

  7. Crie uma instância do Cloud Data Fusion.
  8. Clique nos links abaixo para fazer o download desses pequenos conjuntos de dados de amostra na sua máquina local:

Abrir a IU do Cloud Data Fusion

Ao usar o Cloud Data Fusion, você usa o console do Google Cloud e a IU separada do Cloud Data Fusion. No console do Google Cloud, é possível criar um projeto do console do Google Cloud, além de criar e excluir instâncias do Cloud Data Fusion. Na IU do Cloud Data Fusion, é possível usar as várias páginas, como Linhagem, para acessar os recursos do Cloud Data Fusion.

  1. No console do Google Cloud, abra a página Instâncias.

    Abrir a página "Instâncias"

  2. Na coluna Ações da instância, clique no link "Visualizar instância". A IU do Cloud Data Fusion será aberta em uma nova guia do navegador.

  3. No painel Integrar, clique em Studio para abrir a página Studio do Cloud Data Fusion.

Implantar e executar pipelines

  1. Importe os dados de frete brutos. Na página Studio, clique em Import ou em + > Pipeline > Import e selecione e importe o pipeline de limpeza de dados de envio salvo em Antes de começar.

  2. Implante o pipeline. Clique em "Implantar" no canto superior direito da página Studio. Após a implantação, a página Pipeline será aberta.

  3. Execute o canal. Clique em "Executar" na parte superior central da página Pipeline.

  4. Importe, implante e execute os dados e o pipeline de fretes atrasados. Depois que o status da limpeza de dados de frete mostrar Succeeded, aplique as etapas anteriores aos dados de fretes atrasados dos EUA que você salvou na seção Antes de começar. Volte à página do Studio para importar os dados e, em seguida, implante e execute este segundo pipeline na página Pipeline. Depois que o segundo pipeline for concluído, siga as etapas restantes.

Descobrir conjuntos de dados

Você precisa descobrir um conjunto de dados antes de explorar a linhagem. Selecione Metadados no painel de navegação à esquerda da IU do Cloud Data Fusion para abrir a página Pesquisar para metadados. Como o conjunto de dados de limpeza de dados de frete especificou Cleaned-Shipments como o conjunto de dados de referência, insira shipment na caixa de pesquisa. Os resultados da pesquisa incluem esse conjunto de dados.

Como usar tags para descobrir conjuntos de dados

Uma pesquisa de metadados descobre conjuntos de dados que foram consumidos, processados ou gerados por pipelines do Cloud Data Fusion. Os pipelines são executados em uma estrutura estruturada que gera e coleta metadados técnicos e operacionais. Os metadados técnicos incluem nome, tipo, esquema, campos, hora de criação e processamento do conjunto de dados. Essas informações técnicas são usadas pelos recursos de pesquisa e metadados do Cloud Data Fusion.

O Cloud Data Fusion também é compatível com a anotação de conjuntos de dados com metadados empresariais, como tags e propriedades de chave-valor, que podem ser usados como critérios de pesquisa. Por exemplo, para adicionar e pesquisar uma anotação de tag empresarial no conjunto de dados de frete brutos:

  1. Clique no botão Propriedades do nó "Dados brutos de envio" na página Pipeline de limpeza de dados de envio para abrir a página Propriedades do Cloud Storage.

  2. Clique em Visualizar metadados para abrir a página Pesquisar.

  3. Em Tags comerciais, clique em + e insira o nome da tag (caracteres alfanuméricos e sublinhado são permitidos) e pressione Enter.

Explorar a linhagem

Linhagem no nível do conjunto de dados

Clique no nome do conjunto de dados Cleaned-Shipments listado na página Pesquisar (em Descobrir conjuntos de dados) e, em seguida, clique na guia Linhagem. O gráfico de linhagem mostra que esse conjunto de dados foi gerado pelo pipeline Shipments-Data-Cleansing (Limpeza de dados de frete), que consumiu o conjunto de dados brutos.

As setas para a esquerda e para a direita permitem navegar para frente e para trás por qualquer linhagem de conjunto de dados anterior ou subsequente. Neste exemplo, o gráfico exibe a linhagem completa do conjunto de dados de fretes limpos.

Linhagem no nível do campo

A linhagem no nível do campo do Cloud Data Fusion mostra a relação entre os campos de um conjunto de dados e as transformações que foram realizadas em um conjunto de campos para produzir um conjunto diferente de campos. Assim como a linhagem no nível do conjunto de dados, a linhagem no nível do campo é vinculada tempo, e os resultados mudam com o tempo.

Continuando da etapa Linhagem no nível do conjunto de dados, clique no botão "Linhagem no nível do campo" no canto superior direito do gráfico de linhagem no nível do conjunto de dados para exibir o gráfico de linhagem no nível do campo.

O gráfico de linhagem no nível do campo mostra as conexões entre os campos. Selecione um campo para visualizar a respectiva linhagem. Selecione Visualizar > Fixar campo para visualizar apenas a linhagem desse campo.

Selecione Visualizar > Ver o impacto para fazer uma análise de impacto.

Os links de causa e impacto mostram as transformações realizadas em ambos os lados de um campo em um formato de livro contábil legível. Essas informações podem ser essenciais para a geração de relatórios e a governança.

Limpar

Para evitar cobranças na sua conta do Google Cloud pelos recursos usados no tutorial, exclua o projeto que os contém ou mantenha o projeto e exclua os recursos individuais.

Depois de concluir o tutorial, é possível limpar os recursos criados no Google Cloud para que eles não consumam sua cota e você não receba cobranças por eles no futuro. Nas seções a seguir, você aprenderá a excluir e desativar esses recursos.

Excluir o conjunto de dados do tutorial

Neste tutorial, criamos um conjunto de dados logistics_demo com várias tabelas no projeto.

É possível excluir o conjunto de dados na interface da Web do BigQuery no console do Google Cloud.

Excluir a instância do Cloud Data Fusion

Siga as instruções para excluir sua instância do Cloud Data Fusion.

Excluir o projeto

O jeito mais fácil de evitar cobranças é excluindo o projeto que você criou para o tutorial.

Para excluir o projeto, faça o seguinte:

  1. No Console do Google Cloud, acesse a página Gerenciar recursos.

    Acessar "Gerenciar recursos"

  2. Na lista de projetos, selecione o projeto que você quer excluir e clique em Excluir .
  3. Na caixa de diálogo, digite o ID do projeto e clique em Encerrar para excluí-lo.

A seguir