Esta página foi traduzida pela API Cloud Translation.
Switch to English

Como explorar a linhagem de dados

Neste tutorial, mostramos como usar o Cloud Data Fusion para explorar a linhagem de dados: as origens e o movimento dos dados ao longo do tempo.

Linhagem de dados do Cloud Data Fusion

A linhagem de dados do Cloud Data Fusion ajuda você a:

  • detectar a causa raíz de eventos de dados inválidos;
  • realizar uma análise de impacto antes de fazer alterações nos dados.

O Cloud Data Fusion oferece linhagem no nível do conjunto de dados e do campo, além de mostrar a linhagem ao longo do tempo.

  • A linhagem no nível do conjunto de dados mostra a relação entre conjuntos de dados e pipelines em um intervalo de tempo selecionado.

  • A linhagem em nível de campo mostra as operações realizadas em um conjunto de campos no conjunto de dados de origem para produzir um conjunto diferente de campos no conjunto de dados de destino.

Cenário do tutorial

Neste tutorial, você trabalhará com dois pipelines:

  • O pipeline Shipment Data Cleansing lê dados brutos de remessa de um pequeno conjunto de dados de amostra e aplica transformações para limpar os dados.

  • Em seguida, o pipeline Delayed Shipments USA lê os dados de frete limpos, analisa-os e encontra os fretes nos EUA que atrasaram além de um limite.

Esses pipelines de tutorial demonstram um cenário típico em que os dados brutos são limpos e enviados para processamento downstream. Essa trilha de dados brutos para os dados de frete limpos até os resultados da análise pode ser explorada usando o recurso de linhagem do Cloud Data Fusion.

Objetivos

  • Executar pipelines de amostra para produzir linhagem
  • Explorar o conjunto de dados e a linhagem no nível do campo
  • Descobrir como transmitir informações de handshake do pipeline upstream para o pipeline downstream

Custos

Neste tutorial, há componentes faturáveis do Google Cloud, a saber:

  • Cloud Data Fusion
  • Cloud Storage
  • BigQuery

Use a calculadora de preços para gerar uma estimativa de custos baseada na projeção de uso. Novos usuários do Google Cloud podem estar qualificados para uma avaliação gratuita.

Antes de começar

  1. Faça login na sua conta do Google.

    Se você ainda não tiver uma, inscreva-se.

  2. No Console do Google Cloud, na página do seletor de projetos, selecione ou crie um projeto do Google Cloud.

    Acessar a página do seletor de projetos

  3. Verifique se o faturamento está ativado para seu projeto na nuvem. Saiba como confirmar se o faturamento está ativado para o projeto.

  4. Ative as APIs Cloud Data Fusion, Cloud Storage, Dataproc, and BigQuery.

    Ative as APIs

  5. Crie uma instância da edição Enterprise do Cloud Data Fusion.
  6. Clique nos links a seguir para fazer o download desses pequenos conjuntos de dados para sua máquina local:

Abrir a IU do Cloud Data Fusion

Ao usar o Cloud Data Fusion, você usa o Console do Cloud e a IU separada do Cloud Data Fusion. No Console do Cloud, é possível criar um projeto do Console do Cloud e criar e excluir instâncias do Cloud Data Fusion. Na IU do Cloud Data Fusion, é possível usar as várias páginas, como Linhagem, para acessar os recursos do Cloud Data Fusion.

  1. No Console do Cloud, abra a página Instâncias.

    Abrir a página "Instâncias"

  2. Na coluna Ações da instância, clique no link "Visualizar instância". A IU do Cloud Data Fusion será aberta em uma nova guia do navegador.

  3. No painel "Integrar" ou no painel de navegação à esquerda, clique em "Studio" para abrir a página Studio do Cloud Data Fusion.

Implantar e executar pipelines

  1. Importe os dados de frete brutos. Clique em "Importar" no canto superior direito da página Studio (ou clique em + → Pipeline → Importar) e selecione e importe o pipeline de limpeza de dados de frete Antes de começar.

  2. Implante o pipeline. Clique em "Implantar" no canto superior direito da página Studio. Após a implantação, a página Pipeline será aberta.

  3. Execute o canal. Clique em "Executar" na parte superior central da página Pipeline.

  4. Importe, implante e execute os dados e o pipeline de fretes atrasados. Depois que o status da limpeza de dados de frete mostrar "Concluído", aplique as etapas acima aos dados de fretes atrasados nos EUA. Você fez o download deles na etapa Antes de começar. Retorne à página Studio para importar os dados e, em seguida, implante e execute esse segundo canal na página Pipeline. Depois que esse segundo pipeline for concluído, continue executando as etapas restantes abaixo.

Descobrir conjuntos de dados

Você precisa descobrir um conjunto de dados antes de explorar a linhagem. Selecione Metadados no painel de navegação à esquerda da IU do Cloud Data Fusion para abrir a página Pesquisar para metadados. Como o conjunto de limpeza de dados de frete especificou "Cleaned-Shipments" (fretes limpos) como o conjunto de dados de referência, insira "shipment" (frete) na caixa de pesquisa. Os resultados da pesquisa incluem esse conjunto de dados.

Como usar tags para descobrir conjuntos de dados

Uma pesquisa de metadados descobre conjuntos de dados que foram consumidos, processados ou gerados por pipelines do Cloud Data Fusion. Os pipelines são executados em uma estrutura estruturada que gera e coleta metadados técnicos e operacionais. Os metadados técnicos incluem nome, tipo, esquema, campos, hora de criação e processamento do conjunto de dados. Essas informações técnicas são usadas pelos recursos de pesquisa e metadados do Cloud Data Fusion.

O Cloud Data Fusion também é compatível com a anotação de conjuntos de dados com metadados empresariais, como tags e propriedades de chave-valor, que podem ser usados como critérios de pesquisa. Por exemplo, para adicionar e pesquisar uma anotação de tag empresarial no conjunto de dados de frete brutos:

  1. Clique no botão Propriedades do nó "Dados brutos de envio" na página Pipeline de limpeza de dados de envio para abrir a página Propriedades do Cloud Storage.

  2. Clique em Visualizar metadados para abrir a página Pesquisar.

  3. Em Tags empresariais, clique em + e insira um nome de tag (caracteres alfanuméricos e sublinhados são permitidos) e pressione Enter.

Explorar a linhagem

Linhagem no nível do conjunto de dados

Clique no nome do conjunto de dados "Cleaned-Shipments" (Fretes limpos) listado na página "Pesquisa" (em Descobrir conjuntos de dados) e clique na guia "Linhagem". O gráfico de linhagem mostra que esse conjunto de dados foi gerado pelo pipeline Shipments-Data-Cleansing (Limpeza de dados de frete), que consumiu o conjunto de dados brutos.

As setas para a esquerda e para a direita permitem navegar para frente e para trás por qualquer linhagem de conjunto de dados anterior ou subsequente. Neste exemplo, o gráfico exibe a linhagem completa do conjunto de dados de fretes limpos.

Linhagem no nível do campo

A linhagem no nível do campo do Cloud Data Fusion mostra a relação entre os campos de um conjunto de dados e as transformações que foram realizadas em um conjunto de campos para produzir um conjunto diferente de campos. Assim como a linhagem no nível do conjunto de dados, a linhagem no nível do campo é vinculada tempo, e os resultados mudam com o tempo.

Continuando da etapa Linhagem no nível do conjunto de dados, clique no botão "Linhagem no nível do campo" no canto superior direito do gráfico de linhagem no nível do conjunto de dados para exibir o gráfico de linhagem no nível do campo.

O gráfico de linhagem no nível do campo mostra as conexões entre os campos. Selecione um campo para visualizar a respectiva linhagem. Selecione Visualizar → Fixar campo para visualizar somente a linhagem desse campo.

Selecione Visualizar → Visualizar impacto para realizar uma análise de impacto.

Os links de causa e impacto mostram as transformações realizadas em ambos os lados de um campo em um formato de livro contábil legível. Essas informações podem ser essenciais para a geração de relatórios e a governança.

Limpeza

Para evitar cobranças na sua conta do Google Cloud pelos recursos usados neste tutorial, exclua o projeto que contém os recursos ou mantenha o projeto e exclua os recursos individuais.

Depois de concluir o tutorial, é possível limpar os recursos criados no Google Cloud para que eles não consumam sua cota e você não receba cobranças por eles no futuro. Nas seções a seguir, você aprenderá a excluir e desativar esses recursos.

Excluir o conjunto de dados do tutorial

Neste tutorial, criamos um conjunto de dados logistics_demo com várias tabelas no projeto.

É possível excluir o conjunto de dados da IU da Web do BigQuery no Console do Cloud.

Excluir a instância do Cloud Data Fusion

Siga as instruções para excluir a instância do Cloud Data Fusion.

Exclua o projeto

O jeito mais fácil de evitar cobranças é excluir o projeto que você criou para o tutorial.

Para excluir o projeto:

  1. No Console do Cloud, acesse a página Gerenciar recursos:

    Acessar "Gerenciar recursos"

  2. Na lista de projetos, selecione o projeto que você quer excluir e clique em Excluir .
  3. Na caixa de diálogo, digite o ID do projeto e clique em Encerrar para excluí-lo.

A seguir