Linhagem de dados do Cloud Data Fusion
É possível usar a linhagem de dados do Cloud Data Fusion para:
Detectar a causa raiz de eventos de dados inválidos.
Realize uma análise de impacto antes de fazer alterações nos dados.
Recomendamos usar a integração da linhagem de recursos no Dataplex. Para mais Para mais informações, consulte Visualizar linhagem no Dataplex.
Também é possível visualizar a linhagem nos níveis do conjunto de dados e do campo na o Cloud Data Fusion Studio usando a opção Metadados, que mostra linhagem para um período selecionado.
A linhagem no nível do conjunto de dados mostra a relação entre conjuntos de dados e pipelines.
A linhagem em nível de campo mostra as operações realizadas em um conjunto de campos no conjunto de dados de origem para produzir um conjunto diferente de campos no conjunto de dados de destino.
Do Cloud Data Fusion 6.9.2.4 em diante, se você não rastrear a linhagem
no Cloud Data Fusion, recomendamos desativar a linhagem em nível de campo
emissão de carbono na instância usando o
patch
:
curl -X PATCH -H 'Content-Type: application/json' -H "Authorization: Bearer
$(gcloud auth print-access-token)"
'https://datafusion.googleapis.com/v1beta1/projects/PROJECT_ID/locations/REGION/instances/INSTANCE_ID?updateMask=options'
-d '{ "options": { "metadata.messaging.field.lineage.emission.enabled": "false" } }'
Substitua:
PROJECT_ID
: o ID do projeto do Google CloudREGION
: o local do projeto do Google CloudINSTANCE_ID
: o ID da instância do Cloud Data Fusion
Cenário do tutorial
Neste tutorial, você trabalhará com dois pipelines:
O pipeline
Shipment Data Cleansing
lê dados brutos de remessa de um pequeno conjunto de dados de amostra e aplica transformações para limpar os dados.Em seguida, o pipeline
Delayed Shipments USA
lê os dados de frete limpos, analisa-os e encontra os fretes nos EUA que atrasaram além de um limite.
Esses pipelines de tutorial demonstram um cenário típico em que os dados brutos são limpos e enviados para processamento downstream. Essa trilha de dados brutos para os dados de frete limpos até os resultados da análise pode ser explorada usando o recurso de linhagem do Cloud Data Fusion.
Objetivos
- Produzir linhagem executando pipelines de amostra
- Explorar o conjunto de dados e a linhagem no nível do campo
- Descobrir como transmitir informações de handshake do pipeline upstream para o pipeline downstream
Custos
Neste documento, você usará os seguintes componentes faturáveis do Google Cloud:
- Cloud Data Fusion
- Cloud Storage
- BigQuery
Para gerar uma estimativa de custo baseada na projeção de uso deste tutorial, use a calculadora de preços.
Antes de começar
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Cloud Data Fusion, Cloud Storage, Dataproc, and BigQuery APIs.
- Crie uma instância do Cloud Data Fusion.
- Clique nos links a seguir para fazer o download desses pequenos conjuntos de dados para sua máquina local:
Abrir a IU do Cloud Data Fusion
Ao usar o Cloud Data Fusion, você usa o console do Google Cloud e a interface separada do Cloud Data Fusion. No console do Google Cloud, é possível criar um projeto do console do Google Cloud e criar e excluir instâncias do Cloud Data Fusion. Na IU do Cloud Data Fusion, é possível usar as várias páginas, como Linhagem, para acessar os recursos do Cloud Data Fusion.
No console do Google Cloud, abra a página Instâncias.
Na coluna Ações da instância, clique no link "Visualizar instância". A IU do Cloud Data Fusion será aberta em uma nova guia do navegador.
No painel Integrar, clique em Studio para abrir a página Studio do Cloud Data Fusion.
Implantar e executar pipelines
Importe os dados de frete brutos. Na página do Studio, clique em Importar ou Clique em + > Pipeline > Import e depois selecione e importe o pacote de envio. O pipeline de limpeza de dados que você baixou em Antes de começar.
Implante o pipeline. Clique em "Implantar" no canto superior direito da página Studio. Após a implantação, a página Pipeline será aberta.
Execute o canal. Clique em "Executar" na parte superior central da página Pipeline.
Importe, implante e execute os dados e o pipeline de fretes atrasados. Depois que o status "Limpeza dos dados de frete" for Concluído, aplique o etapas anteriores aos dados de Delayed Shipments USA que que você fez o download em Antes de começar. Voltar para Studio para importar os dados e, em seguida, implantar e executar esse segundo pipeline na página Pipeline. Depois que o segundo pipeline for concluído, prossiga com as etapas restantes.
Descobrir conjuntos de dados
Você precisa descobrir um conjunto de dados antes de explorar a linhagem. Selecione Metadados no painel de navegação à esquerda da IU do Cloud Data Fusion para abrir a página Pesquisar para metadados. Como o conjunto de dados de limpeza de dados de envio especificado Cleaned-Shipments como o conjunto de dados de referência, insira shipment na coluna Pesquisar caixa Os resultados da pesquisa incluem esse conjunto de dados.
Como usar tags para descobrir conjuntos de dados
Uma pesquisa de metadados descobre conjuntos de dados que foram consumidos, processados ou gerados por pipelines do Cloud Data Fusion. Os pipelines são executados em uma estrutura estruturada que gera e coleta metadados técnicos e operacionais. Os metadados técnicos incluem nome, tipo, esquema, campos, hora de criação e processamento do conjunto de dados. Essas informações técnicas são usadas pelos recursos de pesquisa e metadados do Cloud Data Fusion.
O Cloud Data Fusion também é compatível com a anotação de conjuntos de dados com metadados empresariais, como tags e propriedades de chave-valor, que podem ser usados como critérios de pesquisa. Por exemplo, para adicionar e pesquisar uma anotação de tag empresarial no conjunto de dados de frete brutos:
Clique no botão Propriedades do nó "Dados brutos de envio" na página Pipeline de limpeza de dados de envio para abrir a página Propriedades do Cloud Storage.
Clique em Visualizar metadados para abrir a página Pesquisar.
Em Tags empresariais, clique em + e insira um nome de tag (caracteres alfanuméricos e sublinhados são permitidos) e pressione Enter.
Explorar a linhagem
Linhagem no nível do conjunto de dados
Clique no nome do conjunto de dados "Cleaned-Shipments" listado na página "Pesquisa" (em Descobrir conjuntos de dados) e clique na guia "Linhagem". O gráfico de linhagem mostra que esse conjunto de dados foi gerado pelo pipeline Shipments-Data-Cleansing (Limpeza de dados de frete), que consumiu o conjunto de dados brutos.
As setas para a esquerda e para a direita permitem navegar para frente e para trás por qualquer linhagem de conjunto de dados anterior ou subsequente. Neste exemplo, o gráfico exibe a linhagem completa do conjunto de dados de fretes limpos.
Linhagem no nível do campo
A linhagem no nível do campo do Cloud Data Fusion mostra a relação entre os campos de um conjunto de dados e as transformações que foram realizadas em um conjunto de campos para produzir um conjunto diferente de campos. Assim como a linhagem no nível do conjunto de dados, a linhagem no nível do campo é vinculada tempo, e os resultados mudam com o tempo.
Continuando da etapa Linhagem no nível do conjunto de dados, clique no botão "Linhagem no nível do campo" no canto superior direito do gráfico de linhagem no nível do conjunto de dados para exibir o gráfico de linhagem no nível do campo.
O gráfico de linhagem no nível do campo mostra as conexões entre os campos. Selecione um campo para visualizar a respectiva linhagem. Selecione Visualizar > Fixar campo para ver a linhagem apenas desse campo.
Selecione Visualizar > Mostrar impacto para fazer uma análise.
Os links de causa e impacto mostram as transformações realizadas em ambos os lados de um campo em um formato de livro contábil legível. Essas informações podem ser essenciais para a geração de relatórios e a governança.
Limpar
Para evitar cobranças na sua conta do Google Cloud pelos recursos usados no tutorial, exclua o projeto que os contém ou mantenha o projeto e exclua os recursos individuais.
Depois de concluir o tutorial, é possível limpar os recursos criados no Google Cloud para que eles não consumam sua cota e você não receba cobranças por eles no futuro. Nas seções a seguir, você aprenderá a excluir e desativar esses recursos.
Excluir o conjunto de dados do tutorial
Neste tutorial, criamos um conjunto de dados logistics_demo
com várias tabelas no projeto.
É possível excluir o conjunto de dados na interface da Web do BigQuery no console do Google Cloud.
Excluir a instância do Cloud Data Fusion
Siga as instruções para excluir a instância do Cloud Data Fusion.
Exclua o projeto
O jeito mais fácil de evitar cobranças é excluindo o projeto que você criou para o tutorial.
Para excluir o projeto:
- In the Google Cloud console, go to the Manage resources page.
- In the project list, select the project that you want to delete, and then click Delete.
- In the dialog, type the project ID, and then click Shut down to delete the project.
A seguir
- Leia os guias de instruções.
- Veja outro tutorial