A linhagem de dados é um Dataplex. que permite acompanhar como os dados se movem pelos sistemas: de onde eles vêm de onde é passado e quais transformações são aplicadas a ele.
Por que você precisa de linhagem de dados?
Lidar com grandes conjuntos de dados geralmente envolve transformar dados em entidades adaptadas às necessidades de um projeto específico: arquivos de texto, tabelas, relatórios, painéis e modelos.
Por exemplo, imagine que você tem uma loja on-line em que registra cada compra em uma única tabela SQL. Para facilitar o trabalho dos analistas com os dados, você começa a executar jobs que extraem informações dessa tabela única e crie tabelas menores por região, marca ou preço promocional. Seus analistas começam a fazer o mesmo: eles realizam outras transformações, mesclando essas tabelas menores com outras fontes de dados para produzir ainda mais tabelas.
Isso pode se tornar um grande desafio para as partes interessadas:
- Os consumidores de dados não podem usar uma ferramenta de autoatendimento para entender se os dados vêm de uma fonte confiável.
- Os engenheiros de dados não conseguem identificar a causa dos problemas devido à falta de uma forma confiável para rastrear todas as transformações de dados.
- Os engenheiros e analistas de dados não conseguem avaliar totalmente o possível impacto antes modificar ou excluir tabelas.
- Os controladores de dados não entendem como os dados sensíveis são usados da organização e garantir a adesão aos requisitos regulatórios.
A linhagem de dados é uma solução que oferece uma maneira prática de:
- Entenda como os dados são extraídos e transformados com a ajuda das visualizações do gráfico de linhagem.
- Rastrear erros relacionados a entradas e operações de dados de volta à raiz causas.
- Melhore a gestão da mudança por meio da análise de impacto: evite tempo de inatividade ou erros inesperados, compreender entradas dependentes e colaborar com partes interessadas relevantes.
Modelo de informações de linhagem de dados
Na forma básica, a linhagem é um registro de dados transformados de origens em destinos. A API Data Lineage coleta essas informações e os organiza em um modelo de dados hierárquico usando os conceitos de processos, corridas e eventos.
Processo
Um processo é a definição de uma operação de transformação de dados compatível com
um sistema específico. No contexto da linhagem do BigQuery,
um process
é um dos tipos de job compatíveis;
Executar
Uma execução é a realização de um processo. Os processos podem ter várias execuções.
As execuções contêm detalhes como horários de início e término, estado ou outros atributos.
Para mais informações, consulte a
referência de recurso run
.
Evento
Um evento representa um momento no tempo em que ocorreu uma operação de transformação de dados e resultou na movimentação de dados entre uma entidade de origem e uma de destino.
Os eventos contêm uma lista de links que definem qual entrada foi a origem e qual foi o destino em um evento específico. Embora os eventos sejam usados para calcular gráficos de visualização de linhagem, eles não são expostos diretamente no console do Google Cloud. É possível criar, ler e excluir (mas não atualizar) usando a API Data Lineage.
Exemplo
Considere o seguinte exemplo em que os dados são copiados entre o BigQuery tabelas:
A forma como os dados são transferidos entre as tabelas é descrita pelo processo de linhagem, representado no gráfico pelo ícone . Pode ser uma consulta SQL CREATE TABLE AS SELECT
ou uma instrução INSERT
.
Cada execução dessa instrução SQL constitui uma execução individual.
As execuções contêm eventos, que registram quais tabelas foram usadas como origens e
que são os alvos. Neste exemplo, as tabelas
customer_year
e customers
são a origem
para a tabela de destino top_customer
.
Gráfico de visualização da linhagem
Os gráficos de linhagem representam informações coletadas pela API Data Lineage para uma entrada específica do Data Catalog. Raiz se refere à entrada que você está visualizando a linhagem.
O Dataplex funciona com a API Data Lineage para identificar entradas cujo nome totalmente qualificado corresponde a entidades reconhecidas pela linhagem de dados. Para entradas correspondentes do Dataplex, é possível acessar a seção Linhagem na página de detalhes e exibir o gráfico.
Os gráficos de linhagem mostram dois tipos de elementos:
Botões amplos e retangulares que representam entidades envolvidas na construção informações de linhagem como origens ou alvos de um evento de linhagem.
Botões quadrados menores que representam processos responsáveis pela criação ou atualizar as entidades de origem ou de destino. Os botões de processo usam ícones específicos do sistema de origem que os informou à API Data Lineage. Por exemplo, os jobs do BigQuery usam o ícone .
Visualização em lista de linhagem
A visualização em lista de linhagem mostra informações detalhadas da linhagem das entidades em uma uma única tabela.
Comparado com o gráfico de visualização de linhagem, que é melhor para visualização gráficos de linhagem relativamente pequenos, a visualização em lista de linhagem permite visualizar para entidades com muitas conexões.
A imagem a seguir mostra um exemplo da visualização de lista de linhagens no console do Google Cloud. A lista a seguir descreve a imagem com mais detalhes.
Cada linha na tabela representa um único link de linhagem entre duas entradas. No gráfico, esses nomes são representados como os links de linhagem entre duas entradas, incluindo todos os nós de processo entre elas. Por exemplo,
Source
eTarget
são nós de recursos, com possivelmente vários nós de processo no meio.A opção Direção especifica a parte do fluxo de dados a ser exibida na em relação ao recurso raiz:
Upstream: exibe informações de linhagem para entradas que são fontes de dados. para a entrada selecionada. No gráfico de linhagem, essas entradas são as entradas que aparecem à esquerda da entrada selecionada.
Downstream: exibe informações de linhagem para entradas que usam ou são derivados da entrada selecionada. No gráfico de linhagem, essas entradas são que aparecem à direita da entrada selecionada.
A opção Período permite filtrar informações de linhagem com base no momento em que ela ocorreu:
Horário de início: mostra a linhagem que ocorreu após o horário de início.
Horário de término: exibe a linhagem que ocorreu antes do horário de término.
Profundidade refere-se a quanto falta do recurso raiz, uma origem ou o recurso derivado é. A visualização em lista mostra até 1.000 links de linhagem, com a profundidade máxima a partir da raiz como 10 links de linhagem. Se houver linhagem fora desse intervalo, você vai receber uma notificação. É possível conferir a linhagem fora desse intervalo selecione o nome de outra entidade na visualização em lista.
O painel Detalhes mostra informações sobre a origem do link, o destino do link e todos os processos que o criaram.
É possível personalizar as colunas que aparecem na tabela e filtrar os resultados. Também é possível exportar os resultados para um arquivo CSV.
Rastreamento automatizado de linhagem de dados
Quando você ativa a API Data Lineage, os sistemas do Google Cloud que dão suporte a linhagem de dados começam a informar a movimentação deles. Cada sistema integrado pode enviar informações de linhagem para em um intervalo diferente de fontes de dados. Consulte as seções a seguir para mais detalhes sobre todos os produtos com suporte.
BigQuery
Quando você ativa a linhagem de dados no projeto do BigQuery, O Dataplex para registrar automaticamente informações de linhagem para:
- Novas tabelas como resultado dos seguintes jobs do BigQuery:
- Jobs de cópia
- Jobs de carga que usam o URI do Cloud Storage para carregar dados em qualquer formato permitido do Cloud Storage*
- Jobs de consulta que usam os dados a seguir Linguagem de definição de dados (DDL, na sigla em inglês) no SQL padrão do Google:
- Tabelas existentes como resultado do uso da seguinte manipulação de dados
de linguagem natural (DML) no SQL padrão do Google:
- SELECIONAR em relação a qualquer um dos tipos de tabela listados:
- INSERIR SELEÇÃO
- MESCLAR
- ATUALIZAR
- EXCLUIR
Os jobs de cópia, consulta e carregamento do BigQuery são representados como processos (clique no ícone do vidro no gráfico de visualização de linhagem para conferir detalhes). Cada processo contém o job_id do BigQuery no atributos lista para o job mais recente do BigQuery.
Outros serviços
A linhagem de dados oferece suporte à integração com os seguintes Serviços do Google Cloud:
Linhagem de dados para origens de dados personalizadas
É possível usar a API Data Lineage no Dataplex para registrar informações de linhagem manualmente em qualquer fonte de dados que não tenha suporte dos sistemas integrados.
O Dataplex pode criar gráficos de visualização para
linhagem se você usar uma
fullyQualifiedNames
que correspondam ao
nomes qualificados de entradas atuais do Data Catalog. Se você quiser registrar a linhagem de uma origem de dados personalizada, primeiro crie uma entrada personalizada do Data Catalog.
Cada processo de origem de dados personalizada pode conter a chave sql
nos atributos
lista. O valor dessa chave será usado para renderizar o destaque do código em detalhes
do gráfico de linhagem de dados. instrução SQL será exibida como estava
fornecidas. O usuário é responsável por filtrar informações sensíveis. O
O nome da chave sql
diferencia maiúsculas de minúsculas.
OpenLineage
Se você já usa o OpenLineage para coletar informações de linhagem de outros fontes de dados, é possível importar eventos do OpenLineage para o Dataplex e exibir esses eventos no console do Google Cloud. Para mais detalhes, consulte Integrar com o OpenLineage.
Limitações
- Todas as informações de linhagem são retidas no sistema por apenas 30 dias.
- As informações de linhagem persistem depois que você remove a fonte de dados relacionada. Ou seja, se você remover uma tabela do BigQuery e o Data Catalog dela entrada, ainda poderá ler a linhagem da tabela usando a API por até 30 dias.
Acessar a linhagem de dados
É possível acessar as funcionalidades de linhagem de dados usando:
- Páginas de detalhes de entrada na interface do Dataplex no console do Google Cloud Consulte Acessar gráficos de linhagem.
- Página de detalhes da tabela na interface do BigQuery no console do Google Cloud. Consulte Ver gráficos de linhagem.
- Páginas de registro de modelos e de conjuntos de dados na interface da Vertex AI no console do Google Cloud. Consulte Ver gráficos de linhagem.
- API Data Lineage
Preços
O Dataplex usa a SKU de processamento premium para cobrar pela linhagem de dados. Para saber mais informações, consulte Preços.
Para separar as cobranças de linhagem de dados de outras cobranças na SKU de processamento premium do Dataplex, no relatório do Cloud Billing, use o rótulo
goog-dataplex-workload-type
com o valorLINEAGE
.Se você chamar a API Data Lineage
Origin
sourceType
com um valor diferente deCUSTOM
, isso poderá gerar custos adicionais.
A seguir
Saiba como rastrear a linhagem de dados de um job de consulta e cópia de tabelas do BigQuery.
Aprenda a usar a linhagem de dados com os sistemas do Google Cloud.
Para informações administrativas, consulte seções atualizadas do IAM, considerações de linhagem e registros de auditoria de linhagem de dados.