什么是数据沿袭?

数据沿袭就像是企业信息的 GPS,可以绘制信息的完整历程,显示信息的来源、去向以及沿途所经历的所有步骤。通过跟踪这一历程,组织可以建立对数据的信任,并将其用于关键决策。

数据沿袭的定义

数据沿袭是数据生命周期的地图,展示了数据的来源、数据随时间推移如何发生移动和转换,以及数据当前所在的位置。它提供了清晰的审核跟踪记录,可用于理解、跟踪和验证数据。

这一全面视图包括源系统、应用的所有转换(如计算、聚合或过滤)以及使用数据的目标位置,例如报告、信息中心或其他应用。您可以将其视为公司所使用的每条信息的详细家谱。

数据沿袭与数据来源的对比

数据沿袭和数据来源通常一起使用,但它们侧重于数据历程的不同方面。

  • 数据沿袭从宏观、历史和战略角度审视数据的历程。它侧重于导致数据资产当前状态的完整路径和转换逻辑,是一个全景式地图。
  • 数据来源更加精细和具体,通常关注特定数据点或特定时间点的记录的直接来源和所有权。它通常用于验证一段数据的来源。

简而言之,沿袭展示的是数据随时间推移以及跨系统的整个演变过程,而来源通常侧重于特定数据元素的来源和真实性。

数据沿袭的运作方式

过去,捕获数据沿袭是一个困难的过程,主要依靠人工完成,但现代云解决方案有助于实现高度自动化。核心概念是观察数据在基础设施中的移动和变化方式,然后创建可跟踪的可视化记录。

现代数据平台使用解析和监控等技术来自动发现和映射数据传输。

  • 解析:平台可以读取和理解用 SQL 等语言编写的转换逻辑。通过读取查询(例如在 BigQuery 作业中),系统可以了解哪些源表和列用于创建新的派生表。
  • 监控:平台会监控数据在不同服务之间的移动(例如从数据仓库数据湖或流式传输流水线)。

数据沿袭 API 是其中的一项关键技术。它允许不同的系统和工具向中央目录报告其数据使用情况。例如,数据集成工具可以使用该 API 告诉中央系统:“我刚刚将数据从表 A 移动到表 B,并执行了汇总。”这样无需人工干预,即可近乎实时地准确记录数据的移动情况。

虽然自动捕获是理想的方法,但它可能无法涵盖组织旧版系统或自定义系统的所有部分。对于这些情况,用户可能需要依赖手动元数据标记或自定义报告。这涉及主题专家记录数据流,并在中央目录中将它们关联起来。虽然效率较低,但有时需要这样做才能完成端到端视图。

捕获沿袭信息后,会通过可视化工具(通常是网页界面)呈现给用户。该工具可将复杂的元数据转换为更易于阅读的交互式图表或图示。用户可以点击报告或表格,立即查看每个上游来源和下游使用者的流程图,从而像在地图上跟踪路线一样轻松了解数据的历程。

数据沿袭图的关键组成部分

好的数据沿袭地图可以帮助您快速回答任何数据资产的相关问题,包括“谁、什么、何时、何地和为什么”。跟踪的基本组成部分包括:

  • 来源:数据的来源,例如事务型数据库、文件或外部系统
  • 转换逻辑:应用于数据的具体操作或业务规则;可能包括 SQL 查询、Python 脚本或 ETL(提取、转换、加载)作业逻辑
  • 路径/流:数据所经过的系统、流程和数据存储区的顺序
  • 时间/版本:数据的处理时间,以及所使用的数据版本或转换逻辑
  • 目标/使用者:数据最终所处的位置,以及使用数据的人或东西,例如监管报告或机器

数据沿袭的优势

数据沿袭不仅仅是一项技术工作,它还可以帮助组织改进数据的管理和信任方式,从而创造实实在在的业务价值。

增强数据治理和合规性

数据沿袭有助于组织准确证明创建敏感报告时使用了哪些数据源,GDPR、CCPA 或 HIPAA 等监管合规性通常对此有要求。

更快地分析数据质量问题的根本原因

借助沿袭,技术团队可以快速地对有错误的数据点进行溯源,跨越多个转换和系统,找到引入错误的确切来源。

增强对系统更改的影响分析

数据沿袭可提供即时影响分析。通过从所建议的更改向前追溯,团队可以查看依赖该数据的每个报告、信息中心或应用,从而评估风险并在更改造成任何破坏之前通知数据使用者。

提升数据资产的可信度

当用户可以轻松验证所用数据的来源和转换步骤时,他们对该数据的信任会大幅提升。这有助于做出更多以数据为依据的决策,因为人们不会质疑底层信息的质量或可靠性。

从数据到 AI 的沿袭

数据沿袭还可以帮助分析 AI 模型的根本原因。如果部署的模型开始出现漂移(性能下降)或生成有偏见的预测,沿袭可让数据科学家快速追溯到源头。

常见的数据沿袭类型

数据沿袭可以在数据开发生命周期的不同阶段进行跟踪,并且可以根据需要跟踪不同级别的详细信息。

设计时沿袭

设计时沿袭会在开发和测试环境中设计和配置数据流时捕获数据流。它基于对数据流水线蓝图的读取,例如架构、脚本和 ETL 作业配置。它会告诉您数据应该会发生什么。

运行时沿袭

运行时沿袭会捕获生产环境中实际发生的数据流。它记录已执行作业和流程的具体输入和输出。它会告诉您数据发生了什么,包括任何意外行为或错误。对于数据治理,运行时沿袭通常被认为更有价值,因为它反映了真实情况。

精细的沿袭级别

所捕获的信息详细程度称为粒度。组织可以根据数据治理需求和环境的技术复杂性来选择粒度级别。

  • 表级:跟踪数据在整个表或数据集之间的流向;显示“客户表 A”流入“销售报告表 B”
  • 示例:系统显示整个 raw_transactions 表已加载到 daily_aggregations 表中
  • 列级:跟踪数据从源列到目标列的流向,包括所应用的转换;这通常是满足合规性所必需的
  • 示例:它跟踪源数据库中的 customer_id 列在数据仓库中重命名为 user_key,然后用作联接的一部分来创建 final_report
  • 报告级:跟踪哪些报告、信息中心或应用使用了哪些表和列;这对于影响分析和业务用户信任至关重要
  • 示例:业务分析师可以将高管销售信息中心内的指标追溯到用于计算该指标的特定列和表
  • 端到端:提供跨所有系统的完整视图,从初始源应用(如 CRM)到所有暂存、清理和转换步骤,再到最终报告或机器学习模型
  • 示例:跟踪单个客户的历程,从首次注册(在 Web 应用数据库中捕获)到使用情况,汇总在流失预测模型输出中

利用 Google Cloud 解决业务难题

新客户可获得 $300 赠金,用于抵扣 Google Cloud 的费用。

更进一步

获享 $300 赠金以及 20 多种提供“始终免费”用量的产品,开始在 Google Cloud 上构建项目。