数据沿袭是数据生命周期的地图,展示了数据的来源、数据随时间推移如何发生移动和转换,以及数据当前所在的位置。它提供了清晰的审核跟踪记录,可用于理解、跟踪和验证数据。
这一全面视图包括源系统、应用的所有转换(如计算、聚合或过滤)以及使用数据的目标位置,例如报告、信息中心或其他应用。您可以将其视为公司所使用的每条信息的详细家谱。
数据沿袭和数据来源通常一起使用,但它们侧重于数据历程的不同方面。
简而言之,沿袭展示的是数据随时间推移以及跨系统的整个演变过程,而来源通常侧重于特定数据元素的来源和真实性。
过去,捕获数据沿袭是一个困难的过程,主要依靠人工完成,但现代云解决方案有助于实现高度自动化。核心概念是观察数据在基础设施中的移动和变化方式,然后创建可跟踪的可视化记录。
虽然自动捕获是理想的方法,但它可能无法涵盖组织旧版系统或自定义系统的所有部分。对于这些情况,用户可能需要依赖手动元数据标记或自定义报告。这涉及主题专家记录数据流,并在中央目录中将它们关联起来。虽然效率较低,但有时需要这样做才能完成端到端视图。
捕获沿袭信息后,会通过可视化工具(通常是网页界面)呈现给用户。该工具可将复杂的元数据转换为更易于阅读的交互式图表或图示。用户可以点击报告或表格,立即查看每个上游来源和下游使用者的流程图,从而像在地图上跟踪路线一样轻松了解数据的历程。
好的数据沿袭地图可以帮助您快速回答任何数据资产的相关问题,包括“谁、什么、何时、何地和为什么”。跟踪的基本组成部分包括:
数据沿袭不仅仅是一项技术工作,它还可以帮助组织改进数据的管理和信任方式,从而创造实实在在的业务价值。
增强数据治理和合规性
数据沿袭有助于组织准确证明创建敏感报告时使用了哪些数据源,GDPR、CCPA 或 HIPAA 等监管合规性通常对此有要求。
更快地分析数据质量问题的根本原因
借助沿袭,技术团队可以快速地对有错误的数据点进行溯源,跨越多个转换和系统,找到引入错误的确切来源。
增强对系统更改的影响分析
数据沿袭可提供即时影响分析。通过从所建议的更改向前追溯,团队可以查看依赖该数据的每个报告、信息中心或应用,从而评估风险并在更改造成任何破坏之前通知数据使用者。
提升数据资产的可信度
当用户可以轻松验证所用数据的来源和转换步骤时,他们对该数据的信任会大幅提升。这有助于做出更多以数据为依据的决策,因为人们不会质疑底层信息的质量或可靠性。
从数据到 AI 的沿袭
数据沿袭还可以帮助分析 AI 模型的根本原因。如果部署的模型开始出现漂移(性能下降)或生成有偏见的预测,沿袭可让数据科学家快速追溯到源头。
数据沿袭可以在数据开发生命周期的不同阶段进行跟踪,并且可以根据需要跟踪不同级别的详细信息。
设计时沿袭会在开发和测试环境中设计和配置数据流时捕获数据流。它基于对数据流水线蓝图的读取,例如架构、脚本和 ETL 作业配置。它会告诉您数据应该会发生什么。
运行时沿袭会捕获生产环境中实际发生的数据流。它记录已执行作业和流程的具体输入和输出。它会告诉您数据发生了什么,包括任何意外行为或错误。对于数据治理,运行时沿袭通常被认为更有价值,因为它反映了真实情况。
所捕获的信息详细程度称为粒度。组织可以根据数据治理需求和环境的技术复杂性来选择粒度级别。