資料歷程是資料生命週期的對應,顯示資料的來源、隨時間的移動和轉換方式,以及目前所在位置。提供清楚的稽核追蹤,方便您瞭解、追蹤及驗證資料。
這個全方位檢視畫面會顯示來源系統、所有套用的轉換 (例如計算、匯總或篩選器),以及要使用資料的目的地,例如報表、資訊主頁或其他應用程式。這就像貴公司所用資訊的詳細家譜。
資料歷程和資料來源通常會一起使用,但分別著重於資料歷程的不同面向。
簡而言之,資料歷程會顯示資料在不同系統中隨時間演變的完整歷程,而資料來源通常著重於特定資料元素的來源和真實性。
過去,擷取資料歷程是項艱鉅的作業,大多需要手動完成,但現在有了現代雲端解決方案,就能高度自動化。基本概念是觀察資料在基礎架構中的流動和變化,然後建立可追蹤的視覺化記錄。
現代資料平台會使用剖析和監控等技術,自動探索及對應資料流程。
Data Lineage API 是這項技術的關鍵。讓不同系統和工具向中央目錄回報資料使用情形。舉例來說,資料整合工具可使用 API 向中央系統表示:「我剛將資料從資料表 A 移至資料表 B,並執行匯總作業。」這樣一來,系統就能自動建立近乎即時的準確記錄,追蹤資料的移動情形,不需要人為介入。
自動擷取功能雖然很理想,但可能無法涵蓋機構舊版或自訂系統的所有部分。在這些情況下,使用者可能需要手動標記中繼資料或自訂報表。這需要領域專家記錄資料流程,並在中央目錄中建立連結。雖然效率較低,但有時必須這麼做,才能取得端對端檢視畫面。
擷取歷程資訊後,系統會透過視覺化工具 (通常是網頁介面) 提供給使用者。這項工具會將複雜的中繼資料轉換成更容易閱讀的互動式圖表或圖解。使用者只要點按報表或資料表,就能立即看到所有上游來源和下游使用者的流程圖,瞭解資料的歷程就像在地圖上追蹤路線一樣簡單。
良好的資料歷程對應可協助您快速回答有關任何資料資產的「人事時地物」問題。追蹤的基本要素包括:
資料歷程不僅是技術層面的工作,還能協助機構改善資料管理和信任方式,進而創造實質的業務價值。
提升資料治理和法規遵循成效
資料歷程可協助機構證明機密報表是使用哪些資料來源建立,這常見於 GDPR、CCPA 或 HIPAA 等法規遵循要求。
更快分析資料品質問題的根本原因
有了歷程功能,技術團隊就能快速追溯錯誤資料點,找出錯誤的確切來源,即使資料經過多次轉換並在多個系統中傳輸也沒問題。
強化系統變更影響分析
資料歷程可提供即時影響分析。團隊可從建議的變更往前追溯,查看所有依賴該資料的報表、資訊主頁或應用程式,評估風險並在變更造成中斷前通知資料使用者。
提升資料資產的可信度
當使用者能輕鬆驗證所用資料的來源和轉換步驟時,對資料的信心會大幅提升。由於使用者不會質疑基礎資訊的品質或可靠性,因此能做出資料導向的決策。
資料到 AI 的歷程
資料歷程也能協助分析 AI 模型的根本原因。如果已部署的模型開始出現偏移 (效能降低) 或產生偏誤預測,資料歷程功能可協助資料學家快速追溯至來源。
資料歷程可依需求,在資料開發生命週期的不同階段追蹤,並提供不同詳細程度的資訊。
設計階段的歷程會擷取在開發和測試環境中設計及設定資料時,資料的流動情形。以讀取資料管道的藍圖為基礎,例如結構定義、指令碼和 ETL 工作設定。並說明應如何處理資料。
執行階段歷程會擷取正式環境中實際發生的資料流程。並記錄已執行工作和程序的特定輸入與輸出內容。這份報告會說明資料的實際處理情形,包括任何非預期行為或錯誤。就資料治理而言,執行階段歷程通常較有價值,因為它反映了實際情況。
擷取資料的詳細程度稱為精細程度。機構會根據資料治理需求和環境的技術複雜度,選擇合適的精細程度。