什麼是資料歷程?

資料歷程就像企業資訊的 GPS,可繪製完整路徑,顯示資料來源、去向,以及沿途執行的所有步驟。追蹤資料歷程,組織就能對資料建立信任感,並將資料用於重要決策。

資料歷程的定義

資料歷程是資料生命週期的對應,顯示資料的來源、隨時間的移動和轉換方式,以及目前所在位置。提供清楚的稽核追蹤,方便您瞭解、追蹤及驗證資料。

這個全方位檢視畫面會顯示來源系統、所有套用的轉換 (例如計算、匯總或篩選器),以及要使用資料的目的地,例如報表、資訊主頁或其他應用程式。這就像貴公司所用資訊的詳細家譜。

資料歷程與資料來源的比較

資料歷程和資料來源通常會一起使用,但分別著重於資料歷程的不同面向。

  • 資料歷程是從宏觀、歷史和策略角度,檢視資料的歷程。著重於資料資產目前狀態的完整路徑和轉換邏輯。整體都包含在內。
  • 資料來源則更精細且具體,通常著重於特定時間點的特定資料點或記錄的直接來源和擁有權。通常用於驗證資料來源。

簡而言之,資料歷程會顯示資料在不同系統中隨時間演變的完整歷程,而資料來源通常著重於特定資料元素的來源和真實性。

資料歷程的運作方式

過去,擷取資料歷程是項艱鉅的作業,大多需要手動完成,但現在有了現代雲端解決方案,就能高度自動化。基本概念是觀察資料在基礎架構中的流動和變化,然後建立可追蹤的視覺化記錄。

現代資料平台會使用剖析和監控等技術,自動探索及對應資料流程。

  • 剖析:平台能讀取並理解以 SQL 等語言編寫的轉換邏輯。系統讀取查詢 (例如在 BigQuery 工作中) 後,就能瞭解哪些來源資料表和資料欄用於建立新的衍生資料表。
  • 監控:平台會監控不同服務之間的資料流動情形,例如從資料倉儲資料湖泊或串流管道。

Data Lineage API 是這項技術的關鍵。讓不同系統和工具向中央目錄回報資料使用情形。舉例來說,資料整合工具可使用 API 向中央系統表示:「我剛將資料從資料表 A 移至資料表 B,並執行匯總作業。」這樣一來,系統就能自動建立近乎即時的準確記錄,追蹤資料的移動情形,不需要人為介入。

自動擷取功能雖然很理想,但可能無法涵蓋機構舊版或自訂系統的所有部分。在這些情況下,使用者可能需要手動標記中繼資料或自訂報表。這需要領域專家記錄資料流程,並在中央目錄中建立連結。雖然效率較低,但有時必須這麼做,才能取得端對端檢視畫面。

擷取歷程資訊後,系統會透過視覺化工具 (通常是網頁介面) 提供給使用者。這項工具會將複雜的中繼資料轉換成更容易閱讀的互動式圖表或圖解。使用者只要點按報表或資料表,就能立即看到所有上游來源和下游使用者的流程圖,瞭解資料的歷程就像在地圖上追蹤路線一樣簡單。

資料歷程對應的關鍵要素

良好的資料歷程對應可協助您快速回答有關任何資料資產的「人事時地物」問題。追蹤的基本要素包括:

  • 來源:資料的原始位置,例如交易資料庫、檔案或外部系統
  • 轉換邏輯:套用至資料的特定作業或業務規則,可能包括 SQL 查詢、Python 指令碼或 ETL (擷取、轉換、載入) 工作邏輯
  • 路徑/流程:資料依序流經的系統、程序和資料儲存庫
  • 時間/版本:資料處理時間,以及使用的資料版本或轉換邏輯
  • 目的地/使用者:資料的最終儲存位置,以及使用資料的對象或用途,例如監管報告或機器

資料歷程的好處

資料歷程不僅是技術層面的工作,還能協助機構改善資料管理和信任方式,進而創造實質的業務價值。

提升資料治理和法規遵循成效

資料歷程可協助機構證明機密報表是使用哪些資料來源建立,這常見於 GDPR、CCPA 或 HIPAA 等法規遵循要求。

更快分析資料品質問題的根本原因

有了歷程功能,技術團隊就能快速追溯錯誤資料點,找出錯誤的確切來源,即使資料經過多次轉換並在多個系統中傳輸也沒問題。

強化系統變更影響分析

資料歷程可提供即時影響分析。團隊可從建議的變更往前追溯,查看所有依賴該資料的報表、資訊主頁或應用程式,評估風險並在變更造成中斷前通知資料使用者。

提升資料資產的可信度

當使用者能輕鬆驗證所用資料的來源和轉換步驟時,對資料的信心會大幅提升。由於使用者不會質疑基礎資訊的品質或可靠性,因此能做出資料導向的決策。

資料到 AI 的歷程

資料歷程也能協助分析 AI 模型的根本原因。如果已部署的模型開始出現偏移 (效能降低) 或產生偏誤預測,資料歷程功能可協助資料學家快速追溯至來源。

常見的資料歷程類型

資料歷程可依需求,在資料開發生命週期的不同階段追蹤,並提供不同詳細程度的資訊。

設計階段歷程

設計階段的歷程會擷取在開發和測試環境中設計及設定資料時,資料的流動情形。以讀取資料管道的藍圖為基礎,例如結構定義、指令碼和 ETL 工作設定。並說明應如何處理資料。

執行階段歷程

執行階段歷程會擷取正式環境中實際發生的資料流程。並記錄已執行工作和程序的特定輸入與輸出內容。這份報告會說明資料的實際處理情形,包括任何非預期行為或錯誤。就資料治理而言,執行階段歷程通常較有價值,因為它反映了實際情況。

精細的歷程層級

擷取資料的詳細程度稱為精細程度。機構會根據資料治理需求和環境的技術複雜度,選擇合適的精細程度。

  • 資料表層級:追蹤整個資料表或資料集之間的資料流,例如會顯示「客戶資料表 A」流入「銷售報告資料表 B」
  • 範例:系統顯示整個 raw_transactions 資料表已載入至 daily_aggregations 資料表
  • 資料欄層級:追蹤資料從來源資料欄到目標資料欄的流動情形,包括套用的轉換作業;這通常是法規遵循的必要做法
  • 範例:追蹤來源資料庫的 customer_id 欄在資料倉儲中重新命名為 user_key,然後做為彙整的一部分,用來建立 final_report
  • 報表層級:追蹤哪些報表、資訊主頁或應用程式使用哪些資料表和資料欄,這對影響分析和企業使用者信任至關重要
  • 範例:業務分析師可以追蹤高階主管銷售資訊主頁上的指標,找出計算該指標時使用的特定資料欄和資料表
  • 端對端:提供所有系統的完整檢視畫面,從初始來源應用程式 (例如 CRM) 到所有暫存、清理和轉換步驟,再到最終報表或機器學習模型
  • 範例:追蹤單一顧客的歷程,從他們首次註冊 (在網頁應用程式資料庫中擷取),一路到流失預測模型輸出內容中生成摘要的用量

透過 Google Cloud 解決業務難題

新客戶可以獲得價值 $300 美元的免費抵免額,盡情試用各項 Google Cloud 功能。

展開下一步行動

運用價值 $300 美元的免費抵免額和超過 20 項一律免費的產品,開始在 Google Cloud 中建構產品與服務。