Cloud Data Fusion 資料沿襲
您可以使用 Cloud Data Fusion 資料沿襲功能執行下列操作:
找出資料事件異常的根本原因。
變更資料前,請先進行影響分析。
建議您在 Dataplex Universal Catalog 中整合資產沿襲。詳情請參閱「在 Dataplex Universal Catalog 中查看歷程」。
您也可以在 Cloud Data Fusion Studio 中,使用「中繼資料」選項,在資料集和欄位層級查看沿襲,系統會顯示所選時間範圍的沿襲。
資料集層級的歷程記錄會顯示資料集和管道之間的關係。
欄位層級沿襲會顯示對來源資料集中的一組欄位執行的作業,以便在目標資料集中產生另一組欄位。
從 Cloud Data Fusion 6.9.2.4 以上版本開始,如果您未在 Cloud Data Fusion 中追蹤歷程,建議使用 patch
方法,在執行個體中關閉欄位層級歷程記錄發布功能:
curl -X PATCH -H 'Content-Type: application/json' -H "Authorization: Bearer
$(gcloud auth print-access-token)"
'https://datafusion.googleapis.com/v1beta1/projects/PROJECT_ID/locations/REGION/instances/INSTANCE_ID?updateMask=options'
-d '{ "options": { "metadata.messaging.field.lineage.emission.enabled": "false" } }'
更改下列內容:
PROJECT_ID
:專案 ID Google CloudREGION
:專案的位置 Google CloudINSTANCE_ID
:Cloud Data Fusion 執行個體 ID
教學課程情境
在本教學課程中,您會使用兩個管道:
Shipment Data Cleansing
管道會從小型範例資料集讀取原始出貨資料,並套用轉換來清除資料。Delayed Shipments USA
管道接著會讀取已清除的貨運資料、進行分析,並找出美國境內延遲超過門檻的貨運。
這些教學課程管道示範的典型情境是:先清除原始資料,然後傳送至下游進行處理。您可以使用 Cloud Data Fusion 歷程功能,探索從原始資料到乾淨的出貨資料,再到分析結果的資料路徑。
目標
- 執行範例管道,產生沿襲資料
- 探索資料集和欄位層級的歷程
- 瞭解如何將握手資訊從上游管道傳遞至下游管道
費用
在本文件中,您會使用 Google Cloud的下列計費元件:
- Cloud Data Fusion
- Cloud Storage
- BigQuery
如要根據預測用量估算費用,請使用 Pricing Calculator。
事前準備
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Verify that billing is enabled for your Google Cloud project.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the Cloud Data Fusion, Cloud Storage, Dataproc, and BigQuery APIs.
- 建立 Cloud Data Fusion 執行個體。
- 點選下列連結,將這些小型範例資料集下載到本機電腦:
開啟 Cloud Data Fusion 使用者介面
使用 Cloud Data Fusion 時,您會同時使用 Google Cloud 控制台和獨立的 Cloud Data Fusion UI。在 Google Cloud 控制台中,您可以建立 Google Cloud 控制台專案,以及建立和刪除 Cloud Data Fusion 執行個體。在 Cloud Data Fusion UI 中,您可以使用「沿襲」等各種頁面,存取 Cloud Data Fusion 功能。
在 Google Cloud 控制台中,開啟「Instances」(執行個體) 頁面。
在執行個體所屬的「動作」欄中,按一下「查看執行個體」連結。Cloud Data Fusion 使用者介面會在新的瀏覽器分頁中開啟。
在「整合」窗格中,按一下「Studio」,開啟 Cloud Data Fusion 的「Studio」頁面。
部署及執行管道
匯入原始運送資料。在「Studio」頁面中,按一下「匯入」,或依序點選「+」「Pipeline」「匯入」,然後選取並匯入在「事前準備」中下載的「Shipment Data Cleansing」管道。
部署管道。按一下「Studio」頁面右上方的「Deploy」(部署)。部署完成後,系統會開啟「Pipeline」頁面。
執行管道。按一下「Pipeline」頁面頂端中央的「Run」。
匯入、部署及執行「Delayed Shipments」資料和管道。 「運送資料清除」狀態顯示「成功」後,請套用上述步驟,處理在「事前準備」中下載的「美國境內延遲出貨」資料。返回「Studio」(工作室) 頁面匯入資料,然後從「Pipeline」(管道) 頁面部署及執行這個第二個管道。第二個管道順利完成後,請繼續執行其餘步驟。
探索資料集
您必須先探索資料集,才能查看其沿襲。從 Cloud Data Fusion UI 左側導覽面板選取「Metadata」(中繼資料),開啟中繼資料「Search」(搜尋) 頁面。由於「Shipment Data Cleansing」資料集指定「Cleaned-Shipments」做為參照資料集,請在「Search」方塊中插入「shipment」。搜尋結果會包含這個資料集。

使用標記探索資料集
中繼資料搜尋功能會找出 Cloud Data Fusion 管道使用、處理或產生的資料集。管道會在結構化架構上執行,產生及收集技術和作業中繼資料。技術中繼資料包括資料集名稱、類型、結構定義、欄位、建立時間和處理資訊。Cloud Data Fusion 中繼資料搜尋和歷程功能會使用這項技術資訊。
Cloud Data Fusion 也支援使用業務中繼資料 (例如標記和鍵值屬性) 註解資料集,這些資料可用做搜尋條件。舉例來說,如要在原始運送資料資料集上新增及搜尋商家標記註解,請按照下列步驟操作:
在「Shipment Data Cleansing Pipeline」(貨運資料清除管道) 頁面上,按一下「Raw Shipping Data」(原始貨運資料) 節點的「Properties」(屬性) 按鈕,開啟「Cloud Storage Properties」(Cloud Storage 屬性) 頁面。
按一下「查看中繼資料」即可開啟「搜尋」頁面。
在「商家代碼」下方,按一下「+」,然後插入代碼名稱 (可使用英數字元和底線),並按下 Enter 鍵。
查看歷程
資料集層級歷程
按一下「搜尋」頁面 (來自「探索資料集」) 上列出的「Cleaned-Shipments」資料集名稱,然後按一下「沿革」分頁標籤。歷程圖顯示這個資料集是由 Shipments-Data-Cleansing 管道產生,而該管道已取用 Raw_Shipping_Data 資料集。

左右箭頭可讓你返回或前往任何先前或後續的資料集沿襲。在本例中,圖表會顯示 Cleaned-Shipments 資料集的完整沿襲。
資料欄層級歷程
Cloud Data Fusion 欄位層級歷程會顯示資料集欄位之間的關係,以及對一組欄位執行的轉換,以產生另一組欄位。與資料集層級歷程記錄類似,欄位層級歷程記錄也有時間限制,結果會隨時間而異。
接續「資料集層級的歷程」步驟,按一下「已清除的出貨」資料集層級歷程圖右上方的「欄位層級歷程」按鈕,即可顯示欄位層級歷程圖。

欄位層級的沿襲圖會顯示欄位之間的連結。您可以選取欄位來查看沿襲。選取「查看」>「釘選欄位」,即可只查看該欄位的沿革。

依序選取「查看」>「查看影響」,即可進行影響分析。

「原因」和「影響」連結會以使用者可理解的分類帳格式,顯示欄位兩側執行的轉換。這項資訊對於製作報表和管理至關重要。
清除所用資源
如要避免系統向您的 Google Cloud 帳戶收取本教學課程中所用資源的相關費用,請刪除含有該項資源的專案,或者保留專案但刪除個別資源。
完成本教學課程後,請清除您在Google Cloud 上建立的資源,這樣這些資源就不會占用配額,您日後也無須為其付費。下列各節將說明如何刪除或關閉這些資源。
刪除教學課程資料集
本教學課程會在專案中建立含有數個資料表的 logistics_demo
資料集。

您可以從 BigQuery 網頁版 UI 刪除 Google Cloud 控制台中的資料集。
刪除 Cloud Data Fusion 執行個體
請按照說明刪除 Cloud Data Fusion 執行個體。
刪除專案
如要避免付費,最簡單的方法就是刪除您為了本教學課程所建立的專案。
如要刪除專案:
- In the Google Cloud console, go to the Manage resources page.
- In the project list, select the project that you want to delete, and then click Delete.
- In the dialog, type the project ID, and then click Shut down to delete the project.