追蹤資料變更

建立備份

請在建立流程及流程中的資料集之後,以及套用方案步驟以變更資料之前,建立流程的複本。這會是您原始資料集的快照。因為匯入的資料集不受影響,所以建立備份所造成的儲存空間負擔相當低。請參閱流程檢視頁面

追蹤來源檔案路徑及檔案名稱

首次將資料集載入 [Transformer] (轉換器) 頁面時,可加入下述內容,以擷取資料來源原始檔案的完整路徑:

轉換名稱 New formula
參數:公式類型 Single row formula
參數:公式 $filepath
參數:新資料欄名稱 sourceRowNumber

透過幾個額外步驟,就可從上述的輸出內容中擷取檔案名稱。詳情請參閱來源中繼資料參照

追蹤來源資料列資訊

您可以標示來源資料的原始資料列編號。請於方案的第一個步驟,在初始剖析後,加入下列指令:

轉換名稱 New formula
參數:公式類型 Single row formula
參數:公式 $sourcerownumber
參數:新資料欄名稱 sourceRowNumber

這個步驟會產生新的資料欄,其中含有來源資料集中的來源資料列編號。

注意:如果您執行多資料集作業,例如查詢、聯集和彙整,則來源資料列資訊會變成無效。如果想要更精確地追蹤來源資訊,則應考慮建立多資料欄索引鍵,包括來源資料列編號資訊。詳情請參閱產生主鍵一文。

請參閱來源中繼資料參照

影響資料欄的追蹤步驟

若要查看現行方案中參照特定資料欄的所有步驟,請從資料欄選單中選取 [Show related steps...] (顯示相關步驟…)

系統會在方案面板中醒目顯示所有步驟。

注意:如果有另一個資料欄相依於選取的資料欄,則會一併醒目顯示與該資料欄相關的所有步驟。

詳情請參閱資料欄選單一文。

追蹤資料欄值變更

Cloud Dataprep by TRIFACTA® 可讓您在轉換方案的步驟間輕鬆移動,以便您可以在轉換作業期間隨時檢查資料集的狀態。在某些情況下,您可能想要並行追蹤原始資料欄與個別資料欄的變更。本節會提供以此方式追蹤資料欄變更的通用方法。

注意:只有在必須監控資料欄中的哪些值發生變更時,才需要使用這個工作流程。在大部分的使用情況下,「轉換器」頁面會提供足夠清楚的樣本資料,方便您管理資料欄值。

步驟:

在下列一連串指令中,原始資料欄稱為 String。若為數字資料欄,您可以對原始和修改後的資料欄值進行更詳細的分析。

  1. 完成一般的轉換設定步驟後,請建立原始資料欄的複本:

    轉換名稱 New formula
    參數:公式類型 Single row formula
    參數:公式 String
    參數:新資料欄名稱 String_orig
  2. 您現在有了一個未經任何操作的原始資料欄複本。
  3. 將所有轉換加入方案中,包括任何會變更 String 值的轉換。下方範例套用了以下轉換指令:

    轉換名稱 Edit with formula
    參數:資料欄 String
    參數:公式 TRIM(String)
  4. 在方案中要測試資料欄是否發生變更的位置,插入下列指令:

    轉換名稱 New formula
    參數:公式類型 Single row formula
    參數:公式 String <> String_orig
    參數:新資料欄名稱 String_changes
  5. String_changes 資料欄現在含有 true 值,這是因為 String 中的值已變更,不再是其原始值 (String_orig)。
  6. 執行方案之前,您可以移除產生的追蹤資料欄 (在本例中為 String_origString_changes)。

圖:追蹤資料欄變更範例

本頁內容對您是否有任何幫助?請提供意見:

傳送您對下列選項的寶貴意見...

這個網頁
Google Cloud Dataprep 說明文件
需要協助嗎?請前往我們的支援網頁