插入中繼資料

中繼資料是資料的相關資料。舉例來說,您可能需要決定是否要追蹤下列一種或多種與資料集相關的資訊:

  • 來源系統
  • 來源檔案路徑和檔案名稱

  • 來源建立日期
  • 匯入日期
  • 疊加日期
  • 執行疊加的人員名稱

本節會介紹一些在資料集中插入中繼資料的方法。

插入檔案路徑

對於檔案型的資料來源,您可以使用 $filepath 參照在資料集中插入來源檔案的路徑。

提示:當您在資料集上執行多資料集作業 (例如聯集或彙整) 時,可能會遺失檔案路徑資訊。您應在方案中儘早新增這些步驟。

請在您的方案中插入下列轉換:

轉換名稱 New formula
參數:公式類型 Single row formula
參數:公式 $filepath
參數:新資料欄名稱 sourceDatasetPath

詳情請參閱來源中繼資料參照

插入來源資料列編號

您可以使用 $sourcerownumber 參照在來源檔案中插入資料列編號,做為資料集內資料列的來源。

提示:當您在資料集上執行多資料集作業 (例如聯集或彙整) 時,可能會遺失來源資料列編號資訊。您應在方案中儘早新增這些步驟。

請在您的方案中插入下列轉換:

轉換名稱 New formula
參數:公式類型 Single row formula
參數:公式 $sourcerownumber
參數:新資料欄名稱 sourceRowNumber

詳情請參閱來源中繼資料參照

提示:您可以取得資料集中目前的資料列編號。詳情請參閱 ROWNUMBER 函式一文。

插入單一中繼資料欄

下列範例說明如何插入一個中繼資料欄。這個例子會將來源的完整路徑以新資料欄的方式插入資料集中。

步驟:

  1. 在資料集頁面中,找出方案來源的匯入資料集。請按一下 [已匯入] 篩選器,僅顯示匯入的資料集。
  2. 按一下已匯入的資料集的 [詳細資料]
  3. 在「資料集詳細資料」頁面上,選取「位置」的完整值,該位置就是來源的儲存位置。

    提示:如果資料集的完整路徑過長,顯示畫面無法呈現,請務必在「位置」值的尾端加上刪節號 (...)。

  4. 請複製該值,貼到文字編輯器中。畫面上應該會顯示完整的路徑,如下所示:

    <root_dir>/uploads/1/2580298d-3477-4907-bfa7-f71978eace04/SF Restaurants - businesses.csv
  5. 在「Transformer」(轉換器) 頁面中載入資料集。
  6. 請指定以下轉換:

    轉換名稱 New formula
    參數:公式類型 Single row formula
    參數:公式 '\/uploads\/1\/2580298d-3477-4907-bfa7-f71978eace04\/SF Restaurants - businesses.csv'
    參數:新資料欄名稱 datasetPath

插入多個中繼資料欄

您可能有需要追蹤更多含有資料集資訊的欄位。雖然您也可以執行這幾種個別插入,但是從獨立的檔案建構此資訊可能會比較簡單。

注意:這種方式使用 FILL 函式。使用單一索引鍵套用時,請僅用於較小型的資料集,否則在完整的資料集上執行的話,可能會影響效能。

提示:可以使用彙整工具執行類似的資料集合併作業。請參閱彙整窗格

例如,您想要將下列欄位當做中繼資料,加以追蹤:

  • source_system
  • source_author
  • source_date_create

您可以建立類似如下的 CSV 檔案:

source_system,source_author,source_date_create
Excel,Joe Guy,12/9/15

在這種情況下,資料欄標頭會出現在第一行,各資料欄的值則是出現在第二行。

步驟:

  1. 請在包含相關資料集的流程內,將 CSV 當做新資料集的來源。
  2. 請確定將資料柵格中資料的第一行視為標頭。若非如此,請在方案中新增 header 轉換。
  3. 請在「Transformer」(轉換器) 頁面中開啟其他 (來源) 資料集。
  4. 在「Transformer」(轉換器) 頁面的方案面板中加入新步驟,然後在「Transformation」(轉換) 文字方塊中輸入 union

  5. 建立聯集:
    1. 請納入兩個資料集的所有資料欄。
    2. 不依照位置,而是改依名稱來設定要執行聯集的步驟。
    3. 請參閱聯集頁面
  6. 請在方案中新增此步驟。
  7. 您應該會在聯集方案中看到一個含有新資料的資料列。
  8. 請決定適當的分組參數。在執行大規模工作時,這是簡化填滿流程的必要步驟。在理想情況下,應當選擇內含的值相對較少的分組資料欄 (例如 region)。

  9. 請使用中繼資料欄的值填入資料列,針對每個中繼資料欄新增下列轉換,如此即完成了中繼資料的 source_system 資料欄。

    轉換名稱 Window
    參數:公式 FILL(source_system)
    參數:分組依據 region
    參數:排序依據 business_id
  10. 請對每個想要插入的中繼資料欄,重複上述步驟。

  11. 刪除來源中繼資料欄。
  12. 請以更適合的名稱,替 window 資料欄重新命名。
  13. 刪除包含原始中繼資料值的資料列。
本頁內容對您是否有任何幫助?請提供意見:

傳送您對下列選項的寶貴意見...

這個網頁
Google Cloud Dataprep 說明文件
需要協助嗎?請前往我們的支援網頁