參數化總覽

總覽

在某些情況下,您可能需要具備可在相同資料集的多個執行個體中執行方案的能力。舉例來說,如果您的來源資料集每週重新整理後均會儲存在平行目錄底下,並且具有不同的時間戳記,則可以建立變數來取代檔案路徑中每次重新整理都會變更的部分。您可以在工作執行階段視需要修改這個變數。在 Cloud Dataprep by TRIFACTA® 中,您可以藉由參數化管理跨序列化資料集中相同方案步驟的執行作業,且這些資料集的路徑可透過變數來管理。

範例

假設您是從檔案系統來源匯入資料,且每週交易記錄的來源路徑如下所示:

<file_system>:///source/transactions/2018/01/29/transactions.csv

在上述路徑中,您可以從 2018/01/29 的格式中推測出日期模式,這表示交易檔案的路徑可能具有某種模式。此模式有助於執行下列事項:

  • 從其他週資料的平行路徑匯入資料。
  • 在所有可用資料集中進行取樣。
  • 根據您為其他符合此模式的交易集設定的執行階段變數來執行工作。

在本範例中,您可以將路徑中的日期值參數化,產生的動態路徑看起來會如下所示:

<file_system>:///source/transactions/YYYY/MM/DD/transactions.csv

上述範例針對路徑值導入日期時間參數,並建立具有參數的資料集

參數類型

您可以使用下列類型的參數,來建立具有參數的資料集。

  • 日期時間參數:將參數套用到出現在來源路徑中的日期和時間值。
    • 指定日期時間參數時,您必須一起指定範圍以限制日期時間值的範圍。
  • 變數:針對具有參數的資料集定義變數名稱和預設值。在執行階段修改這些值將執行作業參數化。
  • 模式參數:
    • 萬用字元:套用萬用字元來取代路徑值。
    • 規則運算式:您可以套用規則運算式來指定資料集比對項目。詳情請參閱下方「限制」一節的說明。
    • Cloud Dataprep 模式:平台支援簡化的模式表示方法。
      • 若要進一步瞭解 Cloud Dataprep 模式,請參閱文字比對

詳情請參閱建立具有參數的資料集

限制

  • 您無法從上傳的資料建立具有參數的資料集。
  • 您無法從多種檔案類型建立具有參數的資料集。
    • 副檔名可以參數化。只有在檔案的處理方式相同時,才能使用混合檔案類型 (例如 TXT 和 CSV),但這種情況很少見。
    • 不能跨文字及二進位檔案類型來建立參數。
  • 具有參數的資料集無法提供來源資料列資訊,需要來源資料列資訊的轉換步驟 (例如 $sourcerownumber 參照) 將無法運作。
  • 您無法將參數套用到寫入或發佈作業。
  • 由於評估時間的長度限制,系統對於規則運算式模式並不支援下列參照類型:
    • 反向參照:下列範例符合 axabxbcxc,然而會產生錯誤。

      ([a-c])x\1
    • 先行判定:下列範例符合 a,但前提是其屬於 ab 模式,否則會產生錯誤:

      a(?=b)

建立具有參數的資料集

從檔案系統

在預設的儲存空間層上瀏覽資料時,您可以選擇將路徑元素參數化。透過「Import Data」頁面,您可以選取路徑元素並套用其中一個支援的參數類型,然後建立具有參數的資料集。

附註:大型目錄的檔案路徑模式比對速度可能較慢。請盡可能避免使用多個模式來比對檔案模式,或掃描包含大量檔案的目錄。若要提高比對速度,請避免在頂層目錄中使用萬用字元,並儘可能明確使用萬用字元和模式。

詳情請參閱建立具有參數的資料集

比對參數

匯入使用具有參數的資料集時,所有符合的來源檔案或資料表皆會自動聯集。

附註:含參數的資料集來源應會具有相符結構定義。

系統會從第一個相符來源檔案或資料表,取得在「轉換器」頁面中載入的初始樣本。若初始樣本大於第一個檔案,則可能會從其他來源物件提取第一個檔案資料列。

管理具有參數的資料集

流程中具有參數的資料集

將具有參數的資料集匯入流程之後:

  • 您可以透過「流程檢視」頁面的參數化功能,查看所有套用到資料集的參數。
  • 選取具有參數的資料集時,您可以使用右側面板來查看及編輯要套用的參數。
  • 您可以透過「流程檢視」頁面的參數面板,變更套用到參數的預設值。

詳情請參閱流程檢視頁面

提示:對於套用到資料集的參數,您可以查看這些參數的詳細資料。請參閱資料集詳細資料頁面

從具有參數的資料集進行取樣

具有參數的資料集第一次載入「轉換器」頁面時,系統會從在相符資料集範圍中找到的第一個相符項目載入初始樣本。如果此相符項目為多工作表 Excel 檔案,則會從檔案的第一個工作表取得樣本。

具有參數:

若要使用檔案中的資料,而不是使用資料集中的第一個相符項目,您必須在轉換器頁面建立新的樣本。在轉換器頁面中執行的所有取樣作業,均會從資料集的所有相符來源取樣。

具有變數:

如果您已經建立資料集搭配使用的變數,可以在取樣時套用變數值來覆寫預設值。透過此方式,您可以針對具有參數的資料集,指定從其中的特定來源檔案執行取樣作業。

詳情請參閱取樣總覽

排定具有參數的資料集適用的時間表

您可以對具有參數的資料集套用時間表。解析日期範圍規則以安排具有參數的資料集時,系統會使用排定的時間。

詳情請參閱 Add Schedule 對話方塊

共用具有參數的資料集

附註:複製含有參數的流程時,變更複製流程中的參數值也會影響原始流程中的參數。解決方法是將流程匯出和匯入至相同的系統,然後取代已匯入流程中的資料集。此為已知問題。

詳情請參閱共用總覽

內部管理

Cloud Dataprep by TRIFACTA 絕不會接觸來源資料,因此在與具有參數的資料集相符的來源執行作業後,您應考慮將其從來源系統中移除,或是調整比對參數的適用範圍。否則,過期資料可能會繼續影響對具有參數的資料集所執行的作業。

附註:來源資料的內部管理不在 Cloud Dataprep by TRIFACTA 提供的服務範圍內。必要時,請聯絡您的 IT 人員以獲得協助。

執行工作

附註:由於 Cloud Dataflow 設有的限制,如果您對含有超過 100 個檔案的參數化資料集執行工作,輸入路徑資料就必須經過壓縮,這會造成 Cloud Dataflow 主控台中出現無法讀取的位置值。如果資料集的來源超過 6000 個檔案,則對這類資料集執行的工作可能會失敗。

覆寫執行階段參數

當您從使用者介面選擇對具有參數的資料集執行工作時,系統會使用預設值指定所有變數。

透過「Run Job」頁面,您可以指定不同的值以套用到工作的變數。

附註:透過「Run Job」頁面套用到變數的值會覆寫目前執行工作的預設值,但不會修改下一個工作的預設值。

詳情請參閱執行工作頁面一文。

在「Job Details」頁面中,按一下 [Parameters] 分頁標籤,以檢視用做工作一部分的參數名稱和值,包括符合資料集的清單。參閱工作詳細資料頁面一文。

排定工作

您可以為具有參數的資料集排定工作,請參閱安排工作的時間表

本頁內容對您是否有任何幫助?請提供意見:

傳送您對下列選項的寶貴意見...

這個網頁
Google Cloud Dataprep 說明文件
需要協助嗎?請前往我們的支援網頁