在 Cloud Dataflow 上執行工作

在 Cloud Dataprep by TRIFACTA® 中執行工作之後,您可以直接從 Cloud Dataflow 使用不同參數重新執行該工作。從 Cloud Dataprep 介面收集輸入和輸出參數之後,您可以透過 Cloud Dataflow 套用或修改這些參數,然後執行工作。

附註:Cloud Dataflow 範本可讓您指定隨時都能執行的 Cloud Dataflow 工作。詳情請參閱 Cloud Dataflow 範本文件一文。

已知的不足之處

注意:如果您要修改工作的輸入,新輸入的類型和結構定義必須與原始輸入相同。例如,重新執行工作時,您不能將原始工作中的 BigQuery 輸入改為使用 Google Cloud Storage 輸入。檔案格式和結構也必須相符。

  • Cloud Dataflow 會限制以 JSON 格式傳入的工作大小。

    提示:如果超過此限制,則工作可能會失敗並顯示 job graph too large 錯誤訊息。解決方法是將工作拆分成更小的工作,例如將方案拆分成多個方案。這是 Cloud Dataflow 的已知限制。

  • 對於在 Cloud Dataflow 中啟動的工作,附加內容、單一檔案及標頭設定等 Cloud Dataprep by TRIFACTA 發佈選項會被忽略。

  • 對於 Cloud Dataprep by TRIFACTA 工作,輸出檔案會被寫入臨時位置,其路徑包含全域 ID 及臨時資料表名稱。您可以使用這些 URI 的部分內容,指定 Cloud Dataflow 工作的輸出位置。請參閱下方的「提示」一節。

  • 不建議進行剖析,如果已啟用剖析功能:

    • 從 Cloud Dataflow 範本啟動的所有工作也會啟用剖析功能。
    • 系統會建立兩個額外的輸出檔案,這兩個檔案必須在範本工作定義中被指定為輸出位置。

    • 請參閱下方的「提示」一節。
  • Cloud Dataprep by TRIFACTA 工作產生的 Cloud Dataflow 範本是用來當做目前執行工作的靜態複本。
    • 系統會根據執行時間點計算所有相對函式。執行 Cloud Dataflow 範本時,系統不會重新計算 NOW() TODAY 等函式。
    • 若要更新這些函式的輸出值,請在 Cloud Dataprep by TRIFACTA 中透過 UI 或排定的工作重新執行工作。接著,請執行 Cloud Dataflow 範本工作。

工作流程

步驟:

  1. 透過 Cloud Dataprep 介面中的「流程檢視」頁面來執行工作。詳情請參閱流程檢視頁面
  2. 工作完成後,請在 [Jobs] 分頁標籤中按一下工作 ID。
  3. 在「Job Details」頁面中,按一下 [Overview] 分頁標籤。從工作摘要中,針對 Cloud Dataflow 範本按一下 [Copy to clipboard]。詳情請參閱工作詳細資料頁面
  4. 這個連結是用來參照 Cloud Dataflow 中的範本。如要進一步瞭解如何使用 Cloud Dataflow 範本來執行工作,請參閱 Cloud Dataflow 範本文件一文。

提示

停用剖析功能

您應該停用來源 Cloud Dataprep by TRIFACTA 工作中的剖析功能。由於您必須為 Cloud Dataflow 工作指定所有輸出,即使您不打算使用,也必須指定剖析輸出。剖析功能會針對 Cloud Dataflow 工作產生額外費用,且輸出內容無法使用。

使用來源 URI

假如您要為 Cloud Dataflow 工作指定 URI,您必須複製來源 URI、將其貼至文字編輯器,並且在貼回 Cloud Dataflow 工作表單之前修改內容。來源輸出範例:

{"location1":"gs://dp-staging-b1/dpreptester02@example.com/jobrun/
.data_prep_temp/f5d299bc-0c56-42fa-858c-627c64d9d027/POS-r01.json/file",
"location2":"gs://dp-staging-b1/dptester02@example.com/jobrun/
.data_prep_temp/00c223dc-4f06-4a5b-84a9-e9f72078a1e1/POS-r01.csv/file"}

您可以從上方程式碼移除指向臨時位置的 URI 部分內容。接著,您可以修改 URI 以指向新的位置:

注意:執行工作的使用者必須對任何新的輸出位置具有讀取與寫入權限。

{"location1":"gs://dp-staging-b1/dptester02@example.com/jobrun/
my-df-jobs/job02/POS-r01.json/file","location2":"gs://dp-staging-b1/
dptester02@example.com/jobrun/my-df-jobs/job02/POS-r01.csv/file"}

注意:Cloud Dataflow 工作上的輸出位置是永久性的。假如您要重新使用 Cloud Dataflow 工作,您可能要在重新執行工作時指定新的位置。

本頁內容對您是否有任何幫助?請提供意見:

傳送您對下列選項的寶貴意見...

這個網頁
Google Cloud Dataprep 說明文件
需要協助嗎?請前往我們的支援網頁