資料集的建立順序

在某些情況下,您可能需要建立一系列的資料集,將某個方案的輸出內容做為另一方案的輸入內容。

可能的用法如下:

  1. 您可以在一個資料集中處理資料清理作業,然後再將該資料提供給其他使用者,以便依照各自需求自行設定。
  2. 將資料集提供給其他使用者前,可能需要先捨棄部分資料欄或列。
  3. 您可以讓不同的使用者處理資料轉換處理程序的不同階段。例如,一位使用者可以負責清理資料,而另一位使用者可以負責將資料轉換成最終格式。

根據您的情況,您可以應用下列其中一項解決方案。

相同流程中的方案鏈

在同一流程中,您可以將方案彼此鏈結在一起。例如,您可能希望使用第一個方案進行清理,並且使用第二個方案進行轉換。此方法能夠有效協助您,在同一流程中使用單一匯入資料集,進行多種類型的轉換。

步驟:

  1. 按一下匯入的資料集,然後按一下 [Add new recipe] (新增方案)
  2. 按一下新增的方案,將其命名為:Cleanse
  3. 選擇新方案後,按一下 [Add new recipe] (新增方案)
  4. 按一下新增的方案,將其命名為:Transform

Cleanse 方案的輸出內容即為 Transform 方案的輸入內容。

圖:方案鏈

建立參照物件

如果您需要在其他流程中能取得方案的輸出內容,即可建立參照物件。此參照可在您控制的其他流程中使用。

步驟:

  1. 在 [Flow View] (流程檢視) 中,選取您想要在其他流程中取得其輸出內容的方案。
  2. 按一下 [Create Reference] (建立參照) 圖示:

    圖:建立參照物件

  3. 如要在其他流程中使用,請按一下 [Add to Flow...] (新增至流程…)
  4. 在目標流程中,該參照物件會以一個參照資料集顯示。它的作用類似於匯入的資料集,但需要考慮以下因素。

考量重點:

  • 當您於包含參照資料集的流程中執行工作時,系統會執行該參照資料集的所有上游依附元件。如為來源參照物件,須收集及執行所有匯入的資料集與方案,以使用新資料填入參照資料集。
  • 上述項目有下列注意事項:
    • 如果在流程 #2 中執行工作的使用者並沒有存取參照資料集所有上游依附元件的權限,則工作可能會失敗。這些依附元件包含匯入的資料集與任何連線。

    • 如果上游物件的擁有權屬於其他使用者,則有可能無法查看這些項目。例如,如果其他使用者變更來源方案,則您的下游方案就可能會在沒有通知的情況下中斷。如果您無法查看該方案,則可查看變更的內容以及修正方式。

從輸出建立匯入的資料集

如果需要考慮上述任一注意事項,則可從流程 #1 的工作結果中建立匯入的資料集。

在 [Job Details] (工作詳細資料) 頁面中,按一下 [Output Destinations] (輸出目的地) 分頁標籤。針對產生的輸出,從其內容選單中選取 [Create imported dataset] (建立匯入的資料集)

注意:在建立新資料集後,只有建立者才能進行存取。資料集可與其他協作者共用。詳情請參閱共用總覽

從您的第一個資料集疊加的結果,您可建立一個新的資料集。此資料集是在單獨的方案中進行疊加,其輸出可成為第三個資料集。您可以透過此方式,建立資料集的順序。

考量重點:

  • 在您執行流程 #1 中產生資料集的工作之前,不會重新整理流程 #2 中匯入的資料集。
  • 如果流程 #1 的輸出每次都使用相同的檔案名稱,您可能不知道該資料是否已重新整理。在流程 #2 中執行工作時,無論該資料是否為新資料,都會收集來源匯入的資料集並執行。解決方法:
    • 在流程 2 中,您可以建立參數化資料集,用以收集參數中具有某些變化的來源資料。只要流程 #1 的輸出按照流程 #2 的參數化資料集命名慣例,您就應該能夠按需要,用新資料執行工作。詳情請參閱參數化總覽

    • 在流程 #2 中的工作執行之後,重新命名或從其目標位置移除流程 #1 的輸出。這樣一來,每當工作 #2 再次執行時,從來源位置收集的任何資料都可能較新。

請參閱工作詳細資料頁面

本頁內容對您是否有任何幫助?請提供意見:

傳送您對下列選項的寶貴意見...

這個網頁
Google Cloud Dataprep 說明文件
需要協助嗎?請前往我們的支援網頁