充分利用工作處理流程

此頁面含有一組提示,說明如何提升工作執行的整體效能。

儘早篩選資料

如果您知道要刪除資料集中的一些資料列和資料欄,請儘早將這些轉換步驟加入方案。這樣的減量作業可以簡化應用程式處理內容的程序,並在執行時提高處理其餘有效資料的速度。由於您在最終確定之前可能要多次執行工作,因此減量作業應該也能加快您的開發過程。

  • 如要刪除資料欄:
    • 從資料欄下拉式選單中為個別資料欄選擇 [Delete] (刪除)。請參閱資料欄選單一文。
    • 使用 [Delete Columns] (刪除資料欄) 轉換,以移除多個分散的資料欄或特定範圍的資料欄。
  • 如要刪除資料列:下列範例會移除 id 資料欄不含值的所有資料列:

    轉換名稱 Filter rows
    參數:條件 Is missing
    參數:資料欄 id
    參數:動作 delete matching rows
  • 如要保留資料列:下列範例會保留 id 資料欄不含值的所有資料列:
    轉換名稱 Filter rows
    參數:條件 Is missing
    參數:資料欄 id
    參數:動作 keep matching rows
  • 請參閱篩選資料

儘早執行聯結

篩選出不需要的資料列和資料欄後,應在方案中執行彙整作業。這些步驟會將資料整合到單一且一致的資料集。在程序中儘早執行這些步驟,就可降低變更聯結鍵而影響聯結作業結果的可能性。請參閱彙整窗格

延遲執行聯集

一般而言您應延遲執行方案中的聯集作業,以減少變更聯集作業的機會 (包括資料集重新整理),避免影響方案和輸出)。

附註:如資料集需要可觀的資料清理量,您應及早在方案中執行聯集,以針對全體資料集一次套用所有的清理步驟。

請參閱聯集頁面

本頁內容對您是否有任何幫助?請提供意見:

傳送您對下列選項的寶貴意見...

這個網頁
Google Cloud Dataprep 說明文件
需要協助嗎?請前往我們的支援網頁