移除資料

只需簡單地選取幾個項目,就可以辨別出要移除的資料欄、刪除資料列所依據的項目值,或是要從資料集中移除哪些字串。如有需要,也可以將這些轉換修改為更精確的移除轉換作業。

移除資料的注意事項

請留意下列事項:

  • 從資料集移除資料時,系統不會執行實際的刪除作業。
    • Cloud Dataprep by TRIFACTA® 不會修改來源資料。所有方案在執行時,會按照您定義的轉換產生一組新資料,並將轉換套用至來源資料所產生的版本。
    • 轉換步驟可於轉換頁面的取樣資料進行預覽及復原,因此請放心嘗試資料移除功能。
  • 如果資料集的量相當龐大,當要將模式或規則運算式套用到資料上時,請務必謹慎處理。套用這類依據模式進行的變更時,請將完成工作所需的資料欄、資料列或字串限制在最小範圍內。

刪除欄

如要從資料集刪除資料欄,請按一下資料欄下拉式選單,然後選取 [Delete] (刪除)。資料柵格或後續的方案步驟中即無法再使用該筆資料。

提示:若要要刪除多個資料欄,請在資料網格或資料欄瀏覽器中將其選取。然後從資料欄選單中選擇 [Delete] (刪除)

提示:如果只是要移除顯示畫面上的資料欄,請使用隱藏指令,這樣輸出結果中仍會出現隱藏的資料欄。

手動轉換:

如果要捨棄多個資料欄,可以在「Delete Columns」(刪除資料欄) 轉換中指定資料欄名稱,並以半形逗號分隔:

轉換名稱 Delete columns
參數:資料欄 ColA,ColC,ColE
參數:動作 Delete selected columns

如要刪除特定範圍的的資料欄,請在介於開始與結束的資料欄名稱之間使用波浪號 (~) 字元。

轉換名稱 Delete columns
參數:資料欄 ColA~ColE
參數:動作 Delete selected columns

詳情請參閱移除資料

刪除資料列

您可以依照您指定的條件模式,來刪除資料集中的資料列。最簡單的方式,就是在適用的資料欄中選取一個字串,再選擇「刪除」建議資訊卡。

依據選取項目刪除資料列

步驟:

在下列範例中,每個資料列都含有屬於不同公司的項目,而您想要移除坦佩市內的所有公司項目。

  1. 在此情況下,您可使用資料欄直方圖選擇 city 資料欄的 Tempe 值,或是可以利用「Filter」(篩選器) 面板篩選含 Tempe 值的資料列。
  2. 然後選取「Delete」(刪除) 建議資訊卡。

    圖:在「城市」資料欄中選取「Tempe」,移除該城市的所有項目

  3. 選取 [Delete] 之後,應用程式會評估您所選的值,並嘗試透過選取項目推測您的意圖。是字串常值,還是一種模式?如果是模式,這種模式代表了什麼意義?您也可以選取「刪除」資料卡中的其中一項變因,找出正確的相符項目。

    注意:請務必記得上下捲動資料柵格,檢查受到影響的值。在部分情況下,您的選取項目可能會轉變為模式,除了您想要的值之外,也可能會套用到其他值上。在先前的範例中,選擇 Tempe 可能會產生 {alpha}{5} 的相符模式,這個模式會比對出任何名稱是由五個字母組成的城市,Tempe 也包括在內。在「Delete」(刪除) 資訊卡中選取其他變因,即可變更相符模式。請按 [Edit] (編輯) 檢查相符字串。

  4. 您定義及修改「Filter Rows」(篩選資料列) 轉換之後,就可在將轉換新增至方案之前,使用預覽查看要移除的資料列。

提示:您也可使用「Filter Rows」(篩選資料列) 依據指定條件保留資料列,有效刪除不符的資料列。請參閱篩選資料

依據相符條件篩選資料列

您可以依據您所定義的一個或多個相符條件,刪除或保留資料集中的資料列。

  1. 請在「Search」(搜尋) 面板輸入 filter
  2. 請選取條件的類型,您可以依據以下條件進行篩選:
    1. 類型:遺失或不相符的值。
    2. 相符項目:完全相符、部分相符,或是資料欄值的開頭或結尾相符的常值或模式。
    3. 範圍:小於 (或等於)、大於 (或等於),或是各種組合。
    4. 自訂公式:指定可評估為 truefalse 的運算式。如果是 true,系統就會篩選資料。
  3. 指定其他參數,包含是否要刪除或保留相符的資料列。

詳情請參閱篩選資料

刪除有多個空白儲存格的資料列

如果您的資料集中有多個未包含資料的資料列,可以用下列兩個步驟移除資料列。假設您知道資料集中的開頭 (col1) 和結尾 (colN) 資料欄名稱,即可嘗試以下方式:

注意:如果稍後您在此步驟前重新排序資料欄,或是移除開頭或結尾的資料欄,以下步驟就會失效。

轉換名稱 New formula
參數:公式類型 Single row formula
參數:公式 MERGE([column1~columnN])
參數:新資料欄名稱 'all_blank_vals'

轉換名稱 Delete rows when value is missing
參數:資料欄 all_blank_vals
參數:動作 Delete selected columns

以上步驟會將所有值合併成 all_blank_vals 資料欄內的一個值。如果合併的欄位為空白,第二個步驟就會移除該資料列。

請記得在操作完畢後,將 all_blank_vals 資料欄刪除。

詳情請參閱篩選資料

移除值

如果要刪除資料欄中的值,請在資料柵格中選取這些值。在建議資訊卡中,選擇 Replace 資訊卡。在以下範例中,city 資料欄已移除所有與 Tempe 相符的值:

轉換名稱 Replace text or patterns
參數:資料欄 city
參數:尋找 'Tempe'
參數:替換值 ''
參數:比對所有發生情況 true

「Replace」(取代) 轉換僅適用於字串值,相符資料列的其他部分不會受到影響。

上述轉換會比對資料欄中所有的值,即使只有部分的值相符,相符字串仍會從資料欄值中移除。例如若新增上述轉換指令,則 Tempest 項目可能會變成 st

為了確保只會套用在相符的完整資料欄值上,可以依照以下所示,新增 Cloud Dataprep 模式來表示資料欄值的開頭和結尾。

轉換名稱 Replace text or patterns
參數:資料欄 city
參數:尋找 `{start}Tempe{end}`
參數:替換值 ''
參數:比對所有發生情況 true

在上述情況中,僅有在完整的資料欄值為 Tempe 時才符合。如需更多關於依據模式比對的資訊,請參閱文字配對一文。

使用規則運算式

如需更精確的比對方式,您可以在 replace 指令上套用規則運算式。在以下範例中,qty 資料欄內從 0 到 99 的所有整數均符合。因為沒有替換值,所以會一併刪除。

規則運算式是一項很強大的模式比對工具,因此在使用時務必格外謹慎。請參閱文字配對一文。

字元定義

^

字串的開頭,需用來避免比對到任何數字值的最後一位數。
$字串的結尾,需用來避免兩位數數字比對到三位數數字。
\d單一數字
|邏輯 OR。在這種情況下,是用來定義 1 位數和 2 位數值個別的規則運算式。
本頁內容對您是否有任何幫助?請提供意見:

傳送您對下列選項的寶貴意見...

這個網頁
Google Cloud Dataprep 說明文件
需要協助嗎?請前往我們的支援網頁