Deduplicate 轉換

注意:轉換屬於基礎程式語言的一部分,使用者無法直接存取。本篇文章的內容僅供參考。

從資料集中移除確切的重複資料列。系統會比對各個值,找出內容和大小寫完全相符的項目,藉此識別重複的資料列。

舉例來說,如果兩個字串的大小寫不同,則不相符。

基本用法

deduplicate

輸出:如果資料列與先前的資料列完全重複,則會從資料集中遭移除。

參數

這項轉換沒有任何參數。

範例

Deduplicate 轉換的相符與不相符情況

來源:

例如,假設您的資料集如下,其中含有三組非常相似的記錄,每一組記錄的第二列中各有一個資料欄與前一列資料欄中的值不同。

姓名日期分數
Joe Jones1/2/0388
joe jones1/2/0388
Jane Jackson2/3/0477
Jane Jackson2004 年 2 月 3 日77
Jill Johns3/4/0566
Jill Johns3/4/0566.00

轉換:

deduplicate

如果您對這個資料集使用 deduplicate,預覽畫面就不會顯示任何資料列。這表示系統不會將任何資料列視為重複項目而予以移除。您可能需要先清理資料才能移除任何重複的資料列。

首先,請將大小寫保持一致。建議您試試下列指令:

set col:Name value:PROPER(Name)

現在 Name 欄中的所有項目都有專有名稱了。接著,您可以使用同一種格式將數值標準化,藉此清理分數欄。建議您試試下列指令:

set col:Score value:NUMFORMAT(Score, '##.00')

上述轉換指令會將數值格式標準化,一律在小數點後加上兩位小數,強迫所有數字採用相同格式。您也可以在此使用 ## 格式的字串。

請使用下列指令修正日期欄:

replace col:Date with:'2/3/04' on:'February 3, 2004'

現在,您可以執行 deduplicate 轉換指令了:

deduplicate

結果:

姓名日期分數
Joe Jones1/2/0388.00
Jane Jackson2/3/0477.00
Jill Johns3/4/0566.00

本頁內容對您是否有任何幫助?請提供意見:

傳送您對下列選項的寶貴意見...

這個網頁
Google Cloud Dataprep 說明文件
需要協助嗎?請前往我們的支援網頁