標準化使用模式

本節說明如何使用一些技巧,透過模式將資料集中的值標準化。您可透過 Cloud Dataprep 應用程式中的「Column Details」面板,檢閱和選取資料欄中資料的模式。假如您要將所有適用值轉換為所選格式,這些選擇可當做依據。

注意:模式轉換可套用至任何資料類型。

在「Patterns」分頁中,按一下模式周圍的空格字元,然後檢閱「Convert」建議,以定義如何將模式比對轉換為單一標準化格式。

提示:如要選取,請按一下模式與範例值周圍的空格字元。

注意:應用程式不建議使用會新增或移除英數字元的模式轉換。

圖:在「Patterns」(模式) 分頁中選取日期時間模式

在上圖中,模式區塊會根據所選模式顯示轉換工作建議。

  • 按一下 [Edit] (編輯) 可修改工作。
  • 按一下 [Add] (新增) 可將工作新增為方案步驟。

範例:電話號碼模式

針對包含電話號碼資料的資料欄,您可以使用「Patterns」(模式) 分頁來標準化格式選項。請留意以下的值,這些值是有效的電話號碼。每個值旁邊都有一個代表值的模式:

PhoneNum

Cloud Dataprep 模式

(415) 555-1212

\(({digit}{3})\) ({digit}{3})\-({digit}{4})
415-555-1212

({digit}{3})\-({digit}{3})\-({digit}{4})
415.555.1212

({digit}{3}).({digit}{3}).({digit}{3})
415 555-1212

({digit}{3}) ({digit}{3})\-({digit}{4})
1+415-555-1212

1\+{digit}{3}\-{digit}{3}\-{digit}{4}

在「Patterns」(模式) 分頁中,您可以在選擇要轉換的模式,讓同一模式群組中其他模式進行轉換。下方選取的目標模式會成為資料欄中其他模式要轉換的模式:

注意:由於電話號碼可能包含其他的字母數字值,您可能必須在嘗試轉換之前修改電話號碼值。舉例來說,在轉換之前,您可能需要從資料欄值中擷取或移除國際國家/地區代碼 (例如 044) 或長途號碼所需的前綴 1+

一般轉換

以下是支援和不支援的轉換類型。

支援:

範例來源值範例目標值附註
123.456.7890123-456-7890變更符號字元
(123) 456-7890123 456-7890移除符號字元
(123)456-7890(123)-456-7890新增符號字元
1234567890123-456-7890拆分長字元組並新增符號字元
123-456-78901234567890合併多個字元組並刪除符號字元


不支援:

範例來源值範例目標值附註
123.456.7890+1.123.456.7890添加新的字元組
+1.123.456.7890123.456.7890刪除字元組 (英數字元無法透過模式標準化刪除)
Adam WilsonA Wilson刪除來自字元組的部分資料
+1 (123) 456-7890+001 (123) 456-7890在字元組前面或後面加上指定字元

日期時間模式

針對日期時間類型的資料欄,可用的轉換對應取決於平台支援的日期格式。日期時間模式的標準化是一種指定的實作方式。

日期時間模式注意事項:

由於可能產生混淆,雙位數年份 (YY) 不會產生四位數年份 (YYYY) 的建議。舉例來說,我們無法確定 50 應該對應至 1950 或是 2050

由於效能因素,一次最多可套用兩個語義標準化。範例:

來源值可能的標準化語意對應狀態
Jan 1, 1981 01/01/1981
  • Jan01
  • 101
可以 (2 個對應)
Jan 1, 1981
01/01/81
  • Jan01
  • 101
  • 198181
不建議 (3 個對應)

如需進一步瞭解支援的格式,請參閱日期時間資料類型一文。

如要進一步瞭解如何將日期時間值轉換成不同的格式,請參閱 DATEFORMAT 函式一文。

本頁內容對您是否有任何幫助?請提供意見:

傳送您對下列選項的寶貴意見...

這個網頁
Google Cloud Dataprep 說明文件
需要協助嗎?請前往我們的支援網頁