模式比對總覽

Cloud Dataprep by TRIFACTA® 利用欄位式模式比對來識別您要的資料模式,並呈現在介面中以供建構方案使用。此外,在您的方案步驟中,您可以套用規則運算式或 Cloud Dataprep 模式在資料集中尋找模式並轉換相符的資料。

總覽

模式是歸納資料欄中資料模式的抽象字元集和常值字元組合。您可以透過下列其中一種方法套用模式:

  • 規則運算式是用來比對資料的標準化方法。規則運算式的語法功能強大且不易瞭解。
  • Cloud Dataprep 模式是模型比對小工具,提供以規則運算式為基礎的抽象層。您可以指定一個簡單的符記來代表基礎運算式,而不需要指定有時語法很複雜的基礎規則運算式。

    提示:雖然規則運算式是廣泛使用的標準,但 Cloud Dataprep 模式卻是功能強大的簡化工具,可以限制規則運算式中有時會出現的「貪婪」比對問題。

  • 如要進一步瞭解支援的模式,請參閱文字配對

本節概述平台的模式比對功能。

範例模式

在資料列中,可以套用不同抽象層的多個模式,以說明該資料列中所有欄位 (資料欄) 的資料。假設您有兩個記錄如下:

[cz.laping@gmail.com,3987,1446319063821]
[ajuneauk@gmail.com,5289,1447275151508]

您可以使用下列任一模式來說明上述記錄:

[{alpha-numeric}+,{4-digits},{13-digits}]
[{email},{4-digits},{13-digits}]
[{alpha-numeric}+@gmail.com,{4-digits},{13-digits}]

注意:上述模式使用的是 Cloud Dataprep 模式語法。您也可以使用規則運算式來說明它們。

在上述案例中,這三種模式集均可完全擷取資料。但請注意,資料欄 1 的模式之間有所不同:

模式說明
{alpha-numeric}+此模式會擷取由一或多個英數字元組成的值。因此,符合此模式的項目不一定是有效的電子郵件地址。
{email}此模式確保僅比對有效的電子郵件地址。因此,不符合此模式的值可能會在平台中標記為不相符。
{alpha-numeric}+@gmail.com此部分模式可確保相符項均來自 gmail.com 郵件地址。

您可以依據使用資料的特定意義,套用上述任一模式。

平台中的模式

資料欄剖析

套用於資料欄的模式比對,可讓使用者查看整個樣本中某一資料欄的最常見資料模式,以及異常的資料模式。由於呈現給使用者的模式包含樣本中的完整值集,因此您可以收集到整個資料集中該資料欄資料的一致性詳細資訊。

提示:在您解決資料欄中不相符的值之後,資料欄模式剖析會特別實用。

依據呈現的資料欄資料模式,您可以採取下列任一動作:

  • 篩選記錄子集。 例如,您可以查看地址資料欄的模式,依據您選取的模式,篩選出並未提供任何街道號碼的資料列。
  • 將值標準化。您可以針對不同模式的電話號碼來選取模式。請參閱下方的「按資料類型的模式比對」。
  • 擷取值。 您可以依據結構中的不相符項目來分區資料欄值。例如,您可以將地址欄位中的公寓房號擷取到新資料欄。
  • 可變的抽象層級。如前一範例所示,您可以選取多個比對模式,以判定您要的資料列值最適合套用哪一個模式。

機器學習

此外,Cloud Dataprep by TRIFACTA 會收集所有使用者套用模式的相關匯總資訊。這些模式經過加權後,會以一組建議模式呈現給每個使用者。

按資料類型的模式比對

在模式比對中,平台會依據資料欄的指定資料類型來評估資料。類型專屬的模式比對適用於下列資料類型:

  • 日期時間
  • 電話

請參閱使用模式執行標準化一文。

使用模式

在應用程式中,模式可用做建構下一個方案步驟的起點,且您可以修改或疊代模式定義以預覽指定轉換的結果。您可以在下列動作中使用模式:

  • 選取文字以觸發一或多個以模式為基礎的建議
  • 選取可變的抽象層級模式以修改資料欄資料

選取資料

在資料格線中選取值時,選項即會提供以模式為基礎的建議。您可以透過此方式指出您的需求,並且讓平台解譯您的特定需求或擴大選取資料的目標。這些擴大的變更會在內容面板中呈現為以模式為基礎的建議。

瀏覽模式記錄

在接受模式的「Transform Builder」(轉換製作工具) 欄位中,您可選擇在最近的記錄中查看及選擇模式:

圖:瀏覽模式記錄以查看及選擇最近使用的模式

您可以選取最近使用的模式,並且加入已設定的方案步驟中。詳情請參閱模式記錄面板

資料欄詳細資料中的模式

在「資料欄詳細資料」面板中,您可以查看各種模式組,其中說明資料欄中值的子集。當您選取其中一個模式時,系統會提示一組可以套用於資料的建議轉換步驟。請參閱資料欄詳細資料面板

進階用法

除了上述基本用法外,模式還可以作為下列進階用法和其他作業的基礎。

用法說明
標準化記錄依據模式比對值,然後變更值以配合此模式。請參閱使用模式執行標準化一文。
篩選記錄依據在資料列的資料中找到的值模式,將記錄予以保留或刪除。請參閱篩選資料
擷取值從資料欄擷取符合模式的值,並且將該值插入新的資料欄。請參閱擷取值一文。
產生函式輸出使用模式以在新資料欄中產生函式輸出。

使用者定義的模式

在方案步驟中,您可以使用下列任一方法來指定模式。

規則運算式

規則運算式是可用來定義模式的字元序列。此模式可用於支援規則運算式的轉換,以識別您所需資料中的模式。範例:

replace col: myCol with:/$1/ on:/^\((\d\d\d)\)/ global: false

在上述轉換步驟中,on 子句中指出的比對模式會以下列方式求取值:

  • 模式前後的正斜線指出這是一個規則運算式。
  • ^ 指出 myCol 資料欄中值的開始。因此,只會在資料欄開頭執行比對。
  • \(\) 是括號內常值規則運算式的表示法。因此,系統會對這些特定字元進行比對。
  • 內括號組用來定義值的擷取群組。系統會擷取與這三個數字對應的值,並作為替換項目插入。

因此,淨效果就是在欄位開頭搜尋像 (555) 的值,然後取代為數字:555。這個替換項目會從電話號碼的區碼部分移除括號。

注意:規則運算式是功能非常強大的比對模式工具,但也會造成一些意外結果。使用規則運算式被視為開發人員層級的操作技能。您應改用下面說明的 Cloud Dataprep 模式。

Cloud Dataprep by TRIFACTA 會依據 RE2PCRE 規則運算式語法,實作某個版本的規則運算式。

Cloud Dataprep 模式

使用 Cloud Dataprep 模式可以快速組合複雜的模式來比對資料。下列範例包含與之前的規則運算式作用相等的 Cloud Dataprep 模式:

replace col: myCol with:`$1` on:`^\(({digit}{3})\)` global: false
  • 模式前後的反引號指出這是 Cloud Dataprep 模式。

詳情請參閱文字比對

本頁內容對您是否有任何幫助?請提供意見:

傳送您對下列選項的寶貴意見...

這個網頁
Google Cloud Dataprep 說明文件
需要協助嗎?請前往我們的支援網頁