您可以透過「Standardize」(標準化) 頁面查看相似資料欄值,並將其標準化為您指定的值。例如,客戶與產品的主要資料可能會針對相同產品使用不同名稱。針對 Web 團隊,產品可能稱為「ACME Cookies Chocolate Chip」,而會計團隊的資料會將此產品稱為「Cookies - Choc Chip」。您可以透過「Standardize」(標準化) 頁面將這些值標準化為一個一致的值,以便於下游使用。
- 標準化一次可套用至一個資料欄。
- 如要進一步瞭解 Cloud Dataprep by TRIFACTA® 如何標準化值,請參閱標準化總覽。
如要開啟「Standardize」(標準化) 頁面,請執行下列操作:
- 從特定資料欄中,按一下資料欄下拉式選單,然後選取 [Standardize...] (標準化…)。
- 在「Search」(搜尋) 面板中,輸入
standardize column
。然後,選取您要標準化值的資料欄,並按一下 [Next] (下一步)。請參閱搜尋面板一文。
圖:標準化頁面
在上圖中,Cloud Dataprep by TRIFACTA® 會將產品名稱的各種參照分組到其對有意義叢集的解譯中。此叢集以資料欄中各值之間的模式比對為基礎。
附註:「Standardize」(標準化) 頁面只會顯示目前所選範例中的資料欄值。如果範例未跨整個資料集,則顯示畫面中未擷取的資料欄值不會受標準化變更的影響。您可能需要採用其他範例,才能擷取目前範例以外的資料欄值。
您可以在畫面左側查看已在資料欄中偵測到的值叢集。在上圖中,您可以看到平台已經根據範例大小寫的差異識別出一些叢集。
- 您可以針對每個叢集查看資料欄中的唯一值數以及顯示值的總資料列數。
- 您可以在左側窗格底部查看來源資料欄中唯一值的總數,以及顯示範例中的總資料列數。
動作:
- 根據預設,系統會根據相似的拼法為值建立叢集。如要變更為值建立叢集的演算法,請按一下 [Clustering options] (叢集選項)。詳情請參閱標準化總覽。
- 如要在資料欄中找出特定值,請在「Search」(搜尋) 文字方塊中輸入搜尋字串。
- 如要反轉叢集中的排序順序,請按一下 [Row Count] (列數) 旁邊的脫字符號。
步驟:
如要標準化值,請執行下列操作:
必要時,請變更套用至值的叢集演算法。
從左側面板中,選取您要標準化的一組值。
提示:非叢集值會列在面板底部。選取叢集值時,應檢查這些值。
如要選取多個值,請按下
COMMAND
並按一下滑鼠。提示:如要選取叢集中所有的值,請針對叢集按一下灰色列。
- 如要選取一系列依序列出的值,請使用
SHIFT
並按一下滑鼠,此操作可跨值叢集運作。
選取要標準化的所有值之後,您可以在右側面板中指定要套用至這些所選值的新值。此新值會套用至一或多個所選值的所有執行個體。您可以在來源值旁邊預覽變更。
提示:您可以使用其中一個來源值做為標準化值。將滑鼠游標移至左側面板中的值,然後按一下顯示的圖示。
- 您可以在輸入的值下方查看範例中受此變更影響的資料列數。
- 套用此變更之後,您可以在右側面板底部查看資料集中標準化的總體效果。
- 如果沒有新值,系統會將值保持原樣,且不會套用任何變更。
- 如要將標準化值套用至受影響的叢集值,請按一下 [Apply] (套用)。
視需要重複上述步驟。
提示:您可以在一個方案步驟中執行多個取代作業。因此,您可以先設定所有標準化步驟,然後再將單一步驟新增至方案。為了便於偵錯,您可能想將部分或所有標準化作業分為個別步驟。
- 如要新增標準化作業,請按一下 [Add to Recipe] (新增至方案)。
附註:您無法在「Recipe」(方案) 面板中複製並貼上標準化步驟。