取代值

無論是資料遺漏、不相符或單純發生錯誤,您皆可在 Cloud Dataprep 應用程式中使用多種方法,將一或多個資料欄中的值取代為常值或是模式取代項目。

取代方法

在「轉換器」頁面中,您可以使用下列方法來取代值:

方法說明
選取在資料格線中選取值,系統隨即會列出各種資料處理建議。取代選項通常在建議清單的頂端。
使用資料欄選單在資料欄右側的選單中,選取 [取代] 和子選單項目來開始設定取代轉換。請參閱資料欄選單
使用轉換器工具列在資料格線頂端的轉換器工具列中,按一下「取代」圖示來開始設定取代項目。請參閱轉換器工具列
使用搜尋面板在「搜尋」面板中,輸入 replace 來從頭開始建構取代轉換。請參閱搜尋面板

用選取的方式取代

當您在資料格線中選取資料時,系統會為您預先指定取代建議,包括在建議資訊卡中提供的多種建議。

附註:

  • 建議的變更範圍通常較保守。預設設定是在搜尋時區分大小寫,以及只比對出第一個發生情況。
  • 建議資訊卡中的建議列出順序:
    • 模式取代項目會先列出。這類取代項目是使用 Cloud Dataprep 模式,而非規則運算式。規則運算式可能較難控制。
    • 常值取代項目會列在模式取代項目下方。

詳情請參閱可預測的轉換總覽

遮蓋資料

基於隱私權或機密性因素,您可以使用固定字串遮蓋一或多個資料欄中的機密資料。

刪除全體資料欄

如果您需要移除整個資料欄中的資料,最簡單的方法就是刪除資料欄。選取一或多個資料欄,然後再從資料欄下拉式選單中選取 [刪除]。請參閱移除資料

遮蓋所有值

您可以使用如下的轉換,以簡單的字串取代資料欄中的所有值。這個範例是插入 #REDACTED# 這個值來取代資料欄中的所有值。

附註:這個取代會將資料欄的資料類型變更為字串。如果您必須保有原始資料類型,則應使用對於該資料類型而言有效的取代值。

轉換名稱 Edit column with formula
參數:資料欄 transactionValue
參數:公式 '#REDACTED#'

遮蓋部分值

假設您想遮蓋資料欄中的部分資料。在以下範例中,AcctNum 資料欄中的資料除了最後四個字元 (位數) 以外都會被遮蓋:

轉換名稱 Edit column with formula
參數:資料欄 AcctNum
參數:公式 value: merge(['XXXX',right(AcctNum, 4)], '')

根據資料類型遮蓋多個資料欄

您可以使用以下類型的轉換來根據資料類型隱藏資料。在這個範例中,所有身分證字號 (SSN) 資料欄中的值都會替換成遮蓋值 XXX-XX-XXXX

這個方法會對資料欄中的資料執行簡單的文字取代作業。為資料套用這項轉換後,除非您復原至先前的步驟,否則無法再使用來源資料。進行這類作業時,較安全的做法是在單一方案中為來源資料套用這類遮蓋作業,然後讓其他使用者將輸出當做匯入的資料集使用。

轉換名稱 Edit column with formula
參數:資料欄 *
參數:公式 if(isvalid($col, ['SSN']), 'XXX-XX-XXXX', $col)

使用其他資料欄的值取代

取代整個資料欄

您可以使用如下的轉換執行簡單的取代作業,將某個資料欄的資料替換成其他資料欄的資料。在這個範例中,colB 的值會替換成 colA 的值,並加上 0.15

轉換名稱 Edit with formula
參數:資料欄 colB
參數:公式 colA + 0.15

取代其他資料欄的部分值

您可以使用 MERGE 函式,將多組完整或部分資料欄合併成新的資料欄。在以下範例中,newBrandId 值會與 ProdId 資料欄中的產品代碼串聯,以產生新的產品 ID:

轉換名稱 Edit with formula
參數:資料欄 ProdId
參數:公式 merge([newBrandId, right(prodId, 5)], '-')

在不同位置之間取代

您可以根據為轉換指定的字元位置執行取代作業。

  • 起始的字元值必須指定為從 0 開始的數字 (從左邊開始)。
  • 結尾的字元值必須等於或大於起始的字元值。

在以下範例中,Whse_Name 資料欄值的前面會加上 old- 值。

轉換名稱 Replace by position
參數:資料欄 Whse_name
參數:起始位置 0
參數:結束位置 0
參數:替換值 old-

搜尋並取代文字或模式

您可以根據常值或模式搜尋並取代資料集中的內容。在以下範例中,資料集中所有資料欄的 ##CLT_NAME## 值都會替換成 Our Customer, Inc.

轉換名稱 Replace text or patterns
參數:資料欄 *
參數:尋找 '##CLT_NAME##'
參數:替換值 'Our Customer, Inc.'
參數:比對所有發生情況 true

取代遺漏值

用零取代遺漏值

針對數字資料,您可以選擇將資料欄中的遺漏值替換成零。以下轉換會針對資料類型為小數的 QtyDiscountPct 資料欄,將這些資料欄中的遺漏值設為 0

轉換名稱 Edit column with formula
參數:資料欄 Qty,DiscountPct
參數:公式 if(ismissing([$col]), '0', $col)

用平均值取代遺漏值

上述方法的一個問題是,如果資料欄套用了任何統計運算,這些運算現已因遺漏值替換成零而受到影響。例如,AVERAGE 函式運算不會將遺漏值計入資料列數量中,導致值出現偏差,不符合您的目的。

以下範例會透過 DiscountPct 資料欄建立新資料欄,其中系統會插入空白值當做來源資料欄中值的平均:

轉換名稱 New formula
參數:公式類型 Single row formula
參數:公式 if(ismissing([DiscountPct]), average(DiscountPct), DiscountPct)
參數:新資料欄名稱 DiscountPct-0toAVG

只要使用這種方法,您就能使用新資料欄建立統計模型,同時保有原始資料欄中的原始值。

重新命名資料欄

詳情請參閱重新命名資料欄

本頁內容對您是否有任何幫助?請提供意見:

傳送您對下列選項的寶貴意見...

這個網頁
Google Cloud Dataprep 說明文件
需要協助嗎?請前往我們的支援網頁