在 Cloud Dataprep 應用程式中,您可以透過資料欄的下拉式選單,為個別資料欄重新命名。您可透過轉換步驟重新命名一或多個資料欄。
名稱要求
資料欄名稱不區分大小寫,並且不能以空格為開頭。
注意:發佈至 Avro 時,資料欄名稱僅支援英數字元及底線 (_) 字元,其他字元會造成錯誤。
注意:含有空格或特殊字元的資料欄名稱,轉換時必須在前後加上大括號。範例:
column1,{Column 2 with space},column3
提示:為了防止下游系統可能發生的問題,您應限制資料欄長度不得超過 128 個字元。
重新命名個別資料欄
如要重新命名資料欄,請按一下資料欄名稱旁的下拉式選單脫字符號。點選 [重新命名]。
透過建議功能重新命名
步驟:
- 如果資料欄已經存在,按一下資料欄的名稱。
- 請按一下「重新命名」建議項目資訊卡。
- 按一下 [修改]。
- 以您偏好的資料欄名稱取代
newColumnName
這個值。
重新命名新的資料列
透過轉換步驟產生的資料欄會有預設名稱。
不過,假如是下列轉換類型,您可以在步驟中指定資料欄名稱:
derive
extractkv
merge
nest
在轉換新增至方案後,as:
子句會自動新增至轉換步驟中:您可以修改轉換指令,藉以變更 as:
資料欄的值。
舉例來說,下列轉換會產生新資料欄,且第一個字來自 Name
資料欄。as:
值會將產生的資料欄重新命名為 FirstName
:
轉換名稱 | New formula |
---|---|
參數:公式類型 | Single row formula |
參數:公式 | FIND(Name,`{start} `,false,0) |
參數:新資料欄名稱 | FirstName |
自動產生的資料欄名稱
當轉換指令產生新資料欄時,名稱會根據以下模式自動指派給這些資料欄。
如果轉換指令包含函式參照,新的資料欄必須納入函式名稱。範例:
轉換名稱 New formula
參數:公式類型 Single row formula
參數:公式 LEFT(city,3)
新資料欄名稱:left_city
假如上述步驟再次套用,函式會使用以下名稱產生重複的資料欄。範例:
轉換名稱 New formula
參數:公式類型 Single row formula
參數:公式 LEFT(city,3)
新資料欄名稱:left_city1
如果轉換指令不包含函式參照,則會採用以下慣例:
轉換名稱 New formula
參數:公式類型 Single row formula
參數:公式 'A'
新資料欄名稱:
column1
轉換名稱 New formula
參數:公式類型 Single row formula
參數:公式 'B'
新資料欄名稱:
column2
重新命名多個資料欄
Cloud Dataprep by TRIFACTA 可讓您使用單一轉換指令重新命名多個資料欄。您可以使用本節所述的其中一種方法,執行這個批次重新命名程序。
提示:為了防止下游系統可能發生的問題,您應限制資料欄長度不得超過 128 個字元。
步驟:
- 開啟轉換指令製作工具,將新的步驟加入方案。
- 在第一個文字方塊中的下拉式選單,選取
Rename columns
。 - 選取您的重新命名方法。如下所示。
- 選取要套用重新命名內容的一或多個資料欄。
- 如要將步驟加入您的方案,請按一下 [新增]。
批次重新命名方法
以下方法可套用至重新命名多個資料欄的程序中。
手動重新命名
針對您選取的每個資料欄,您必須將新名稱加到舊名稱的正下方。
- 如要將額外資料欄加入對應處,請按一下 [新增]。
- 如要將資料欄從對應處移除,請按一下 [移除]。
新增前置字串
針對選取的資料欄,您可以將指定前置字串值加到名稱上。範例:
舊資料欄名稱 | 前置字串 | 新資料欄名稱 |
---|---|---|
column1 | pre_ | pre_column1 |
column2 | pre_ | pre_column2 |
column3 | pre_ | pre_column3 |
新增後置字串
針對選取的資料欄,您可以將指定後置字串值加到名稱上。範例:
舊資料欄名稱 | 後置字串 | 新資料欄名稱 |
---|---|---|
column1 | _new | column1_new |
column2 | _new | column2_new |
column3 | _new | column3_new |
尋找與取代
您可以套用常值、Cloud Dataprep 模式或規則運算式,藉以比對資料欄名稱的文字模式。接著,可用固定值來替代這些比對值。
提示:預設行為會取代第一個例項。 使用「比對所有出現的值」核取方塊,以套用模式至資料集中所有符合的資料欄。
如要進一步瞭解模式,請參閱文字配對一文。
使用資料列作為資料欄名稱
應用此方法時,指定資料列或資料列的所有值,都將作為各個資料欄的新名稱。
注意:這個方法適用於資料集中的所有資料欄。
類型
類型 | 說明 |
---|---|
使用單一資料列將資料欄重新命名 | 在範例中指定資料列編號,以作為資料欄名稱的來源。 注意:來源資料列編號資訊必須可供使用。如下所示。 |
使用範例中的第一項資料列將資料欄重新命名 | 使用範例中的第一項資料列為所有資料欄的名稱。 |
合併多個資料列將資料欄重新命名 | 指定兩個或多個資料列合併,以作為資料欄名稱。詳情請見下方說明。 注意:來源資料列編號資訊必須可供使用。如下所示。 |
來源資料列編號資訊
注意:如果已無法取得來源資料列編號資訊,就無法使用此方法來重新命名資料欄。
- 如果來源資料列編號沒有值,就會使用下一個資料列。
- 系統會套用來源資料列號碼。目前的資料列號碼不一定相同。在資料格線中,將游標懸停在最左側的資料欄以查看可用的資料列資訊。
- 資料列之中的每個值,或是多個資料列之間的值組合,在一組新的資料欄名稱中都必須不重複。
- 資料列會從原始位置中移除。
- 如果產品無法為資料欄找到不重複的多資料列標題,則會使用標頭所設定的第一個資料列。
合併多個資料列:
下列轉換會依據資料第 3 列及第 4 列的值,重新命名資料集之中的資料欄:
轉換名稱 | Rename columns |
---|---|
參數:選項 | Use row(s) as column names |
參數:類型 | Combine multiple rows to name columns |
參數:資料列編號 - 列 A | 3 |
參數:資料列編號 - 列 B | 4 |
參數:選擇您的分隔符 | '_' |
參數:跨列填滿? | Selected |
在上方的轉換指令中:
- 分隔符定義為底線字元 (
_
)。此值必須為空白。 - 選擇跨列填滿時,如有任何資料列值為空白,就會使用前一個資料欄之中最後一個資料列非空白值,作為一部分的資料欄標題。