本頁面說明如何在 Cloud Data Fusion Studio 的 Wrangler 工作區中準備資料時,從欄位 (單元格) 擷取及轉換資料。
如要對這類資料執行轉換,您必須將資料分割為不同的欄。在 Wrangler 中,您可以從資料欄擷取資料,並為擷取的資料建立新欄。您可以依據模式、分隔符或位置擷取值。
使用模式擷取資料
您可以使用下列模式,從字串資料類型的資料欄中擷取資料:
- 信用卡
- 日期
- 日期時間
- 電子郵件
- HTML 錨點的網址
- IPv4 位址
- ISBN 代碼
- MAC 位址
- N 位數數字
- SSN
- 開始和結束模式
- 時間
如要根據模式擷取資料,請按照下列步驟操作:
- 前往 Cloud Data Fusion 中的 Wrangler 工作區。
- 在「資料」分頁中,前往所需欄名,然後按一下展開箭頭 arrow_drop_down。
- 依序選取「擷取欄位」>「使用模式」,然後選取所需選項,例如「網址」。
- 選用:按一下「顯示模式」,即可查看模式的規則運算式。
- 按一下「解壓縮」。
Wrangler 會根據所選模式擷取欄位,並將 extract-regex-groups
指令新增至食譜。執行資料管道時,Cloud Data Fusion 會將轉換套用至資料欄中的所有資料列。
在以下範例中,資料欄包含一個數字,後面接著是電子郵件地址:
電子郵件 |
---|
1 222larabrown@gmail.com |
2 cloudysanfrancisco@gmail.com |
如要擷取電子郵件地址,請選取「電子郵件」模式。點選「Extract」後,Wrangler 會保留原始資料欄,並建立只包含電子郵件地址的新資料欄:
電子郵件 | Emails_1 |
---|---|
1 222larabrown@gmail.com | 222larabrown@gmail.com |
2 cloudysanfrancisco@gmail.com | cloudysanfrancisco@gmail.com |
使用分隔符號擷取資料
您可以根據下列分隔符,將資料擷取至兩個或更多資料欄:
- 半形逗號
- Tab 鍵
- 管線符號
- 空白字元
- 自訂分隔符
如果值沒有分隔符號,系統就不會在新資料欄的對應欄位中新增值。
如何根據分隔符號擷取值:
- 前往 Cloud Data Fusion 中的 Wrangler 工作區。
- 在「資料」分頁中,前往所需欄名,然後按一下展開箭頭 arrow_drop_down。
- 依序選取「擷取欄位」>「使用分隔符」,然後選取所需選項,例如「逗號」。
- 按一下「解壓縮」。
Wrangler 會根據所選分隔符號擷取欄位,並將 split-to-columns
指令加入至食譜中。執行資料管道時,Cloud Data Fusion 會轉換資料欄中的所有值。
在以下範例中,資料欄包含多個名稱,並以半形逗號分隔:
ID | 名稱 |
---|---|
1 | Lee、Lucian、Luka |
2 | Mahan、Noam、Nur |
在本範例中,使用半形逗號分隔符模式可將原始 Name
資料欄中的值擷取到三個新資料欄:
ID | 名稱 | Name_1 | Name_2 | Name_3 |
---|---|---|---|---|
1 | Lee、Lucian、Luka | Lee | Lucian | Luka |
2 | Mahan、Noam、Nur | 馬哈恩 | Noam | Nur |
依位置擷取資料
您可以根據字串在字串中的位置,擷取部分字串。
如要根據位置擷取資料,請按照下列步驟操作:
- 前往 Cloud Data Fusion 中的 Wrangler 工作區。
- 在「資料」分頁中,前往所需欄名,然後按一下展開箭頭 arrow_drop_down。
- 依序選取「擷取欄位」>「使用位置」。可擷取的資料欄值會以藍色背景顯示。
- 在資料欄的任何儲存格中,選取要擷取的字元。
- 在「目的地欄名稱」欄位中輸入名稱。
- 按一下 [套用]。
系統會從資料欄的每個資料列中擷取所選值的部分。
Wrangler 會根據所選模式擷取欄位,並將 cut-character
指令新增至食譜。執行資料管道時,Cloud Data Fusion 會將轉換套用至資料欄中的所有值。
後續步驟
- 進一步瞭解 Wrangler 指令。