從欄位中擷取資料

本頁面說明如何在 Cloud Data Fusion Studio 的 Wrangler 工作區中準備資料時,從欄位 (單元格) 擷取及轉換資料。

如要對這類資料執行轉換,您必須將資料分割為不同的欄。在 Wrangler 中,您可以從資料欄擷取資料,並為擷取的資料建立新欄。您可以依據模式、分隔符或位置擷取值。

使用模式擷取資料

您可以使用下列模式,從字串資料類型的資料欄中擷取資料:

  • 信用卡
  • 日期
  • 日期時間
  • 電子郵件
  • HTML 錨點的網址
  • IPv4 位址
  • ISBN 代碼
  • MAC 位址
  • N 位數數字
  • SSN
  • 開始和結束模式
  • 時間

如要根據模式擷取資料,請按照下列步驟操作:

  1. 前往 Cloud Data Fusion 中的 Wrangler 工作區
  2. 在「資料」分頁中,前往所需欄名,然後按一下展開箭頭 arrow_drop_down
  3. 依序選取「擷取欄位」>「使用模式」,然後選取所需選項,例如「網址」
  4. 選用:按一下「顯示模式」,即可查看模式的規則運算式。
  5. 按一下「解壓縮」

Wrangler 會根據所選模式擷取欄位,並將 extract-regex-groups 指令新增至食譜。執行資料管道時,Cloud Data Fusion 會將轉換套用至資料欄中的所有資料列。

在以下範例中,資料欄包含一個數字,後面接著是電子郵件地址:

電子郵件
1 222larabrown@gmail.com
2 cloudysanfrancisco@gmail.com

如要擷取電子郵件地址,請選取「電子郵件」模式。點選「Extract」後,Wrangler 會保留原始資料欄,並建立只包含電子郵件地址的新資料欄:

電子郵件 Emails_1
1 222larabrown@gmail.com 222larabrown@gmail.com
2 cloudysanfrancisco@gmail.com cloudysanfrancisco@gmail.com

使用分隔符號擷取資料

您可以根據下列分隔符,將資料擷取至兩個或更多資料欄:

  • 半形逗號
  • Tab 鍵
  • 管線符號
  • 空白字元
  • 自訂分隔符

如果值沒有分隔符號,系統就不會在新資料欄的對應欄位中新增值。

如何根據分隔符號擷取值:

  1. 前往 Cloud Data Fusion 中的 Wrangler 工作區
  2. 在「資料」分頁中,前往所需欄名,然後按一下展開箭頭 arrow_drop_down
  3. 依序選取「擷取欄位」>「使用分隔符」,然後選取所需選項,例如「逗號」
  4. 按一下「解壓縮」

Wrangler 會根據所選分隔符號擷取欄位,並將 split-to-columns 指令加入至食譜中。執行資料管道時,Cloud Data Fusion 會轉換資料欄中的所有值。

在以下範例中,資料欄包含多個名稱,並以半形逗號分隔:

ID 名稱
1 Lee、Lucian、Luka
2 Mahan、Noam、Nur

在本範例中,使用半形逗號分隔符模式可將原始 Name 資料欄中的值擷取到三個新資料欄:

ID 名稱 Name_1 Name_2 Name_3
1 Lee、Lucian、Luka Lee Lucian Luka
2 Mahan、Noam、Nur 馬哈恩 Noam Nur

依位置擷取資料

您可以根據字串在字串中的位置,擷取部分字串。

如要根據位置擷取資料,請按照下列步驟操作:

  1. 前往 Cloud Data Fusion 中的 Wrangler 工作區
  2. 在「資料」分頁中,前往所需欄名,然後按一下展開箭頭 arrow_drop_down
  3. 依序選取「擷取欄位」>「使用位置」。可擷取的資料欄值會以藍色背景顯示。
  4. 在資料欄的任何儲存格中,選取要擷取的字元。
  5. 在「目的地欄名稱」欄位中輸入名稱。
  6. 按一下 [套用]

系統會從資料欄的每個資料列中擷取所選值的部分。

Wrangler 會根據所選模式擷取欄位,並將 cut-character 指令新增至食譜。執行資料管道時,Cloud Data Fusion 會將轉換套用至資料欄中的所有值。

後續步驟