剖析固定寬度檔案和推測資料欄

對於每個資料列具有固定寬度的資料集而言,由於無法確定每個資料元素之間的空格和分頁字元數量,因此決定資料欄中斷位置會更具挑戰性。有了模式比對強化功能,應用程式可幫助您確定中斷資料欄的適當位置,並且減少資料以消除空格字元填充。

步驟:

  1. 透過應用程式載入固定寬度的資料集,並開始疊加。
  2. 資料格式看起來可能像以下這樣:


    圖:匯入後的固定寬度資料集

  3. 在資料欄名稱右側的下拉式選單中,選取 [資料欄詳細資訊]。

  4. 在「資料欄詳細資料」面板中,點選 [模式] 分頁標籤。

  5. 按一下「所有模式」區域。

    注意:選擇特定模式符記將僅為該特定符記產生建議。

    注意:假如應用程式已推斷資料集為固定寬度,則「所有模式」區域是唯一選項。如果資料集沒有被推斷為固定寬度,您會看到多個模式類別。

  6. 按一下建議資訊卡中的 [Split]。
  7. 關閉 [資料欄詳細資料] 面板。
  8. 在轉換預覽視窗中,確認資料欄分割可正常顯示。
    1. 假如資料欄包含多個資料欄的資料,請按一下 [Edit]
    2. 確認您正在根據位置編號進行分割,這表示根據每行左側的字元數,資料欄已完成分割。
    3. 您的方案步驟可能會類似以下內容:

      轉換名稱 Split columns by positions
      參數:要分割的資料欄 column1
      參數:選項 By positions
      參數:位置 7, 67, 117, 167, 217, 221, 239, 251, 253, 303, 315, 317, 329, 341, 391, 400, 512, 560, 610, 630, 650, 660
    4. 在位置值清單中,插入一或多個資料欄 (包含多個資料欄的資料) 的新位置編號。
    5. 在轉換預覽面板中確認您的變更內容。
  9. 按一下 [Add]。
  10. 確認資料欄分割顯示正常。
  11. 您可以使用下列步驟從每個儲存格值中移除空格。

    轉換名稱 Edit column with formula
    參數:資料欄 *
    參數:公式 TRIM($col)
  12. 按一下 [Add]。
本頁內容對您是否有任何幫助?請提供意見:

傳送您對下列選項的寶貴意見...

這個網頁
Google Cloud Dataprep 說明文件
需要協助嗎?請前往我們的支援網頁