剖析檔案

本頁面說明如何在 Cloud Data Fusion Studio 的 Wrangler 工作區中準備資料時剖析檔案。您可以先使用 Wrangler 剖析檔案,再將檔案載入 Wrangler 工作區:

  • Wrangler 會推斷資料類型,並將每個資料欄對應至推斷的資料類型,這與 Pipeline Studio 中的檔案來源外掛程式相同。
  • 如果無法推斷結構定義,您可以匯入 JSON 等檔案格式的結構定義。
  • 這項配方不包含剖析指令,因此可在管道執行期間減少轉換邏輯。
  • 透過 Wrangler 建立管道時,來源外掛程式會包含您在 Wrangler 中設定的所有剖析屬性和值。

建立檔案連線

如要在剖析檔案前將檔案載入 Wrangler,您必須使用檔案連線,例如檔案、Cloud Storage 或 Amazon S3。

  1. 前往 Cloud Data Fusion 中的 Wrangler 工作區
  2. 按一下「選取資料」展開箭頭,查看可用的連結。
  3. 新增檔案、Cloud Storage 或 S3 的連結。詳情請參閱「建立及管理連線」。
  4. 如要開啟剖析選項對話方塊,請前往「Select data」面板,然後按一下檔案名稱。
  5. 在「Parsing options」對話方塊中,輸入下列資訊:

    1. 在「格式」欄位中,選擇要讀取的資料檔案格式,例如 csv。詳情請參閱「支援的格式」。

      • 如果選擇分隔符號格式,請在隨即顯示的「分隔符號」欄位中輸入分隔符號資訊。
      • 如果您選擇 CSV、TSV 或分隔符格式,系統會顯示「啟用引號值」欄位。如果資料已加上引號,請選取「True」。這項設定會從剖析的輸出內容中修飾引號。舉例來說,下列輸入內容 1, "a, b, c" 會剖析為兩個欄位。第一個欄位的值為:1。第二個欄位的值為:a, b, c。換行分隔符號不得位於引號內。
      • 如果您選擇文字、CSV、TSV 或分隔符格式,系統會顯示「Use first row as header」欄位。如要使用每個檔案的第一行做為欄標題,請選取「是」
    2. 在「檔案編碼」欄位中,選擇來源檔案的檔案編碼類型,例如 UTF-8

    3. 選用:如要匯入結構定義或覆寫檔案的推測結構定義,請按一下「Import Schema」。您可以匯入 JSON 和部分 Avro 檔案等格式的結構定義,因為這些格式無法進行結構推論。結構定義必須採用 Avro 格式。

    4. 按一下「Confirm」(確認)。剖析的檔案會顯示在 Wrangler 工作區中。

支援的格式

檔案剖析支援下列格式:

  • Avro
  • Blob (Blob 格式需要結構定義,其中包含名稱為 body 的欄位,類型為 bytes)
  • CSV
  • 分隔
  • JSON
  • Parquet
  • 文字 (文字格式需要包含名為 body 的欄位,類型為 string)
  • TSV

後續步驟