解析文件

本页介绍了在 Cloud Data Fusion Studio 的 Wrangler 工作区中准备数据时如何解析文件。借助 Wrangler,您可以在将文件加载到 Wrangler 工作区之前对其进行解析:

  • Wrangler 会推断数据类型,并将每个列映射到推断出的数据类型,就像文件源插件在 Pipeline Studio 中执行的操作一样。
  • 如果无法推断出架构,您可以导入文件格式(例如 JSON)的架构。
  • 该食谱不包含解析指令,这会减少流水线运行期间的转换逻辑。
  • 从 Wrangler 创建流水线时,源插件会包含您在 Wrangler 中设置的所有解析属性和值。

创建文件连接

如需在将文件加载到 Wrangler 之前对其进行解析,您必须使用文件连接(例如文件、Cloud Storage 或 Amazon S3)。

  1. 前往 Cloud Data Fusion 中的 Wrangler 工作区
  2. 点击选择数据展开箭头,查看可用的连接。
  3. 为云端硬盘、Cloud Storage 或 S3 添加连接。如需了解详情,请参阅创建和管理连接
  4. 如需打开解析选项对话框,请前往选择数据面板,然后点击文件名称。
  5. 解析选项对话框中,输入以下信息:

    1. 格式字段中,选择要读取的数据的文件格式,例如 csv。如需了解详情,请参阅支持的格式

      • 如果您选择分隔符格式,请在随即显示的分隔符字段中输入分隔符信息。
      • 如果您选择 CSV、TSV 或分隔符格式,系统会显示启用带引号的值字段。如果您的数据用引号括起来,请选择 True。此设置会从解析的输出中剪除引号。例如,以下输入 1, "a, b, c" 会解析为两个字段。第一个字段的值为 1。第二个字段的值为 a, b, c。换行符分隔符不能位于引号中。
      • 如果您选择了文本、CSV、TSV 或分隔符格式,系统会显示将第一行用作标题字段。如需将每个文件的第一行用作列标题,请选择 True
    2. 文件编码字段中,选择源文件的文件编码类型,例如 UTF-8

    3. 可选:如需导入架构或替换文件的推断出架构,请点击导入架构。您可以为无法推断架构的格式(例如 JSON 和某些 Avro 文件)导入架构。架构必须采用 Avro 格式。

    4. 点击确认。 解析后的文件会显示在 Wrangler 工作区中。

支持的格式

文件解析支持以下格式:

  • Avro
  • Blob(Blob 格式要求架构包含一个名为 body 且类型为 bytes 的字段)
  • CSV
  • 分隔
  • JSON
  • Parquet
  • 文本(文本格式要求架构中包含一个名为 body 且类型为 string 的字段)
  • TSV

后续步骤