解析文件

本页介绍了在 Cloud Data Fusion Studio 的 Wrangler 工作区中准备数据时如何解析文件。Wrangler 可让你 将其加载到 Wrangler 工作区:

  • Wrangler 会推断数据类型并将每一列映射到 与文件来源插件在 Pipeline Studio 中的操作相同。
  • 如果无法推断出架构,您可以导入文件格式(例如 JSON)的架构。
  • 配方不包含解析指令,这会减少转换 流水线运行期间的逻辑。
  • 从 Wrangler 创建流水线时,源插件会包含您在 Wrangler 中设置的所有解析属性和值。

创建文件连接

如需在将文件加载到 Wrangler 之前对其进行解析,您必须使用文件连接(例如文件、Cloud Storage 或 Amazon S3)。

  1. 前往 Cloud Data Fusion 中的 Wrangler 工作区
  2. 点击选择数据展开箭头 查看可用连接
  3. 添加针对 File、Cloud Storage 或 S3 的连接。有关 相关信息,请参阅创建和管理连接
  4. 如需打开解析选项对话框,请前往选择数据面板,然后点击相应文件的名称。
  5. Parsing options 对话框中,输入以下信息:

    1. 格式字段中,选择要存储的数据的文件格式。 读取 - 例如 csv。如需了解详情,请参阅支持的格式

      • 如果您选择了分隔符格式,请在分隔符字段中 ,请输入分隔符信息。
      • 如果您选择 CSV、TSV 或分隔符格式,则系统会显示启用英文引号 值字段。如果数据用引号引起来, 选择 True。此设置会从解析结果中删除引号 输出。例如,以下输入 1, "a, b, c" 会解析 分为两个字段第一个字段的值为:1。第二个 字段的值:a, b, c。换行符分隔符不能 放在引号内。
      • 如果您选择了文本、CSV、TSV 或分隔符格式,则使用第一行 显示为标头字段。将每个文件的第一行用作 列标题,请选择 True
    2. 文件编码字段中,选择文件的编码类型 源文件,例如 UTF-8

    3. 可选:导入架构或覆盖推断出的架构 在文件中,点击 Import Schema。您可以导入格式架构,例如 JSON 和某些 Avro 文件(此类文件无法进行架构推断)。通过 schema 必须采用 Avro 格式。

    4. 点击确认。 解析的文件会显示在 Wrangler 工作区中。

支持的格式

文件解析支持以下格式:

  • Avro
  • Blob(Blob 格式需要一个包含名为 body 的字段的架构 bytes 类型)
  • CSV
  • 分隔
  • JSON
  • Parquet
  • 文本(文本格式要求架构中包含一个名为 body 且类型为 string 的字段)
  • TSV

后续步骤