本页介绍了在 Cloud Data Fusion Studio 的 Wrangler 工作区中准备数据时如何解析文件。Wrangler 可让你 将其加载到 Wrangler 工作区:
- Wrangler 会推断数据类型并将每一列映射到 与文件来源插件在 Pipeline Studio 中的操作相同。
- 如果无法推断出架构,您可以导入文件格式(例如 JSON)的架构。
- 配方不包含解析指令,这会减少转换 流水线运行期间的逻辑。
- 从 Wrangler 创建流水线时,源插件会包含您在 Wrangler 中设置的所有解析属性和值。
创建文件连接
如需在将文件加载到 Wrangler 之前对其进行解析,您必须使用文件连接(例如文件、Cloud Storage 或 Amazon S3)。
- 前往 Cloud Data Fusion 中的 Wrangler 工作区。
- 点击选择数据展开箭头 查看可用连接
- 添加针对 File、Cloud Storage 或 S3 的连接。有关 相关信息,请参阅创建和管理连接。
- 如需打开解析选项对话框,请前往选择数据面板,然后点击相应文件的名称。
在 Parsing options 对话框中,输入以下信息:
在格式字段中,选择要存储的数据的文件格式。 读取 - 例如 csv。如需了解详情,请参阅支持的格式。
- 如果您选择了分隔符格式,请在分隔符字段中 ,请输入分隔符信息。
- 如果您选择 CSV、TSV 或分隔符格式,则系统会显示启用英文引号
值字段。如果数据用引号引起来,
选择 True。此设置会从解析结果中删除引号
输出。例如,以下输入
1, "a, b, c"
会解析 分为两个字段第一个字段的值为:1
。第二个 字段的值:a, b, c
。换行符分隔符不能 放在引号内。 - 如果您选择了文本、CSV、TSV 或分隔符格式,则使用第一行 显示为标头字段。将每个文件的第一行用作 列标题,请选择 True。
在文件编码字段中,选择文件的编码类型 源文件,例如 UTF-8。
可选:导入架构或覆盖推断出的架构 在文件中,点击 Import Schema。您可以导入格式架构,例如 JSON 和某些 Avro 文件(此类文件无法进行架构推断)。通过 schema 必须采用 Avro 格式。
点击确认。 解析的文件会显示在 Wrangler 工作区中。
支持的格式
文件解析支持以下格式:
- Avro
- Blob(Blob 格式需要一个包含名为
body
的字段的架构bytes
类型) - CSV
- 分隔
- JSON
- Parquet
- 文本(文本格式要求架构中包含一个名为
body
且类型为string
的字段) - TSV
后续步骤
- 详细了解 Wrangler 指令。