本页介绍了在 Cloud Data Fusion Studio 的 Wrangler 工作区中准备数据时如何解析文件。借助 Wrangler,您可以在将文件加载到 Wrangler 工作区之前对其进行解析:
- Wrangler 会推断数据类型,并将每个列映射到推断出的数据类型,就像文件源插件在 Pipeline Studio 中执行的操作一样。
- 如果无法推断出架构,您可以导入文件格式(例如 JSON)的架构。
- 该食谱不包含解析指令,这会减少流水线运行期间的转换逻辑。
- 从 Wrangler 创建流水线时,源插件会包含您在 Wrangler 中设置的所有解析属性和值。
创建文件连接
如需在将文件加载到 Wrangler 之前对其进行解析,您必须使用文件连接(例如文件、Cloud Storage 或 Amazon S3)。
- 前往 Cloud Data Fusion 中的 Wrangler 工作区。
- 点击选择数据展开箭头,查看可用的连接。
- 为云端硬盘、Cloud Storage 或 S3 添加连接。如需了解详情,请参阅创建和管理连接。
- 如需打开解析选项对话框,请前往选择数据面板,然后点击文件名称。
在解析选项对话框中,输入以下信息:
在格式字段中,选择要读取的数据的文件格式,例如 csv。如需了解详情,请参阅支持的格式。
- 如果您选择分隔符格式,请在随即显示的分隔符字段中输入分隔符信息。
- 如果您选择 CSV、TSV 或分隔符格式,系统会显示启用带引号的值字段。如果您的数据用引号括起来,请选择 True。此设置会从解析的输出中剪除引号。例如,以下输入
1, "a, b, c"
会解析为两个字段。第一个字段的值为1
。第二个字段的值为a, b, c
。换行符分隔符不能位于引号中。 - 如果您选择了文本、CSV、TSV 或分隔符格式,系统会显示将第一行用作标题字段。如需将每个文件的第一行用作列标题,请选择 True。
在文件编码字段中,选择源文件的文件编码类型,例如 UTF-8。
可选:如需导入架构或替换文件的推断出架构,请点击导入架构。您可以为无法推断架构的格式(例如 JSON 和某些 Avro 文件)导入架构。架构必须采用 Avro 格式。
点击确认。 解析后的文件会显示在 Wrangler 工作区中。
支持的格式
文件解析支持以下格式:
- Avro
- Blob(Blob 格式要求架构包含一个名为
body
且类型为bytes
的字段) - CSV
- 分隔
- JSON
- Parquet
- 文本(文本格式要求架构中包含一个名为
body
且类型为string
的字段) - TSV
后续步骤
- 详细了解 Wrangler 指令。