此页面由 Cloud Translation API 翻译。

解析文件

本页介绍了在 Cloud Data Fusion Studio 的 Wrangler 工作区中准备数据时如何解析文件。Wrangler 可让你将其加载到 Wrangler 工作区：

Wrangler 会推断数据类型并将每一列映射到与文件来源插件在 Pipeline Studio 中的操作相同。
如果无法推断出架构，您可以导入文件格式（例如 JSON）的架构。
配方不包含解析指令，这会减少转换流水线运行期间的逻辑。
从 Wrangler 创建流水线时，源插件会包含您在 Wrangler 中设置的所有解析属性和值。

创建文件连接

如需在将文件加载到 Wrangler 之前对其进行解析，您必须使用文件连接（例如文件、Cloud Storage 或 Amazon S3）。

前往 Cloud Data Fusion 中的 Wrangler 工作区。
点击选择数据展开箭头查看可用连接
添加针对 File、Cloud Storage 或 S3 的连接。有关相关信息，请参阅创建和管理连接。
如需打开解析选项对话框，请前往选择数据面板，然后点击相应文件的名称。
在 Parsing options 对话框中，输入以下信息：
1. 在格式字段中，选择要存储的数据的文件格式。读取 - 例如 csv。如需了解详情，请参阅支持的格式。
  - 如果您选择了分隔符格式，请在分隔符字段中，请输入分隔符信息。
  - 如果您选择 CSV、TSV 或分隔符格式，则系统会显示启用英文引号值字段。如果数据用引号引起来，选择 True。此设置会从解析结果中删除引号输出。例如，以下输入 1, "a, b, c" 会解析分为两个字段第一个字段的值为：1。第二个字段的值：a, b, c。换行符分隔符不能放在引号内。
  - 如果您选择了文本、CSV、TSV 或分隔符格式，则使用第一行显示为标头字段。将每个文件的第一行用作列标题，请选择 True。
2. 在文件编码字段中，选择文件的编码类型源文件，例如 UTF-8。
3. 可选：导入架构或覆盖推断出的架构在文件中，点击 Import Schema。您可以导入格式架构，例如 JSON 和某些 Avro 文件（此类文件无法进行架构推断）。通过 schema 必须采用 Avro 格式。
4. 点击确认。解析的文件会显示在 Wrangler 工作区中。

支持的格式

文件解析支持以下格式：

Avro
Blob（Blob 格式需要一个包含名为 body 的字段的架构 bytes 类型）
CSV
分隔
JSON
Parquet
文本（文本格式要求架构中包含一个名为 body 且类型为 string 的字段）
TSV

后续步骤

详细了解 Wrangler 指令。