规范化
对于许多受支持的特定字段,除了通过每个实体的 textAnchor
获取的原始提取字段外,Document AI 还会返回 entity.normalizedValue
。它会对字面量文本进行标准化处理。标准化通常会将文本值拆分为子字段。
这包含采用标准化格式的数据,以减少后期处理,并支持转换为所选的任何格式。mentionText
表示文档中的字面内容,永远不会因规范化而发生变化。
归一化字段属于以下某个类别。
控制台中的标准化值
在 Google Cloud 控制台中,经过标准化处理的字段带有 G 注释。例如:

支持的处理器
以下是支持实体丰富和标准化的处理器和字段:
处理器 | 标准化字段 |
---|---|
Expense Parser |
|
Utility Parser |
|
工资单解析器 |
|
美国护照解析器 |
|
美国驾照解析器 |
|
账单解析器 |
|
身份证件证明解析器 |
|
银行对账单解析器 |
|
提取处理器
自定义提取器支持对具有以下 Google Cloud常见数据类型的所有实体进行标准化处理:dateTime
、currency
、money
和 number
。