Document AI 使用 Enterprise Knowledge Graph 来对实体提取结果(针对受支持的字段)进行归一化和扩充。例如,地址 123 Main St Apt 1
和 123 Main street # 1
可以标准化为同一标准化地址。
对于每个受支持的字段,Document AI 除了返回原始提取字段之外,还会返回 normalizedValue
,用于对字面文本进行归一化处理。
此文件包含采用标准化格式的数据,可减少后处理。
大多数数据属于以下类别之一:
- 金额
- 日期
- 时间戳
- 地址
- 布尔值
- 整数
- 浮点数
示例响应
您可以在 entities.normalizedValue
字段中找到丰富后的值,如下面的截断示例所示:
{
"entities": [
{
"textAnchor": {
"textSegments": [ ... ],
"content": "Google Singapore"
},
"type": "employer_name",
"mentionText": "Google Singapore",
"confidence": 0.69933707,
"pageAnchor": {
"pageRefs": [
{
"boundingPoly": {
"normalizedVertices": [ ... ]
}
}
]
},
"id": "9",
"normalizedValue": {
"text": "Google Asia Pacific, Singapore"
}
}
]
}
在示例中,原始 employer_name
“Google 新加坡”已归一化为“Google 亚太地区,新加坡”。
在 Google Cloud 控制台中,经过丰富和归一化的字段会带有 G 注释。例如:

支持的处理器
以下是支持实体丰富功能的处理器和字段。
处理器 | 扩展字段 | ||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
银行对账单解析器
|
|
||||||||||||
W2 解析器
|
|
||||||||||||
工资单解析器
|
|
||||||||||||
Expense Parser
|
|
||||||||||||
账单解析器
|
|