丰富
Document AI 使用 Enterprise Knowledge Graph 来对实体提取结果进行归一化和丰富(适用于受支持的字段)。例如,地址 123 Main St Apt 1
和 123 Main street # 1
可以归一为相同的标准化地址。
对于每个受支持的字段,除了原始提取的字段之外,Document AI 还会返回 normalizedValue
,以规范化字面文本。该文件包含采用标准格式的数据,以减少后处理工作量。
大多数数据属于以下某一类:
- 金额
- 日期
- 时间戳
- 地址
- 布尔值
- 整数
- 浮点数
示例响应
您可以在 entities.normalizedValue
字段中找到经过丰富的值,如以下截断的示例所示:
{
"entities": [
{
"textAnchor": {
"textSegments": [ ... ],
"content": "Google Singapore"
},
"type": "employer_name",
"mentionText": "Google Singapore",
"confidence": 0.69933707,
"pageAnchor": {
"pageRefs": [
{
"boundingPoly": {
"normalizedVertices": [ ... ]
}
}
]
},
"id": "9",
"normalizedValue": {
"text": "Google Asia Pacific, Singapore"
}
}
]
}
在示例中,原始 employer_name
“Google Singapore”已标准化为“Google Asia Pacific, Singapore”。
在 Google Cloud 控制台中,经过丰富和标准化的字段带有 G 注解。例如:
支持的处理器
下面列出了支持实体丰富功能的处理器和字段。
处理器 | 经过丰富的字段 | ||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
银行对账单解析器
|
|
||||||||||||
W2 解析器
|
|
||||||||||||
工资单解析器
|
|
||||||||||||
Expense Parser
|
|
||||||||||||
账单解析器
|
|