此页面由 Cloud Translation API 翻译。

扩充

Document AI 使用 Enterprise Knowledge Graph 来对实体提取结果（针对受支持的字段）进行归一化和扩充。例如，地址 123 Main St Apt 1 和 123 Main street # 1 可以标准化为同一标准化地址。

对于每个受支持的字段，Document AI 除了返回原始提取字段之外，还会返回 normalizedValue，用于对字面文本进行归一化处理。此文件包含采用标准化格式的数据，可减少后处理。

大多数数据属于以下类别之一：

金额
日期
时间戳
地址
布尔值
整数
浮点数

示例响应

您可以在 entities.normalizedValue 字段中找到丰富后的值，如下面的截断示例所示：

{
  "entities": [
    {
      "textAnchor": {
        "textSegments": [ ... ],
        "content": "Google Singapore"
      },
      "type": "employer_name",
      "mentionText": "Google Singapore",
      "confidence": 0.69933707,
      "pageAnchor": {
        "pageRefs": [
          {
            "boundingPoly": {
              "normalizedVertices": [ ... ]
            }
          }
        ]
      },
      "id": "9",
      "normalizedValue": {
        "text": "Google Asia Pacific, Singapore"
      }
    }
  ]
}

在示例中，原始 employer_name“Google 新加坡”已归一化为“Google 亚太地区，新加坡”。

在 Google Cloud 控制台中，经过丰富和归一化的字段会带有 G 注释。例如：

支持的处理器

以下是支持实体丰富功能的处理器和字段。

处理器扩展字段

银行对账单解析器

类别	预先训练
解决方案类型	贷款
函数	OCR、实体提取
发布阶段	正式版
访问权限状态	公开
完整的处理器详细信息	详细条目

bank_address
bank_name

W2 解析器

类别	预先训练
解决方案类型	贷款
函数	OCR、实体提取
发布阶段	正式版
访问权限状态	公开
完整的处理器详细信息	详细条目

EmployerNameAndAddress
EIN

工资单解析器

类别	预先训练
解决方案类型	贷款
函数	OCR、实体提取
发布阶段	正式版
访问权限状态	公开
完整的处理器详细信息	详细条目

employer_address
employer_name

Expense Parser

类别	预先训练
解决方案类型	采购
函数	OCR、实体提取
发布阶段	正式版
访问权限状态	公开
完整的处理器详细信息	详细条目

supplier_address
supplier_name
supplier_phone

账单解析器

类别	预先训练
解决方案类型	采购
函数	OCR、实体提取
发布阶段	正式版
访问权限状态	公开
完整的处理器详细信息	详细条目

supplier_address
supplier_name
supplier_phone

设置

规范化