丰富

Document AI 使用 Enterprise Knowledge Graph 来对实体提取结果进行归一化和丰富(适用于受支持的字段)。例如,地址 123 Main St Apt 1123 Main street # 1 可以归一为相同的标准化地址。

对于每个受支持的字段,除了原始提取的字段之外,Document AI 还会返回 normalizedValue,以规范化字面文本。该文件包含采用标准格式的数据,以减少后处理工作量。

大多数数据属于以下某一类:

  • 金额
  • 日期
  • 时间戳
  • 地址
  • 布尔值
  • 整数
  • 浮点数

示例响应

您可以在 entities.normalizedValue 字段中找到经过丰富的值,如以下截断的示例所示:

{
  "entities": [
    {
      "textAnchor": {
        "textSegments": [ ... ],
        "content": "Google Singapore"
      },
      "type": "employer_name",
      "mentionText": "Google Singapore",
      "confidence": 0.69933707,
      "pageAnchor": {
        "pageRefs": [
          {
            "boundingPoly": {
              "normalizedVertices": [ ... ]
            }
          }
        ]
      },
      "id": "9",
      "normalizedValue": {
        "text": "Google Asia Pacific, Singapore"
      }
    }
  ]
}

在示例中,原始 employer_name“Google Singapore”已标准化为“Google Asia Pacific, Singapore”。

在 Google Cloud 控制台中,经过丰富和标准化的字段带有 G 注解。例如:

丰富
Web 应用中显示的归一化字段示例。

支持的处理器

下面列出了支持实体丰富功能的处理器和字段。

处理器 经过丰富的字段

银行对账单解析器

类别 预先训练
解决方案类型 放款
函数 光学字符识别 (OCR)、实体提取
发布阶段 正式版
访问状态 公开
完整的处理器详细信息 详细条目
  • bank_address
  • bank_name

W2 解析器

类别 预先训练
解决方案类型 放款
函数 光学字符识别 (OCR)、实体提取
发布阶段 正式版
访问状态 公开
完整的处理器详细信息 详细条目
  • EmployerNameAndAddress
  • EIN

工资单解析器

类别 预先训练
解决方案类型 放款
函数 光学字符识别 (OCR)、实体提取
发布阶段 正式版
访问状态 公开
完整的处理器详细信息 详细条目
  • employer_address
  • employer_name

Expense Parser

类别 预先训练
解决方案类型 采购
函数 光学字符识别 (OCR)、实体提取
发布阶段 正式版
访问状态 公开
完整的处理器详细信息 详细条目
  • supplier_address
  • supplier_name
  • supplier_phone

账单解析器

类别 预先训练
解决方案类型 采购
函数 光学字符识别 (OCR)、实体提取
发布阶段 正式版
访问状态 公开
完整的处理器详细信息 详细条目
  • supplier_address
  • supplier_name
  • supplier_phone