보강

Document AI는 Enterprise Knowledge Graph를 사용하여 항목 추출 결과 (지원되는 필드의 경우)를 정규화하고 보강합니다. 예를 들어 123 Main St Apt 1123 Main street # 1 주소는 동일한 표준화된 주소로 정규화될 수 있습니다.

지원되는 각 필드의 경우 Document AI는 원시 추출된 필드 외에도 normalizedValue를 반환하여 리터럴 텍스트를 정규화합니다. 여기에는 후처리를 줄이기 위해 표준화된 형식의 데이터가 포함됩니다.

대부분의 데이터는 다음 카테고리 중 하나에 속합니다.

  • 금액
  • 날짜
  • 타임스탬프
  • 주소
  • 불리언
  • 정수
  • 부동 소수점 수

샘플 응답

강화된 값은 다음 잘린 샘플에 표시된 대로 entities.normalizedValue 필드에서 확인할 수 있습니다.

{
  "entities": [
    {
      "textAnchor": {
        "textSegments": [ ... ],
        "content": "Google Singapore"
      },
      "type": "employer_name",
      "mentionText": "Google Singapore",
      "confidence": 0.69933707,
      "pageAnchor": {
        "pageRefs": [
          {
            "boundingPoly": {
              "normalizedVertices": [ ... ]
            }
          }
        ]
      },
      "id": "9",
      "normalizedValue": {
        "text": "Google Asia Pacific, Singapore"
      }
    }
  ]
}

샘플에서 원래 employer_name 'Google Singapore'가 'Google Asia Pacific, Singapore'로 정규화되었습니다.

Google Cloud 콘솔에서 보강되고 정규화된 필드는 G로 주석이 달려 있습니다. 예를 들면 다음과 같습니다.

보강
웹 애플리케이션에 표시된 정규화된 필드의 샘플입니다.

지원되는 프로세서

다음은 엔티티 강화를 지원하는 프로세서와 필드입니다.

프로세서 정보가 추가된 필드

은행 명세서 파서

카테고리 선행 학습됨
솔루션 유형 대출
함수 OCR, 항목 추출
출시 단계 정식 버전
액세스 상태 공개
전체 프로세서 세부정보 세부 항목
  • bank_address
  • bank_name

W2 파서

카테고리 선행 학습됨
솔루션 유형 대출
함수 OCR, 항목 추출
출시 단계 정식 버전
액세스 상태 공개
전체 프로세서 세부정보 세부 항목
  • EmployerNameAndAddress
  • EIN

급여 명세서 파서

카테고리 선행 학습됨
솔루션 유형 대출
함수 OCR, 항목 추출
출시 단계 정식 버전
액세스 상태 공개
전체 프로세서 세부정보 세부 항목
  • employer_address
  • employer_name

지출 파서

카테고리 선행 학습됨
솔루션 유형 조달
함수 OCR, 항목 추출
출시 단계 정식 버전
액세스 상태 공개
전체 프로세서 세부정보 세부 항목
  • supplier_address
  • supplier_name
  • supplier_phone

인보이스 파서

카테고리 선행 학습됨
솔루션 유형 조달
함수 OCR, 항목 추출
출시 단계 정식 버전
액세스 상태 공개
전체 프로세서 세부정보 세부 항목
  • supplier_address
  • supplier_name
  • supplier_phone