보강

Document AI는 Enterprise Knowledge Graph를 사용하여 지원되는 필드의 항목 추출 결과를 정규화하고 보강합니다. 예를 들어 주소 123 Main St Apt 1123 Main street # 1는 동일한 표준화된 주소로 정규화될 수 있습니다.

지원되는 각 필드의 경우 Document AI는 추출된 원시 필드 외에도 리터럴 텍스트를 정규화하는 normalizedValue도 반환합니다. 여기에는 후처리를 줄이기 위해 표준화된 형식의 데이터가 포함됩니다.

대부분의 데이터는 다음 카테고리 중 하나에 속합니다.

  • 금액
  • 날짜
  • 타임스탬프
  • 주소
  • 불리언
  • 정수
  • 부동 소수점 수

샘플 응답

다음과 같이 잘린 샘플에서 볼 수 있듯이 보강된 값은 entities.normalizedValue 필드에서 확인할 수 있습니다.

{
  "entities": [
    {
      "textAnchor": {
        "textSegments": [ ... ],
        "content": "Google Singapore"
      },
      "type": "employer_name",
      "mentionText": "Google Singapore",
      "confidence": 0.69933707,
      "pageAnchor": {
        "pageRefs": [
          {
            "boundingPoly": {
              "normalizedVertices": [ ... ]
            }
          }
        ]
      },
      "id": "9",
      "normalizedValue": {
        "text": "Google Asia Pacific, Singapore"
      }
    }
  ]
}

샘플에서 원래 employer_name 'Google Singapore'가 'Google Asia Pacific, Singapore'로 정규화되었습니다.

Google Cloud 콘솔에서 보강되고 정규화된 필드에는 G가 주석으로 추가됩니다. 예를 들면 다음과 같습니다.

보강
웹 애플리케이션에 표시된 정규화된 샘플 필드입니다.

지원되는 프로세서

다음은 항목 보강을 지원하는 프로세서 및 필드입니다.

프로세서 보강된 필드

은행 명세서 파서

카테고리 선행 학습됨
해결 방법 유형 대출
함수 OCR, 항목 추출
출시 단계 정식 버전
액세스 상태 공개
전체 프로세서 세부정보 세부 항목
  • bank_address
  • bank_name

W2 파서

카테고리 선행 학습됨
해결 방법 유형 대출
함수 OCR, 항목 추출
출시 단계 정식 버전
액세스 상태 공개
전체 프로세서 세부정보 세부 항목
  • EmployerNameAndAddress
  • EIN

급여 명세서 파서

카테고리 선행 학습됨
해결 방법 유형 대출
함수 OCR, 항목 추출
출시 단계 정식 버전
액세스 상태 공개
전체 프로세서 세부정보 세부 항목
  • employer_address
  • employer_name

지출 파서

카테고리 선행 학습됨
해결 방법 유형 조달
함수 OCR, 항목 추출
출시 단계 정식 버전
액세스 상태 공개
전체 프로세서 세부정보 세부 항목
  • supplier_address
  • supplier_name
  • supplier_phone

인보이스 파서

카테고리 선행 학습됨
해결 방법 유형 조달
함수 OCR, 항목 추출
출시 단계 정식 버전
액세스 상태 공개
전체 프로세서 세부정보 세부 항목
  • supplier_address
  • supplier_name
  • supplier_phone