정규화

Document AI는 지원되는 많은 특정 필드의 경우 각 항목의 textAnchor를 통해 획득한 원시 추출 필드 외에 entity.normalizedValue도 반환합니다. 리터럴 텍스트를 정규화합니다. 정규화는 텍스트 값을 하위 필드로 분할하는 경우가 많습니다.

여기에는 후처리를 줄이고 선택한 형식으로의 변환을 지원하기 위해 표준화된 형식의 데이터가 포함됩니다. 문서에 있는 내용을 그대로 나타내는 mentionText는 정규화에 의해 변경되지 않습니다.

정규화된 필드는 다음 카테고리 중 하나에 속합니다.

콘솔의 정규화된 값

Google Cloud 콘솔에서 정규화된 필드에는 G라는 주석이 달려 있습니다. 예를 들면 다음과 같습니다.

보강
웹 애플리케이션에 표시된 정규화된 필드의 샘플입니다.

지원되는 프로세서

다음은 엔티티 보강 및 정규화를 지원하는 프로세서와 필드입니다.

프로세서 정규화된 필드

은행 명세서 파서

카테고리 선행 학습됨
솔루션 유형 대출
함수 OCR, 항목 추출
출시 단계 정식 버전
액세스 상태 공개
전체 프로세서 세부정보 세부 항목
  • ending_balance
  • starting_balance
  • statement_date
  • statement_end_date
  • statement_start_date
  • table_item/transaction_deposit
  • table_item/transaction_deposit_date
  • table_item/transaction_withdrawal
  • table_item/transaction_withdrawal_date

미국 여권 파서

카테고리 선행 학습됨
솔루션 유형 ID
함수 OCR, 항목 추출
출시 단계 정식 버전
액세스 상태 공개
전체 프로세서 세부정보 세부 항목
  • Date Of Birth
  • Expiration Date
  • Issue Date

공과금 파서

카테고리 선행 학습됨
솔루션 유형 조달
함수 OCR, 항목 추출
출시 단계 정식 버전
액세스 상태 제한적 이용
전체 프로세서 세부정보 세부 항목
  • adjusted_amount
  • amount_due
  • balance_transfer_amount
  • currency
  • currency_exchange_rate
  • delivery_date
  • due_date
  • invoice_date
  • late_fee_amount
  • line_item/amount
  • line_item/quantity
  • line_item/tax_amount
  • line_item/unit_price
  • net_amount
  • prior_amount_due
  • prior_paid_amount
  • total_amount
  • total_tax_amount

신분증 증명 파서

카테고리 선행 학습됨
솔루션 유형 ID
함수 OCR, 품질 분석
출시 단계 정식 버전
액세스 상태 공개
전체 프로세서 세부정보 세부 항목
  • fraud_signals_image_manipulation
  • fraud_signals_online_duplicate (US only)
  • fraud_signals_is_identity_document
  • fraud_signals_suspicious_words

급여 명세서 파서

카테고리 선행 학습됨
솔루션 유형 대출
함수 OCR, 항목 추출
출시 단계 정식 버전
액세스 상태 공개
전체 프로세서 세부정보 세부 항목
  • bonus
  • bonus_ytd
  • commissions
  • commissions_ytd
  • direct_deposit
  • end_date
  • gross_earnings
  • gross_earnings_ytd
  • holiday
  • holiday_ytd
  • net_pay
  • net_pay_ytd
  • overtime
  • overtime_ytd
  • pay_date
  • regular_pay
  • regular_pay_ytd
  • start_date
  • vacation
  • vacation_ytd

미국 운전면허증 파서

카테고리 선행 학습됨
솔루션 유형 ID
함수 OCR, 항목 추출
출시 단계 정식 버전
액세스 상태 공개
전체 프로세서 세부정보 세부 항목
  • Date Of Birth
  • Expiration Date
  • Issue Date

지출 파서

카테고리 선행 학습됨
솔루션 유형 조달
함수 OCR, 항목 추출
출시 단계 정식 버전
액세스 상태 공개
전체 프로세서 세부정보 세부 항목
  • currency
  • total_amount
  • total_tax_amount
  • net_amount
  • receipt_date
  • purchase_time
  • start_date
  • end_date
  • line_item/amount
  • line_item/payment_date
  • line_item/payment_amount

인보이스 파서

카테고리 선행 학습됨
솔루션 유형 조달
함수 OCR, 항목 추출
출시 단계 정식 버전
액세스 상태 공개
전체 프로세서 세부정보 세부 항목
  • amount_paid_since_last_invoice
  • currency
  • currency_exchange_rate
  • delivery_date
  • due_date
  • freight_amount
  • invoice_date
  • net_amount
  • total_amount
  • total_tax_amount
  • line_item/amount
  • line_item/quantity
  • line_item/unit_price
  • vat/amount
  • vat/tax_amount
  • vat/tax_rate

추출 프로세서

맞춤 추출기는 dateTime, currency, money, number의 Google Cloud일반 데이터 유형을 사용하여 모든 항목의 정규화를 지원합니다.

프로세서 정규화된 데이터 유형

맞춤 추출기

카테고리 추출
솔루션 유형 커스텀
함수 OCR, 항목 추출
출시 단계 정식 버전
액세스 상태 공개
전체 프로세서 세부정보 세부 항목
  • dateTime as STRING
  • currency as STRING
  • money as google.type.Money
  • number as FLOAT or INTEGER