정규화

지원되는 많은 특정 필드의 경우 Document AI는 각 항목의 textAnchor를 통해 가져온 원시 추출 필드 외에도 entity.normalizedValue도 반환합니다. 리터럴 텍스트를 정규화합니다. 정규화는 종종 텍스트 값을 하위 필드로 나눕니다.

후처리를 줄이고 선택한 형식으로 변환할 수 있도록 표준화된 형식의 데이터가 포함되어 있습니다. 문서에 실제로 있는 내용을 나타내는 mentionText는 정규화로 인해 변경되지 않습니다.

정규화된 필드는 다음 카테고리 중 하나에 속합니다.

콘솔의 정규화된 값

Google Cloud 콘솔에서 정규화된 필드는 G로 주석 처리됩니다. 예를 들면 다음과 같습니다.

보강
웹 애플리케이션에 표시된 정규화된 샘플 필드입니다.

지원되는 프로세서

다음은 항목 보강 및 정규화를 지원하는 프로세서 및 필드입니다.

프로세서 정규화된 필드

은행 명세서 파서

카테고리 선행 학습됨
해결 방법 유형 대출
함수 OCR, 항목 추출
출시 단계 정식 버전
액세스 상태 공개
전체 프로세서 세부정보 세부 항목
  • ending_balance
  • starting_balance
  • statement_date
  • statement_end_date
  • statement_start_date
  • table_item/transaction_deposit
  • table_item/transaction_deposit_date
  • table_item/transaction_withdrawal
  • table_item/transaction_withdrawal_date

미국 여권 파서

카테고리 선행 학습됨
해결 방법 유형 ID
함수 OCR, 항목 추출
출시 단계 정식 버전
액세스 상태 공개
전체 프로세서 세부정보 세부 항목
  • Date Of Birth
  • Expiration Date
  • Issue Date

공과금 파서

카테고리 선행 학습됨
해결 방법 유형 조달
함수 OCR, 항목 추출
출시 단계 정식 버전
액세스 상태 제한적
전체 프로세서 세부정보 세부 항목
  • adjusted_amount
  • amount_due
  • balance_transfer_amount
  • currency
  • currency_exchange_rate
  • delivery_date
  • due_date
  • invoice_date
  • late_fee_amount
  • line_item/amount
  • line_item/quantity
  • line_item/tax_amount
  • line_item/unit_price
  • net_amount
  • prior_amount_due
  • prior_paid_amount
  • total_amount
  • total_tax_amount

신분증 증명 파서

카테고리 선행 학습됨
해결 방법 유형 ID
함수 OCR, 품질 분석
출시 단계 미리보기
액세스 상태 공개
전체 프로세서 세부정보 세부 항목
  • fraud_signals_image_manipulation
  • fraud_signals_online_duplicate (US only)
  • fraud_signals_is_identity_document
  • fraud_signals_suspicious_words

급여 명세서 파서

카테고리 선행 학습됨
해결 방법 유형 대출
함수 OCR, 항목 추출
출시 단계 정식 버전
액세스 상태 공개
전체 프로세서 세부정보 세부 항목
  • bonus
  • bonus_ytd
  • commissions
  • commissions_ytd
  • direct_deposit
  • end_date
  • gross_earnings
  • gross_earnings_ytd
  • holiday
  • holiday_ytd
  • net_pay
  • net_pay_ytd
  • overtime
  • overtime_ytd
  • pay_date
  • regular_pay
  • regular_pay_ytd
  • start_date
  • vacation
  • vacation_ytd

미국 운전면허증 파서

카테고리 선행 학습됨
해결 방법 유형 ID
함수 OCR, 항목 추출
출시 단계 정식 버전
액세스 상태 공개
전체 프로세서 세부정보 세부 항목
  • Date Of Birth
  • Expiration Date
  • Issue Date

지출 파서

카테고리 선행 학습됨
해결 방법 유형 조달
함수 OCR, 항목 추출
출시 단계 정식 버전
액세스 상태 공개
전체 프로세서 세부정보 세부 항목
  • currency
  • total_amount
  • total_tax_amount
  • net_amount
  • receipt_date
  • purchase_time
  • start_date
  • end_date
  • line_item/amount
  • line_item/payment_date
  • line_item/payment_amount

인보이스 파서

카테고리 선행 학습됨
해결 방법 유형 조달
함수 OCR, 항목 추출
출시 단계 정식 버전
액세스 상태 공개
전체 프로세서 세부정보 세부 항목
  • amount_paid_since_last_invoice
  • currency
  • currency_exchange_rate
  • delivery_date
  • due_date
  • freight_amount
  • invoice_date
  • net_amount
  • total_amount
  • total_tax_amount
  • line_item/amount
  • line_item/quantity
  • line_item/unit_price
  • vat/amount
  • vat/tax_amount
  • vat/tax_rate

추출 프로세서

맞춤 추출기는 다음과 같은 Google Cloud일반적인 데이터 유형(dateTime, currency, money, number)을 사용하여 모든 항목의 정규화를 지원합니다.

프로세서 정규화된 데이터 유형

맞춤 추출기

카테고리 추출
해결 방법 유형 커스텀
함수 OCR, 항목 추출
출시 단계 정식 버전
액세스 상태 공개
전체 프로세서 세부정보 세부 항목
  • dateTime as STRING
  • currency as STRING
  • money as google.type.Money
  • number as FLOAT or INTEGER