事前トレーニングの概要

Document AI には、さまざまなユースケースの情報のドキュメント処理を行う複数のプロダクトが用意されています。

事前トレーニング済みパーサー

詳細については、事前トレーニング済みプロセッサの確認をご覧ください。

銀行明細書パーサー

銀行明細書パーサーは Key-Value ペア(KVP)を抽出します。最大 17 個の汎用エンティティを抽出できます。たとえば、口座番号、クライアント名、銀行名、入出金などのテーブル項目などです。抽出するフィールド(スキーマ)を指定しません。銀行明細書パーサーは、拡充正規化をサポートしています。

W2 パーサー

W2 パーサーは、IRS Form W2 から KVP として抽出します。従業員名、社会保障番号、雇用主、賃金など、最大 12 個の一般的なエンティティを抽出できます。抽出するフィールド(スキーマ)は指定しません。W2 パーサーは拡充をサポートしています。

米国パスポート パーサー

米国のパスポート パーサーは KVP を抽出します。最大 7 つの汎用エンティティを抽出できます。たとえば、名前、姓、身分証明書の ID、生年月日などです。抽出するフィールド(スキーマ)は指定しません。米国のパスポート パーサーは正規化をサポートしています。

光熱費パーサー

ユーティリティ パーサーは KVP を抽出します。公共料金の請求書から最大 75 個の汎用エンティティを抽出できます。サプライヤー名、過去の支払額、項目(金額、説明、商品コード、数量など)が含まれます。ユーティリティ パーサーで抽出するフィールド(スキーマ)は指定しません。

身分証明書パーサー

身分証明書パーサーは、複数のシグナルを使用して身分証明書の有効性を予測します。

  • fraud_signals_is_identity_document 検出: 画像に認識済みの身分証明書が含まれているかどうかを予測します。
  • fraud_signals_suspicious_words 検出: 身分証明書では一般的に使われない単語が存在するかどうかを予測します。
  • fraud_signals_image_manipulation 検出: 画像編集ツールで画像が変更または改ざんされたかどうかを予測します。
  • fraud_signals_online_duplicate 検出: 画像がオンラインで見つかるかどうかを予測します(米国のみ)。

支払い明細パーサー

支払い明細パーサーは KVP を抽出します。給与明細書から最大 26 個の一般的なエンティティを抽出できます。従業員の名前、賞与、コミッション、残業、支払い日などが含まれます。抽出するフィールド(スキーマ)を指定しません。給与明細書パーサーは、拡充正規化をサポートしています。

米国の運転免許証パーサー

米国運転免許証パーサーは KVP を抽出します。運転免許証から最大 8 個の一般的なエンティティを抽出できます。例: 名前、姓、ドキュメント ID、有効期限。抽出するフィールド(スキーマ)は指定しません。米国の運転免許証パーサーは正規化をサポートしています。

経費パーサー

経費パーサーは KVP を抽出します。費用レポートから最大 17 個の汎用エンティティを抽出できます。例: 出費の日付、サプライヤー名、合計金額、通貨。抽出するフィールド(スキーマ)を指定しません。費用パーサーは、拡充正規化をサポートしています。

Invoice パーサー

Invoice パーサーは KVP を抽出します。請求書から最大 46 個の汎用エンティティを抽出できます。請求書番号、サプライヤー名、請求額、税額、請求日、期限などです。抽出するフィールド(スキーマ)を指定しません。Invoice パーサーは、拡充正規化をサポートしています。

Summarizer

Summarizer は、短いドキュメントと長いドキュメントの概要と箇条書きの要約を提供します。また、要約の出力の長さを包括的、中程度、簡潔のいずれかに指定することもできます。