拡充

Document AI は、Enterprise Knowledge Graph を使用して、エンティティ抽出結果(サポートされているフィールド)を正規化および拡充します。たとえば、住所 123 Main St Apt 1123 Main street # 1 は、同じ標準化された住所として正規化できます。

サポートされている各フィールドについて、Document AI は抽出された元のフィールドに加えて normalizedValue を返します。これにより、リテラル テキストが正規化されます。後処理を減らすために、データは標準形式で格納されます。

ほとんどのデータは次のいずれかのカテゴリに属します。

  • 金額
  • 日付
  • タイムスタンプ
  • 住所
  • ブール値
  • 整数
  • 浮動小数点数

レスポンスの例

拡充された値は、次の切り捨てられたサンプルに示すように、entities.normalizedValue フィールドにあります。

{
  "entities": [
    {
      "textAnchor": {
        "textSegments": [ ... ],
        "content": "Google Singapore"
      },
      "type": "employer_name",
      "mentionText": "Google Singapore",
      "confidence": 0.69933707,
      "pageAnchor": {
        "pageRefs": [
          {
            "boundingPoly": {
              "normalizedVertices": [ ... ]
            }
          }
        ]
      },
      "id": "9",
      "normalizedValue": {
        "text": "Google Asia Pacific, Singapore"
      }
    }
  ]
}

このサンプルでは、元の employer_name「Google Singapore」が「Google Asia Pacific, Singapore」に正規化されています。

Google Cloud コンソールでは、拡充および正規化されたフィールドには G というアノテーションが付けられます。次に例を示します。

拡充
ウェブ アプリケーションに表示される標準化されたフィールドの例。

サポートされるプロセッサ

エンティティの拡充をサポートするプロセッサとフィールドは次のとおりです。

プロセッサ 拡充フィールド

銀行明細書パーサー

カテゴリ トレーニング済み
ソリューション タイプ 融資
関数 OCR、エンティティ抽出
リリース ステージ 一般提供
アクセス ステータス 公開
プロセッサの詳細 詳細なエントリ
  • bank_address
  • bank_name

W2 パーサー

カテゴリ トレーニング済み
ソリューション タイプ 融資
関数 OCR、エンティティ抽出
リリース ステージ 一般提供
アクセス ステータス 公開
プロセッサの詳細 詳細なエントリ
  • EmployerNameAndAddress
  • EIN

支払い明細パーサー

カテゴリ トレーニング済み
ソリューション タイプ 融資
関数 OCR、エンティティ抽出
リリース ステージ 一般提供
アクセス ステータス 公開
プロセッサの詳細 詳細なエントリ
  • employer_address
  • employer_name

経費パーサー

カテゴリ トレーニング済み
ソリューション タイプ 調達
関数 OCR、エンティティ抽出
リリース ステージ 一般提供
アクセス ステータス 公開
プロセッサの詳細 詳細なエントリ
  • supplier_address
  • supplier_name
  • supplier_phone

Invoice パーサー

カテゴリ トレーニング済み
ソリューション タイプ 調達
関数 OCR、エンティティ抽出
リリース ステージ 一般提供
アクセス ステータス 公開
プロセッサの詳細 詳細なエントリ
  • supplier_address
  • supplier_name
  • supplier_phone