コンテンツに移動
AI & 機械学習

Document AI で W2 と給与明細の処理がさらに容易に

2023年1月16日
https://storage.googleapis.com/gweb-cloudblog-publish/images/aiml2022.max-2500x2500.jpg
Google Cloud Japan Team

※この投稿は米国時間 2023 年 1 月 10 日に、Google Cloud blog に投稿されたものの抄訳です。

給与明細や源泉徴収票(W2)などのドキュメントは、住宅ローン、個人ローン、個人ファイナンス、給付手続きのために雇用状況や収入を確認するような処理に欠かせません。残念ながら、こうしたドキュメントから大規模なデータを効率的に抽出することは困難で時間がかかる場合があります。多くの組織はドキュメントの手動検査や、特定のタスクに必要なドキュメント データを十分に取得できない自動化アプローチに依存しています。そこで、Google Cloud は Document AI を構築してこのような障壁を取り除き、お客様がパワフルな機械学習モデルをデプロイし、ドキュメントの処理、費用の削減、分析情報の取得を迅速化できるようにしました。最近のリリースでは、W2 や給与明細向けに改良された事前トレーニング済みモデルが Document AI Workbench 上に構築され、Document AI の機能が強化されました。

事前トレーニング済みモデルにより、開発者は主要なアプリケーション ロジックに集中し、ドキュメントから情報を抽出する複雑なタスクを Google の AI テクノロジーに任せることができます。多くの場合、自動データ抽出に取り組む主な理由は業務の効率化と費用削減ですが、Document AI は新しい可能性を切り開くことも可能です。たとえば、金融サービス会社の場合、Document AI を使用することで、モバイル デバイスで完全にセルフサービスのローン申請が可能になるため、シンプルで高速なカスタマー エクスペリエンスによって自社を差別化しやすくなります。

お客様から伺ったお話では、より詳細なエンティティを W2 や給与明細から抽出することが特に重要であり、組織はより幅広いレイアウトと形式のサポートを必要としています。このような要求には、最近公開された、上述の事前トレーニング済みモデルの安定版リリースがお応えします。

W2 パーサーの新機能は次のとおりです。

  • このパーサーは、住所などの長いエンティティを StreetAddressOrPostalBox、AdditionalStreetAddressOrPostalBox、City、State、ZIP code などの細かいサブエンティティに分解できるため、精度とエンティティの特異性が向上します。

  • さまざまな給与計算業者が発行する複数のコピー(2、3、4 枚複製)など、幅広いバリエーションの W2 フォームに対応できます。このモデルは特定の課税年度に限定されません。つまり、形式に大幅な変更がなければ、2022 年以降も W2 を処理できます。

  • コードと値の両方を表す 8 つの新しいエンティティが Box 12 向けに導入されており、W2 受領者の収入のさまざまな課税対象項目と非課税対象項目について理解が深まります。

支払い明細パーサーの新機能は次のとおりです。

  • ボーナス、コミッション、休日、残業、基本給、有給休暇が earning_item/earning_this_period と earning_item/earning_ytd に含まれるようになりました。支払い明細パーサーは、これらのカテゴリに当てはまらない種類の収益を取り込み、それぞれの収益率、時間、支払い(期間と年初来の両方)にマッピングします。これにより、給与明細受領者の収入項目をより詳細に理解しやすくなります。

  • 支払い明細パーサーは、年初来および当期の税金と控除を返すようになりました。

  • 口座振込は対応する銀行口座番号にリンクされています。

  • 支払い明細パーサーは、ページ番号、州税と連邦税の控除、申告状況を返すようになりました。

上述のパーサーはさらに便利になり、すぐに使用できるようになりました。今回のリリースでは、アップトレーニング機能により、新しいニーズに合わせて簡単に変更できます。アップトレーニングを使用すると、開発者は各モデルの精度をさらに向上させ、最小限の開発作業で追加のフィールドを抽出できます。また、開発者は既存のパーサーをカスタマイズして、同様の新しいドキュメント タイプに対応することもできます。たとえば、パーサーは米国のデータでトレーニングされていますが、アップトレーニングすることで、英国用の支払い明細パーサーを作成できます。

パーサーはすでにお客様に違いをもたらしています。融資自動化企業 Gateless の CTO である Bryan Jackson 氏は、次のように述べています。「高精度のデータ抽出は、Smart Underwrite ソリューションの成功に不可欠であり、Document AI は競合他社よりも優れた成果をもたらしました。W2 と給与明細の最新の事前トレーニング済みパーサーを使用したところ、給与明細のパフォーマンスが 48% も向上し、W2 のパフォーマンスが 15% も向上しました。新しいドキュメントのバリエーションの導入時にモデルを簡単にアップトレーニングできるため、お客様に最適な成果を提供し続けられます。」

リリース候補版として利用可能な追加の事前トレーニング済みモデルには、1040、1099R、1120、1120S のドキュメント向けのパーサーが含まれます。詳しくは、こちらをご覧ください。さらに、Document AI がビジネスにどのように役立つかについては、Google Cloud の営業担当者にお問い合わせください。また、Google Cloud Next '22 の Document AI ブレイクアウト セッションもご覧ください。


この投稿に協力してくれた Wael Farhan と Carl Saroufim に感謝します。

- エンジニアリング / GCP Cloud AI および業種別ソリューション担当プロダクト マネージャー Prateek Gera
投稿先