コンテンツに移動
AI & 機械学習

Document AI の OCR エンジンに追加された 3 つの新機能

2023年1月6日
https://storage.googleapis.com/gweb-cloudblog-publish/images/aiml2022_PO1vxqJ.max-2500x2500.jpg
Google Cloud Japan Team

※この投稿は米国時間 2022 年 12 月 22 日に、Google Cloud blog に投稿されたものの抄訳です。

ドキュメントは仕事でも私生活でも欠かすことのできないものです。効率化を図り、情報を整理して最適化することはもちろん、競争力を維持するうえで役立つ重要な分析情報も与えてくれます。しかし、ドキュメントが複雑さを増し、その種類が増え続けていくのに伴い、人々や企業が膨大な量の情報をふるいにかけて実用的な分析情報を抽出することがますます困難になっています。

ここで役立つのが、Google Cloud の Document AI です。Document AI は、ドキュメントを理解し整理するための、AI を活用した統合スイートです。Document AI は、Document AI Workbench(最先端のカスタム ML プラットフォーム)、Document AI ウェアハウス(ドキュメントの保存と分析機能を備えたマネージド サービス)、ドキュメント処理用の事前トレーニング済みモデルの豊富なセットで構成されています。そして、これらのサービスを支えているのが、世界水準のドキュメントの光学式文字認識(OCR)エンジンを使用し、さまざまな種類のドキュメントからテキストを正確に抽出する能力です。

https://storage.googleapis.com/gweb-cloudblog-publish/images/1_OCR_engine_122122.max-1500x1500.jpg

Google Cloud の Document AI OCR は、非構造化ドキュメントを入力として受け取り、そのドキュメントからテキストとレイアウト(段落、行など)を抽出します。200 を超える言語に対応しており、Google Cloud チームと Google Research チームによって開発された最先端の機械学習モデルが搭載されています。

このたび、ドキュメント処理のワークフローをさらに強化できる、3 つの新しい OCR 機能が公開プレビュー版でリリースされました。

1. インテリジェント ドキュメント品質(IDQ)による、ページ単位でのドキュメントの品質評価

Document AI OCR を使用すると、Google Cloud のお客様やパートナー様は、単語の頻度分布、項目の相対位置、入力ドキュメントの主要言語など、ドキュメントの主な特徴をプログラムによって抽出し、それらをダウンストリームのビジネス ロジックへの重要な入力情報として使うことができます。本日、このツールボックスに、もう 1 つの重要なドキュメント評価シグナルである、インテリジェント ドキュメント品質(IDQ)スコアを追加いたしました。

IDQ は、以下の 8 つの項目においてページ単位での品質指標を提供します。

  1. 不明瞭さ(ぼやけ)

  2. 光学的ノイズのレベル

  3. 暗さ

  4. 不鮮明さ(かすかさ)

  5. 通常より小さいフォントの存在

  6. ドキュメントの途切れ

  7. 文字の途切れ

  8. 光の状態による光沢(反射)

ドキュメントの光学的品質を識別できるため、その品質に基づいて異なる処理が必要となるドキュメントを評価し、ドキュメント処理のパイプライン全体を効率化できます。たとえば、Jack Henry で融資および預金ソリューション部門のマネージング ディレクターを務める Gary Lewis 氏は、次のように述べています。「インテリジェント ドキュメント品質(IDQ)シグナルによって強化された Google の Document AI テクノロジーは、企業が購入の際にファクタリング会社に送信する請求書と支払いのデータの取得を自動化するために役立ちます。これによって、社内の効率化を図り、ファクタリング会社や金融業者のリスクを軽減し、資金繰りに悩む企業に迅速に融資を行うことができます。」

全体的に、ドキュメント品質指標は、ダウンストリーム分析のためにドキュメントを高度な方法で振り分ける道筋をつけるものです。以下の参照ワークフローは、ドキュメント品質スコアを使って、ドキュメントを分割し分類してから、事前構築された Form パーサー(ドキュメントが高品質な場合)またはカスタム ドキュメント エクストラクタ(低品質のデータセットに特化してトレーニング済み)に送信するワークフローを示しています。

https://storage.googleapis.com/gweb-cloudblog-publish/images/2_OCR_engine_122122.max-1400x1400.jpg

2. 組み込みのデジタル PDF サポートによる、デジタル PDF ドキュメントの確実な処理

PDF 形式は、調達(請求書、注文書)、融資(W-2 フォーム、給与明細書)、契約(リースや住宅ローンの契約)など、さまざまなビジネス用途で使用されています。PDF ドキュメントには、画像ベース(スキャンした運転免許証など)のものと、デジタルベースのものがあり、Google ドキュメントや Microsoft Word などのテキスト ファイルを操作するのと同じ方法で、PDF ドキュメントに埋め込まれたテキストにカーソルを合わせ、ハイライト表示し、コピーや貼り付けができます。

こうした背景を踏まえ、Document AI OCR でのデジタル PDF のサポートを開始いたしました。デジタル PDF 機能によって原本のドキュメントに表示されているとおりにテキストや記号が抽出されるため、回転したテキスト、極端なフォントサイズやスタイル、部分的に隠れたテキストなど、表示が複雑な場合でも、OCR エンジンは高いパフォーマンスを発揮します。  

銀行や金融における PDF ドキュメント(銀行の明細書、住宅ローンの契約など)の重要性と普及について、PwC で Google Cloud Practice 担当ディレクターを務める Ritesh Biswas 氏は、次のように述べています。「デジタル PDF 入力形式に対応している Google Cloud の Document AI OCR ソリューションを使用することで、PwC は世界の金融サービス業界にデジタル トランスフォーメーションをもたらすことができました。」

3. OCR バージョニングでモデルの特徴を「固定」

クラウドベースのフルマネージド サービスである Document AI OCR は、基盤となる AI / ML モデルを定期的にアップグレードし、200 を超える言語とスクリプトで世界水準の精度を維持しています。このようなモデルのアップグレードにより、新機能や機能強化がもたらされる一方で、OCR の動作が前のバージョンから変わってしまうことがあります。

そこで、旧バージョンの OCR モデルの動作に固定できる OCR バージョニング機能をリリースいたしました。モデルのバージョンを「固定」することにより、お客様とパートナー様は一貫した OCR の動作を安心してご利用いただけます。コンプライアンス要件が厳格な業界では、この更新により、同じモデルのバージョンを維持できるとともに、リリース間でスタックを再認証する必要性や労力を最小限に抑えることができます。Mr. Cooper のシニア プリンシパル アーキテクトである Jaga Kathirvel 氏は、次のように述べています。「一貫した OCR の動作の確保は、当社のビジネス ワークフローにとってミッション クリティカルです。当社のサービスを特定の OCR バージョンに長期間固定することを可能にした Google Cloud の OCR バージョニング機能を高く評価しています。」

OCR バージョニング機能を使用すると、ビジネスニーズに最適なバージョニング オプションを柔軟に選択できます。

https://storage.googleapis.com/gweb-cloudblog-publish/images/3_OCR_engine_122122.max-2000x2000.jpg

Document AI OCR を使ってみる

OCR の新機能やチュートリアルの詳細については、Document AI のドキュメントをご覧ください。ブラウザで直接お試しいただくこともできます(コーディング不要)。Document AI の新機能の詳細については、Google Cloud Next '22 のブレイクアウト セッションをご覧ください。

 

- プロダクト マネージャー Steve Z.
- プロダクト マネージャー Devaki Kulkarni

投稿先