コンテンツに移動
AI & 機械学習

Document AI Workbench の一般提供が開始し、本番環境のユースケース向けのドキュメント抽出モデル トレーニングに利用可能に

2023年3月3日
https://storage.googleapis.com/gweb-cloudblog-publish/images/aiml2022_PO1vxqJ.max-2500x2500.jpg
Google Cloud Japan Team

※この投稿は米国時間 2023 年 2 月 22 日に、Google Cloud blog に投稿されたものの抄訳です。

企業では、日々多くのドキュメントが作成され、なんらかの意思決定を下すために活用されています。しかし、これらの価値あるドキュメントは基本的に非構造化データであるため、ビジネス プロセスに役立つ価値を引き出して利用するのが難しく、多くの手作業が必要となっているのが現状です。

ビジネスで使用されるドキュメントの数や種類が増加するなかで、これらのドキュメントをさまざまなユースケースに対応させられるような柔軟性の高い機械学習(ML)ソリューションが求められています。こうしたニーズを受け、Google Cloud は Google Cloud Next ’22 で Document AI Workbench の初のモデルであるカスタム ドキュメント エクストラクタ(CDE)の公開プレビュー版を発表しました。CDE を使うと、ドキュメントベースのほぼあらゆるワークフローに ML をすばやく簡単に適用して、非構造化データのドキュメントから構造化データを抽出し、ビジネス プロセスを自動化することが可能です。

CDE を使えば、デベロッパーやアナリストは独自データでモデルをトレーニングし、ビジネス上の必要性に応じてドキュメントからフィールドを抽出できます。より少ないデータで迅速にモデルを構築できるため、ドキュメント内のデータの処理と分析にかかる価値創出までの時間が短縮されます。

このたび、Document AI Workbench が一般提供(GA)となり、すべてのお客様に公開され、API や Google Cloud コンソールを使って本番環境に取り入れられるようになりました。Document AI Workbench は Document AI SLA の対象であり、オンラインおよびバッチでのドキュメント予測において 99.9% 以上の稼働率が保証されています。さらに、Google Cloud の一般提供プロダクトの 利用規約も適用されます。たとえば、お客様向けの Google API を下位互換性のない形で大幅に変更する場合、12 か月前までに通知いたします。

このブログ投稿では、お客様による CDE の活用事例や、Document AI Workbench の最新機能について紹介します。

Workbench のユーザーの声

Workbench でモデルの正確性が向上

Document AI Workbench を活用することで、お客様は時間と費用の節約を実現しています。サードパーティの評価によると、Document AI Workbench は他の競合製品よりも正確にデータを抽出できる1という結果が出ています。評価では、請求書や、領収書、銀行明細、給与明細など、さまざまなフォーマットのドキュメントを使用しています。正確性が向上することで、大幅な自動化、ひいては時間と費用の節約につながります。  

Deloitte Consulting LLP の AI & データ部門マネージング ディレクターを務める Chris Jangareddy 氏は、次のように述べています。「Google Cloud Document AI は、豊富な機能を備えた最先端のドキュメント処理ソリューションです。具体的には、多段階分類やテキスト抽出の機能によって、並べ替え、分類、抽出、品質保証を自動化することができます。Document AI と Workbench を組み合わせることで先進的かつパワフルな AI Platform が生み出され、そのインテリジェントなドキュメント処理を通じて、エンタープライズ規模のプロセス変革、結果の予測性の向上など、ビジネスにメリットがもたらされています。」

OneClinic の CEO を務める Mansoor Khan 氏は、次のようにコメントしています。「当社では、クリニック内の自動化を促進することで、医療事業の規模拡大を支援しています。Google の Document AI Workbench を使って、保険証からデータを自動抽出するモデルを作成し、患者受付用ソフトウェアに組み込みました。Workbench は使いやすく、モデルの正確性にも非常に満足しています。抽出されるデータは、人手によるデータ入力よりも正確です。」

TCS で BFSI 向け Google 事業部門 VP を務める Rajnish Palande 氏は次のように語ります。「Google Cloud Document AI Workbench では、人工知能(AI)によって非構造化データに含まれるインサイトを管理、収集することができます。分類、自動アノテーション、ページ番号識別、多言語サポートなどの機能により、組織の情報抽出における正確性、処理効率、信頼性を瞬く間に向上させ、ROI の増加をもたらします。」

本番環境用のモデルを Workbench で迅速に構築

Document AI Workbench を使えば、ML モデルを高速に作成することが可能です。サードパーティの評価によると、Document AI Workbench は他の主要製品に比べ、ML モデルを最大 3 倍の速度でトレーニングできることがわかっています。この高速性は、総所有コストの削減ならびに価値の増大につながる重要なポイントです。

PwC の Google アライアンス リーダーを務める、パートナーの Dallas Dolen 氏は次のように語ります。「Google Document AI Workbench によって、カスタム パーサー モデルのトレーニングが高速化されただけでなく、人間参加型のカスタム ドキュメント エクストラクタにおける正確性およびパフォーマンスも向上しました。金融サービスや医療業界の顧客が、ビジネス上の複雑な問題を解決するために活用しています。」

Resultant の DocAl 開発部門シニアリードを務める Ziang Jia 氏は、次のようにコメントしています。「Document AI Workbench は、情報抽出ソリューションに ML を組み込む開発過程において、まったく新しい経験をもたらしてくれました。そのシンプルさと堅牢性のおかげで、大規模な政府機関向けのモデルをアジャイルな方法で構築し、非常に正確な結果を導くことが可能となりました。シンプルさと堅牢性を備えたこの製品には心から感動しており、今後どのように進化していくのか楽しみです。」

Zencore のデリバリー サービス部門 VP を務める Sean Earley 氏はこう語ります。「Document AI Workbench を使えば、非常に正確なドキュメント パーサー モデルをわずか数日で作成できます。当社の顧客は、大部分を人手に頼っていたタスクを自動化しました。具体的には、2 人の担当者が Document AI Workbench を使って、15 種類のドキュメントからデータを分割、分類、抽出するモデルをトレーニングし、住宅ローン情報開示法(HDMA)に基づいたレポート作成を自動化しました。トレーニング済みモデルは平均精度が 94% もあるので、顧客のコンプライアンス レポート作成作業に関わる費用が大幅に削減しています。」

Document AI Workbench の最新機能

抽出モデルのトレーニングおよびデプロイをさらに簡易化する Workbench の新機能を紹介します。

  • Workbench の公開 API を使えば、モデルの作成、削除、トレーニング、評価、デプロイをプログラム化できます。

  • 最新のデータセット管理ツールを使えば、アノテーションを作成済みのドキュメントから、既存のスキーマラベルを自動検出、作成できます。さらに、スキーマを作成、管理するタイミングを柔軟に調整可能です。

  • 最新の DocAI ツールキットには、ラベル付きドキュメントのコンバータが含まれています。これを使えば、既存のラベル付きドキュメントを DocAI のフォーマットに簡単に変換し、トレーニングをすぐに開始できます。

  • ラベル付け UI 効率化され、ラベル付け担当者の認知負荷が軽減されました。    

  • プロセッサ ギャラリーが改善され、ユースケースに最適なモデルをすばやく特定できるようになりました。

 Document AI Workbench の今後

Google Cloud では、Document AI Workbench によるドキュメント処理の自動化をさらに推進できるよう取り組んでいます。現在開発中の機能をいくつか紹介します。

  • カスタム ドキュメント分類器(CDC)によるドキュメントの分類。まもなく公開プレビュー版を提供予定。

  • プロセッサ バージョンをプロジェクトやプロセッサ間でコピーする。開発環境および本番環境の管理効率化につながります。

  • 大きなドキュメント(50 ページ以上など)に対応。これにより、処理可能なドキュメントの種類がさらに増えます。

  • ラテン系以外など、幅広い言語に対応(Document AI OCR と同様)。

  • そのほか、最新技術を駆使して各種機能を開発中。世界トップクラスのモデルを高速に構築し、ドキュメント処理を自動化できるように貢献してまいります。

Document AI Workbench は一般提供が開始しており、本番環境のワークロードでご利用いただけます。Document AI Workbench のドキュメントで詳細をご覧いただくか、Google Cloud コンソールでお試しください


謝辞: アウトバウンド プロダクト マネージャー Tomas Moreno、ソフトウェア エンジニアリング マネージャー Lukas Rutishauser、ソフトウェア エンジニアリング マネージャー Michael Kwong、ソフトウェア エンジニアリング マネージャー Rajagopal Janani、UX デザイナー Michael Lanning。

1. 200 以上のドキュメントを使用してトレーニングした場合

- プロダクト マネージャー Derek Egan

プロダクト マネージャー Jill Daley
投稿先