コンテンツに移動
AI & 機械学習

Document AI、Document AI ウェアハウスによるドキュメントの効率的な検索保存機能を提供

2023年5月18日
Google Cloud Japan Team

※この投稿は米国時間 2023 年 4 月 29 日に、Google Cloud blog に投稿されたものの抄訳です。

ドキュメントに保存していた会議の議事録をメモフォルダに入れ忘れ、探すのに苦労したことはありませんか?考えただけでも頭痛がします。企業規模でこのようなジレンマに陥ったとしたら、どうなるでしょうか。たとえば、銀行に勤務していて、毎日数多くの住宅ローンの申し込みを取り扱っているときに、探しているフォームが見つからない場合などです。ことわざにもあるように、まるで干し草の山から針を探すかのような至難の業です。

データを制御、管理、分析することでビジネス価値を生み出そうとしている企業では、とりわけドキュメントの処理に困難を伴うことがあり得ます。ドキュメントが顧客サービス フォームなどのコアプロセスの一部である場合はなおさらです。こうした課題が遅延やサービスの遅れにつながったり、期待とのギャップに関係者が苛立ちを覚えたりすることも珍しくありません。しかし、このようなことに悩まされない方法があります。  

Google は、昨年秋の Google Cloud Next '22 で Document AI ウェアハウスをリリースすることで、Document AI エージェントの機能を拡張しました。Document AI ウェアハウスは、ドキュメントそのものと、手動でタグ付けされ AI によって抽出されたドキュメントのデータを検索、保存、管理するためのフルマネージド クラウドネイティブ サービスです。Document AI ウェアハウスは、Google 検索と AI テクノロジーの利点をドキュメントに適用します。また、ドキュメントの検証、メールルームの自動化、コンプライアンス、アーカイブ管理、その他のワークフローをサポートするポリシー エンジンも提供します。

このブログ投稿では、こうした新しい Document AI 機能について詳しく説明します。これには、より迅速な業務遂行に必要となる情報を検索する方法と、契約書、請求書、人事記録、船荷証券、設計仕様書などのドキュメントに含まれるデータを使用して業務の幅を広げる方法が含まれます。

Document AI ウェアハウスの機能の探索  

Document AI ウェアハウスは、従来のオンプレミス リポジトリとクラウド ソリューションの双方に勝る利点をもつ多くの機能を提供します。詳細は次のとおりです。

1. ドキュメントとそのデータを管理するための単一の API(インフラストラクチャの管理は不要): Document AI ウェアハウスは、構造化されたコンテンツ(フォーム、請求書など)と構造化されていないコンテンツ(契約書、研究論文など)の両方を処理し、AI によって抽出されたデータや手動で割り当てられたタグ(口座番号、ローン ID、ドキュメント タイプなど)などのプロパティ(メタデータ)を解析します。Document AI プロセッサを使用して、ドキュメントからシームレスにデータを抽出できます。これらはすべて、単一の CRUD API を使用して単一のプラットフォームで管理されるため、別個のファイルストア、データベース、検索エンジンをスピンアップ、結合、維持、スケールする必要はありません。

2. 何百万ものドキュメントの山からコンテンツをすばやく見つけるための高度な検索機能: Document AI ウェアハウスは、ドキュメントを探索、表示、検索、フィルタ、ドリルダウンするためのシンプルな UI と検索 API を提供します。ドキュメントのセマンティック検索(ステミング、類義語、略語、スペルミスをサポート)とファセット全文検索により、ユーザーは数秒で適切なドキュメントにたどり着くことができ、操作やトランザクションの速度が向上します。管理者は、業界固有の用語や会社固有の頭字語などのカスタムの類義語を設定することで、なじみのある言葉を使用してコンテンツを検索することもできます。検索ファセットは、ファセット(別名「検索ヒストグラム」)ごとのドキュメントの量をレポートします。さらに、関連する列を表示するように Document Explorer の UI 表示を構成できるため、ユーザーはドキュメントを 1 つずつ開かなくても、ドキュメントに含まれる重要な情報を見つけることができます。
https://storage.googleapis.com/gweb-cloudblog-publish/images/1_Document_AI_hFbydXx.max-1800x1800.jpg

3. 統合型 DocAI パイプライン: ウェアハウスの内外で数千万のドキュメントをまとめて分類および抽出できる、スケーラブルで信頼性の高いパイプライン。ウェアハウスは、DocAI の処理をトリガー、モニタリング、再試行するためのパイプラインと UI を提供します。

4. 柔軟なコンテンツ構成: ドキュメントはアプリケーションに基づいて 1 つまたは複数の階層フォルダにカタログ化されます(たとえば、銀行取引明細書は KYC フォルダ、ローンフォルダ、銀行口座フォルダなどに配置されます)。ドキュメントを複製する必要はありません。これらのフォルダには、アプリケーション オブジェクトとセマンティクス(例: LoanID、ローン引受日)をサポートするフォルダ固有の独立したプロパティとアクセス コントロールが備わっています。ユーザーは、フォルダ階層内に検索を制限し、関心のあるフォルダにドリルダウンすることもできます。

5. ワークフローに統合できる豊富なポリシーとトリガー通知: このプロダクトは、ドキュメント処理アプリケーションやワークフローに統合できるポリシー エンジンと、条件付きトリガーおよび通知をサポートしています。条件は、ドキュメント内の抽出されたデータまたはタグ付けされたデータに関するビジネス ロジックを表します(例: “Invoice.Amount > $1000” => PubSub.Notification(“Over-billing alert”))。

これらの条件と通知は、ドキュメントが作成、更新、または削除されたときにトリガーできます。こうしたポリシーは、次のようなアプリケーションやワークフローで使用できます。

  • メールルームの自動化

  • ドキュメントの検証(例: 6 か月以内の Passport.ExpiryDate のチェック) 

  • 例外管理と承認ワークフロー

  • アーカイブ管理

また、Document Explorer のインターフェースを使用すると、ワークフロー パイプラインからドキュメントの進行状況を追跡できます(以下を参照)。これにより、ワークフロー パイプラインでエラーや処理が停止しているドキュメントを人間が検査して管理できます。

https://storage.googleapis.com/gweb-cloudblog-publish/images/2_Document_AI_l8vXbMk.max-1500x1500.jpg

6. コンテンツ アクセスを管理するための強固なガバナンスと制御: ドキュメントとフォルダ レベルでのきめ細かいアクセス制御をユーザーとグループに割り当てると、ドキュメントの表示、編集、管理(共有、削除など)が可能になります。Document AI ウェアハウスは Cloud Identity(IAM)や企業ディレクトリと統合して、ユーザーとグループを Cloud Identity にプロビジョニングできるようにします。Azure AD、Active Directory、Keycloak などのエンタープライズ LDAP / ID プロバイダや、Google Workspace アカウントから、ユーザーやグループを Cloud Identity に連携、同期することもできます。

Document AI ウェアハウスは 4 つのロール(作成者、閲覧者、編集者、管理者)をサポートしており、ドキュメント レベルまたは(すべてのドキュメントにわたる)プロジェクト レベルでユーザーとグループに割り当てることができます。さらに、ポリシーを使用して、ドキュメント タイプ(スキーマ)またはドキュメントの他のプロパティに基づいて、デフォルトの ACL をドキュメントに割り当てることもできます。これにより、管理者はドキュメントへのアクセス方法と共有方法を柔軟に制御可能です。

7. 柔軟なクラウド規模のドキュメント プラットフォーム: Document AI ウェアハウスは、インフラストラクチャ管理の責任やハードウェアの資本支出(CapEx)と運用支出(OpEx)を課すことなく、現在のドキュメントとアーカイブのドキュメントの大きなリポジトリを管理し、ビジネスに合わせて柔軟にスケールします。最大数億件のドキュメントの検索、保存、更新と、毎秒最大数百のトランザクションの高取り込みスループット(Google Cloud の割り当て上限内)をサポートしています。

Document AI ウェアハウスの用途

Document AI ウェアハウスはホリゾンタル型サービスであり、Google は以下に示すように、このプロダクトが先行ユーザーによって幅広いアプリケーションとドキュメント タイプに適用される例を見てきました(より一般的なユースケースは青色でマークされています)。Document AI ウェアハウスは、PDF、テキスト、OfficeX 形式をサポートしており、今後さらに多くの形式をサポートする予定です。

https://storage.googleapis.com/gweb-cloudblog-publish/images/3_Document_AI_5bzPD6s.max-1000x1000.jpg

Rocket Mortgage は、Google Cloud の DocAI チームとパートナーシップを組み、他に類を見ないフィンテック ナレッジベースを開発しました。このパートナーシップと Document AI ウェアハウスにより、同社は、この種のソリューションとしては初となる検索ソリューションをリリースし、「Pathfinder by Rocket」プロダクトを通じて住宅ローン ブローカー、融資担当者、不動産業者からの質問に対して 200 万件近くの回答を提供しました。

使ってみる

Document AI ウェアハウスの詳細については、こちらのウェブページをご覧ください。利用の開始にあたっては、クイック スタートガイドの説明もご利用いただけます。今すぐご登録ください。このプロダクトでは 50 ドル相当の無料トライアル / アカウントが提供されており、これには、使用状況に応じて最大数千のドキュメントや API 呼び出しを使用する、基本的な概念実証の実装も含まれています。


- プロダクト管理責任者 Kiran Bellare
投稿先