DocAI でドキュメントを効率的に利用
Google Cloud Japan Team
※この投稿は米国時間 2021 年 5 月 5 日に、Google Cloud blog に投稿されたものの抄訳です。
Google はこのほど、Document AI Platform の一般提供を発表しました。これは、ドキュメントを自動化および検証してドキュメント ワークフローを効率化するための Google のソリューションです。重要なビジネスデータが常にコンピュータ解読可能なフォーマットで用意されているとは限りません。そうしたものを Google ではダーク フォーマットとみなしています。たとえば pdf、手書きフォーム、画像などが該当します。
このプラットフォームはドキュメント処理のためのコンソールであり、ここからすべてのパーサー、ツール、ソリューションにすばやくアクセスできます。税務書類、請求書、領収書など一般的な種類の業務文書向けのモデルを搭載する特別なパーサー上に構築されたワークフロー ソリューション、Lending DocAI と Procurement DocAI も、一般提供されるようになりました。
では、これを使用すべき理由はどこにあるのでしょうか。多くの企業で、非構造化データの宝の山は眠ったままになっています。ドキュメント ワークフローの多くの工程が手作業で行われているかもしれません。DocAI は、データをプログラムで抽出してデータ分析によって知見を集め、単調でエラーの起きやすい作業を自動化するのに役立ちます。Google のクライアント ライブラリを使ってドキュメントを取り込み、新しい統合ドキュメント フォーマットの構造化データを生成してください。
統合ドキュメント フォーマット
統合ドキュメント フォーマット(document.proto)は、ドキュメントに関するすべてのメタデータを標準化された 1 つのユニバーサル フォーマットで表現するために使用されるプロトコルです。これは効率的なスタンドオフ型のフォーマットで、コンテンツがアノテーションとは別に保管されます。これにより、人間またはアルゴリズムのいずれによって生成されたかに関係なく、ドキュメントまたはそのコンテンツのアノテーションと属性をどれでもロスレスに表現できる、完全な柔軟性が得られます。
これを作成した目的は、DocAI 内外のツール、コンポーネント、プラットフォーム、言語間で、ドキュメント ベースのワークフロー アプリケーションの構築を容易にすることにありました。これはプロトコル バッファ ベースのフォーマットであり、効率的で柔軟なエンコード(通常はバイナリまたは JSON)が可能です。
現在このフォーマットでは、豊富な OCR 表現や、抽出されたエンティティを取り扱うことができます。では詳しく見ていきましょう。
ドキュメント表現 - 読む
Form パーサーは、ドキュメント コンテンツの未加工の表現を返します。多くのドキュメントで、レイアウト構造は実際のテキストと同等の重要性を持っています。レイアウト要素には、トークン、行、パラグラフ、ブロック、フォーム フィールド、表、視覚要素など、いくつかのタイプがあります。このフォーマットでは、豊富な OCR 表現を階層構造で表すことができます。レイアウト境界ポリゴン座標を使用して、UI のトークンを検出してハイライト表示できます。
サービスの利用をすぐ開始できるように、一式のノートブックを作成しました。ここでは、一般的な特別 Form パーサー ノートブックを使用したサンプル ドキュメントを例にご説明します。
抽出されたデータ - 理解する
構造化データの中核部は、ここに現れます。汎用フォームを処理すると、関連する Key-Value ペアを DocAI が抽出します。請求書、領収書、公共料金明細などのフォームタイプ向けの特別パーサーを使用すると、抽出されたデータが事前定義済みのスキーマに統合されます。
ドキュメント処理を支援するために、分類用ツールや、マルチページおよびマルチフォームのパケットの分割を行うためのツールも提供しています。W2、W9、給与明細など、大規模ローンパケット内の個々のフォームを分類および分割する必要が生じる場面を想像してみてください。分類ツールはドキュメント / エンティティ タイプをラベル付けし、分割ツールはさまざまなフォームタイプの論理的境界がどこで始まりどこで終わるのかをインテリジェントに識別します。
抽出
ドキュメントから「質問と回答」を得られるだけでなく、エンティティの正規化および信頼スコアも得られます。Google の特別パーサーでは、あるフィールドのタイプが金額または日付である場合、API で適切なエンティティ タイプも提供されます。これにより、スキーマタイプが厳格な他のシステムまたはデータベースとの統合がはるかに容易になります。
データ保証のために、そのエンティティのプラットフォームの信頼性を 0~1 のスコアで評価します。汎用フォームのキーと関連する値の両方について信頼スコアを調査できます。
ビジネス プロセスには精度が不可欠であることを、Google は認識しています。そこで、自社またはパートナーの組織内の信任された審査担当者による、カスタマイズ可能な人的審査ワークフローを組み込めるよう、人間参加型 AI を使用できるようにしています。ドキュメント全体または特定のフィールドが指定した信頼スコアに達しなかった場合には人的審査をトリガーするよう構成することが可能です。ML プロセスに人間が参加することで、AI と人間が協力して、お客様のための最善の成果を達成できます。
最後に重要な点として、最適なカスタマイズにより、このツールは本当の有用性を発揮します。この投稿が、Document AI をアプリやサービスでお試しいただくきっかけになれば幸いです。このプラットフォームを使用することで、手作業による手順を削減して人的エラーを防止し、他の Google サービスを統合してデータ処理を堅牢にし、監査のためにドキュメントの変更をトラッキングするツールの構築が可能になります。Google Cloud Console から DocAI Platform にアクセスできます。Codelab もお試しください。
-Google Cloud Developer Relations シニア エンジニア Anu Srivastava
-スタッフ ソフトウェア エンジニア Lukas Rutishauser