コンテンツに移動
AI & 機械学習

生成 AI を利用して非構造化データを活用

2023年10月11日
Google Cloud Japan Team

※この投稿は米国時間 2023 年 9 月 29 日に、Google Cloud blog に投稿されたものの抄訳です。

数年前から、企業は Google Cloud の Document AI を使用して、より高速で正確なドキュメント処理を実現しています。これにより、請求書や顧客フォームの処理、ドキュメントに関連するサービスの提供方法を改善してきました。

生成 AI によりユーザーは自然言語プロンプトを入力してドキュメントの分類、抽出、そしてより深い分析情報の獲得が可能になり、企業のドキュメント処理を変革しています。高精度で、ML のトレーニングがほとんど必要ありません。このたび、生成 AI を Document AI に導入することで、パワフルでより効率的な方法でドキュメントを構造化、管理し、分析情報を得られるようになりました。

Document AI Workbench での生成 AI による抽出と要約を発表

Document AI Workbench を使用すると、ドキュメント処理タスクのモデルをカスタマイズできます。2023 年 2 月、Google はカスタム エクストラクタの一般提供(GA)を開始し、ユーザーはドキュメントから構造化データを抽出できるようになりました。2023 年 3 月には、カスタム分類の一般提供を開始し、ドキュメント タイプを自動的に分類できるようになりました。7 月には、カスタム スプリッターの一般提供を開始し、ひとつのファイル内にある複数のドキュメントを自動的に分割、分類できるようになりました。

Google Next ’23 では、Document AI Workbench の生成 AI を活用した 2 つの機能(生成 AI を利用したカスタム エクストラクタの基盤モデル使用バージョンと Summarizer)の公開プレビュー版のリリースを発表しました。

生成 AI による抽出で、契約書などの自由形式テキスト、請求書、源泉徴収票、船荷証券などの複雑なレイアウト、そして利用できるトレーニング データがないドキュメントからデータを引き出すことができます。カスタム エクストラクタで基盤モデルが利用できるようになったので、どんなドキュメントでもエンドポイントを呼び出し、構成なしで、構造化データを取得できます。

Summarizer は、トレーニングなしですぐに使用でき、最大で 250 ページのドキュメントを要約できます。ほとんどの生成 AI ソリューションは、長いドキュメントをサポートするコンテキスト ウィンドウを備えておらず、情報を小さな塊に分割する必要があります。しかし、Summarizer はユーザーの好みの長さと形式に基づいてカスタム要約を簡単に生成できます。

早期アクセスを体験したお客様の声をご紹介します。

https://storage.googleapis.com/gweb-cloudblog-publish/images/6_LJZL29g.max-700x700.jpg

「ドイツ銀行の各部門は、KYC や支払いフォームなどのシンプルでスケーラブルなユースケースにおいて Document AI Workbench のカスタム エクストラクタを使用して、大量のドキュメントのデジタル化とデータ抽出を行っています。コンテンツ レビュー プロセスを自動化したことで、運用リスクが低減し処理能力カスタマー エクスペリエンスが向上しています。Workbench に生成 AI が導入されたので、モデルのトレーニングにかかる時間を短縮してより複雑なドキュメントを自動化させるだけでなく、Q&A や要約などの迅速なインテリジェンス機能のための新しいユースケースも探索したいと考えています。」

- ドイツ銀行、企業および投資銀行の変革担当責任者 Inwha Huh 氏

https://storage.googleapis.com/gweb-cloudblog-publish/images/7_vzvI8g8.max-700x700.jpg

「BBVA は、お客様に可能な限り最高のエクスペリエンスを提供することに尽力しています。これには、AI を使用してビジネス プロセスを自動化することも含まれます。Document AI Workbench で利用可能になった生成 AI を使用することで、複雑で高密度の非構造化ドキュメント内のデータを抽出し、エラーや潜在的な不正行為を防止します。これにより、より速く正確で安全なサービスをお客様に提供できるようになります。」

- BBVA、インテリジェント プロセス オートメーション グローバル責任者 Antonio Valle 氏

その他のお客様が Document AI Workbench と生成 AI 機能をどのように使用しているかについてはこちらのブログ投稿で読むことができます。利用を開始するには、Google Cloud コンソールの Document AI Workbench にアクセスするか、カスタム エクストラクタSummarizer のデモ動画をご覧ください。

Document AI ウェアハウスで生成 AI を使用した検索を発表

2022 年 10 月に、ドキュメントとその抽出データを検索、保存、管理するフルマネージドのクラウドネイティブ サービスである Document AI ウェアハウスの一般提供を発表しました。

Google Cloud の優れたエンタープライズ検索技術を Document AI ウェアハウスに統合し、ユーザーの自然言語での質問に対する回答を含むドキュメントを検索できるようになりました。生成 AI はドキュメントからの答えの要約も行います。アニメーション画像に示されているように、ユーザーが正しい答えを見つける時間を短縮します。

https://storage.googleapis.com/gweb-cloudblog-publish/original_images/GIF.gif

生成 AI を活用した新機能を以下に紹介します。

  • 生成 AI 検索ボックスと回答スニペット: 検索結果を含む上位 5 つまでのドキュメントと、それらのドキュメントからのスニペットを返します。
  • 根拠ある要約回答: 生成 AI により、検索で見つかった最初の、つまり最も関連性の高いドキュメントが要約されます。他のドキュメントのリンクをクリックすると、他の関連ドキュメントからも要約回答を生成できます。LLM のハルシネーションを減らすため、ドキュメント内のテキストに回答の根拠が存在しています。各ドキュメントをクリックして、ドキュメントのテキストから生成された回答を確認できます。
  • クロスドキュメント分析と回答の要約: 特定のトピックを検索するとき、複数のドキュメントにある情報から構成された答えが必要になったり、複数のドキュメントにまたがる答えを要約、比較したりすることがあります。候補に挙がったドキュメントの中から一部のドキュメントを選択し、それらのドキュメント全体の内容から答えを要約、比較できます。
  • アクセス制御: 生成 AI による検索では、文書のアクセス制御リストが適用されます。つまり、検索結果に表示されるドキュメントのスニペットを見たり、ドキュメントから質問に対する回答を生成するには、閲覧権限が必要です。
  • 信頼度スコア: クエリに対して生成される検索結果の品質を測定する方法があります。Document AI ウェアハウスが、API と UI で上位結果の信頼度スコアを提供し、分析やデータサイエンス業務に利用できます。
  • テキスト検索とファセット検索: 特定のテキストを検索したい場合、Document AI ウェアハウスはセマンティック テキスト検索とフィルタ / ファセット検索機能を引き続きサポートしています。生成 AI の検索ボックスとは別に、このための検索ボックスがあり、UI では「フィルタ」と表示されています。
  • ドキュメント AI プロセッサとの完全統合: Document AI ウェアハウスは Document AI ソリューション スイートの一部であるため、構造化ドキュメントを一括抽出、取り込みパイプラインに通して、Document AI プロセッサを介してドキュメントからエンティティを抽出できます。

詳細は、限定公開プレビューにアクセスできる Trusted Tester プログラムのメンバー用機能ドキュメントをご覧ください。

Enterprise Document OCR v2.0 で新しい専門モデルと高度な AI アドオンを発表

LLM と光学式文字認識(OCR)の組み合わせにより、データ処理と分析は大幅な進歩を遂げました。LLM の文脈理解能力と OCR のテキスト レイアウト抽出能力を活用することで、企業はデータから貴重な分析情報を引き出し、ワークフローを効率化できます。Enterprise Document OCR v2.0 は、Document AI の OCR 技術の最新の進化形で、より優れた下流処理のためのパワフルな抽出ツールを企業に提供します。

Enterprise Document OCR v2.0 では以下を活用できます。

  • Google の特別 OCR モデル: Google の最新 OCR モデルは、多様なドキュメントのユースケース向けに設計されており、読み取り順の精度と 200 以上の言語認識を向上させています。
  • 画像要素検出機能: ドキュメント OCR には、読み取りにくいドキュメント要素の精度を向上させる画像要素検出機能が追加され、さらに多機能になりました。
  • 高度な機能の一般提供: 前処理を改善するための画質スコアリング、テキスト検出を改善するための言語ヒント、精度を高めるための回転補正を活用できます。

これに加え、Enterprise Document OCR v2.0 はユーザーが希望する処理や品質要件に基づいて有効にできるプレミアム OCR アドオンを提供します。次のような機能が追加されています。

  • 選択マーク検出機能: チェックボックスなどの選択マークを OCR プロセッサから直接検出して抽出します。
  • MathOCR: LaTeX 出力のドキュメントから数式を特定し、抽出します。
  • フォント スタイル検出機能: コンピュータのフォント スタイルと背景色をトークン単位で抽出し、ユーザーがプログラム的に単語の文脈を理解できるようにします。

Enterprise Document OCR v2.0 の多機能性は、LLM 駆動型アプリケーションの強固な基盤を提供し、高機能、安全、高精度なテキストとレイアウトの抽出を保証します。LLM 駆動型アプリケーションでは、高品質の OCR が非常に重要です。Casetext の最高技術責任者である Ryan Walker 氏は、OCR の品質の重要性について、次のように述べています。

「私たちは法的 AI ソリューション(直近では AI 法務アシスタント CoCounsel)を開発する者として、大量で複雑な法的文書を正確に処理するプロダクトを構築しています。法的文書は、何千ページにもわたり、画像が含まれ、スキャンが不鮮明な場合もあります。たった一語の有無が勝訴と敗訴の分かれ目になることすらあります。Google の OCR は、これまでに評価した他のどのシステムよりも正確にファイルからテキストを抽出します。この技術を当社のプロダクトに組み込むことで、プロダクトを利用される弁護士に最高品質の回答を提供できます。それはつまり、弁護士の方々がクライアントに最良のサービスと結果を提供できることを意味します。」

ドキュメント理解のワークフローを効率化する Enterprise Document OCR v2.0 が秘めた力をお試しください。

使ってみる

ドキュメントの自動化を簡素化する企業向けプラットフォームとして、Document AI の今後がとても楽しみです。ここで取り上げたすべての魅力的な開発について詳しくは、Next ’23 のセッションをご覧ください。いずれかのサービスを今すぐお試しいただくこともできます。

  • 言語および Document AI 担当プロダクト責任者 Sudheera Vanguri
投稿先