コンテンツに移動
AI & 機械学習

生成 AI を活用した Document AI カスタム エクストラクタの一般提供を開始

2024年1月16日
Google Cloud Japan Team

※この投稿は米国時間 2024 年 1 月 11 日に、Google Cloud blog に投稿されたものの抄訳です。

このたび、生成 AI を活用した Document AI カスタム エクストラクタが一般提供(GA)となり、すべてのお客様に公開されました。今後は、API や Google Cloud コンソールを通じて本番環境でご利用いただけるようになります。Google の基盤モデルを使用して構築されたカスタム エクストラクタは、構造化および非構造化ドキュメントのデータを迅速かつ高精度に解析します。

これまで、開発者はドキュメントの種類ごとに何千ものサンプルを使用し、本番環境で使用できる精度を実現するために多大な時間を費やすことで、離散モデルをトレーニングしていました。その一方、生成 AI を利用すると、桁違いに少ないトレーニング データとわずかな時間で、さまざまなドキュメントからデータを抽出できます。

この新しいテクノロジーに利点があるとは言え、ドキュメント処理全体に基盤モデルを導入することは厄介です。開発者は、テキストへのドキュメントの変換、ドキュメント チャンクの管理、抽出プロンプトの最適化、データセットの作成、モデル ライフサイクルの管理などの部分を管理する必要があります。

生成 AI を活用したカスタム エクストラクタは、開発者がより迅速かつ効果的に抽出プロセッサを作成できるよう、これらの課題を解決するために役立ちます。この新しいプロダクトでは、基盤モデルをそのまま使用することも、ファインチューニングしたり、簡単な手順でデータセットの自動ラベル付けに使用したりすることもできます。しかも、生成 AI の予測は Document AI SLA の対象となります。

その結果、お客様やパートナーは、より迅速かつ効率的に、生成 AI をドキュメント処理ワークフローに実装できるようになりました。自由形式テキストのドキュメント(契約書など)からフィールドを抽出する場合でも、複雑なレイアウトのドキュメント(請求書や税務フォームなど)からフィールドを抽出する場合でも、お客様やパートナーは生成 AI の力をエンタープライズ対応レベルで利用できるようになりました。開発者はドキュメントをエンドポイントに送信するだけで、構造化されたデータを取得でき、トレーニングを行う必要はありません。

Workbench のユーザーの声

公開プレビュー期間中、開発者は本番稼働までの時間を短縮し、より高い精度を獲得して、契約書のデータ抽出といった新たなユースケースを実現しました。お客様の実際の声をいくつかご紹介します。

「Google Cloud とのパートナーシップは、Iron Mountain InSight® のインテリジェントなドキュメント処理(IDP)機能とワークフローの自動化機能に革新的なソリューションをもたらし続けています。Document AI のカスタム エクストラクタは、生成 AI の力を活用して、より迅速かつ効果的に非構造化ドキュメントのデータを分類、抽出可能にします。この新しいプロダクトと自動ラベル付けなどの機能を使用することにより、数週間や数日ではなく、数時間でドキュメント プロセッサを実装できます。その後は、再現可能なソリューションを構築できるため、多くの業界や地域のお客様に大規模に提供することができます。」- Iron Mountain、バイス プレジデント兼プラットフォーム責任者 Adam Williams 氏

「Google とのコラボレーションにより、インテリジェントなドキュメント処理(IDP)分野において革新的に飛躍できました。Google Cloud の Document AI カスタム エクストラクタを Automation Anywhere の Document Automation 製品や Co-Pilot 製品と統合することで、生成 AI を活用してお客様に革新的なソリューションを提供しています。カスタム エクストラクタとのインテグレーションにより、ドキュメントのフィールド抽出率が向上しただけでなく、デプロイ時間が半分以下に短縮され、継続的なシステム メンテナンス費用も半分に減少しています。Google と連携して次世代の IDP ソリューションを構築し、ドキュメントを多用するビジネス プロセスの自動化に革命を起こしていることを嬉しく思います。」- Automation Anywhere、IDP 戦略責任者 Michael Guidry 氏

Document AI Workbench のその他の新機能

そのうえ、Workbench の最新アップデートにより、ドキュメント処理の自動化がさらに容易になりました。

  • 料金の引き下げ: 本番環境ワークロードのサポートを強化するため、カスタム エクストラクタ、カスタム分類、カスタム スプリッター、Form パーサーの料金を引き下げました。詳細については、Document AI の料金をご覧ください。
  • ファインチューニング: カスタム エクストラクタはファインチューニング(プレビュー)をサポートしているため、特定のドキュメントに合わせて基盤モデルの結果をカスタマイズして精度を一段高めることができます。データセット内の抽出結果を確認し、ボタンをクリックするか API 呼び出しを行うだけでファインチューニングを行うことができます。この機能は現在、米国リージョンでご利用いただけます。詳細については、ドキュメントの種類別のファインチューニングとトレーニングをご覧ください。
  • 利用可能なリージョンの拡大: 生成 AI を活用したカスタム エクストラクタの予測が、EU および northamerica-northeast1 リージョンで利用可能になりました。詳細については、カスタム エクストラクタを利用可能なリージョンをご覧ください。
  • バージョン ライフサイクル管理: Google が基盤モデルを改善するにつれて、古い基盤モデルは非推奨となります。同様に、古いバージョンのプロセッサは、新しい安定版がリリースされてから 6 か月が経過すると非推奨となります。現在、ライフサイクル管理を簡素化するため、自動アップグレード機能の開発に取り組んでいます。詳細については、プロセッサのバージョン管理をご覧ください。

次のステップ

生成 AI を活用したカスタム エクストラクタでできることをすばやく確認するには、Document AI のランディング ページの最新のデモをご覧ください。サンプル ドキュメント(デモの上限は 15 ページ)を読み込ませるだけで、数秒で以下のような生成 AI の抽出能力を確認できます。

https://storage.googleapis.com/gweb-cloudblog-publish/images/Document_AI_Custom_Extractor.max-1600x1600.png

開発者の方は、Google Cloud コンソールのワークベンチにアクセスすると、新しいエクストラクタを作成し、複雑なフィールドを管理したり、ドキュメントに対する基盤モデルの予測をカスタマイズしたりすることができます。

さらに詳しく知りたい方は、生成 AI を活用したカスタム エクストラクタのドキュメントDocument AI のリリースノートDocument AIWorkbench の詳細をご覧ください。

-プロダクト マネージャー Derek Egan

-アウトバウンド プロダクト マネージャー Tomas Moreno

投稿先