ドキュメント インテリジェンスの秘訣: Box が Google の Agent2Agent フレームワークを使用して Enhanced Extract Agent を構築
Yashoda Bhavnani
Head of AI, Box
Dr. Ali Arsanjani
Director, Applied AI Engineering, Google
【Next Tokyo ’25】
【Next Tokyo】120 以上のセッションをアーカイブ公開中。話題の Gemini、生成 AI、AI エージェントなどの Google Cloud のアップデートや顧客事例をチェックしましょう。
視聴はこちら※この投稿は米国時間 2025 年 6 月 25 日に、Google Cloud blog に投稿されたものの抄訳です。
Box は、このデジタル時代における情報共有 / コラボレーション プラットフォームの草分け的存在です。私たちの働き方を定義する上で重要な役割を果たし、新しいテクノロジーの波が次々と押し寄せるなかで、そのスタイルの実践を進化させ続けてきました。生成 AI の時代で最も素晴らしい進歩の一つは、Box ユーザーが保存したすべてのデータについて、AI を使用して新しい方法で情報を検索、統合し、それらのファイルから絶大な価値を引き出せるようになったことです。
Box は、複雑な非構造化データをインテリジェントに識別して構造化する Box AI エージェントを開発して、これを実現しました。そして、このたびリリースされたのが、Box AI Enhanced Extract Agent です。Enhanced Extract Agent は、Google の最先端モデル Gemini 2.5 で動作し、Google の Agent2Agent(A2A)プロトコルを使用します。このプロトコルは、A2A ネットワーク内の数十のプラットフォームにわたる AI エージェント間の安全な接続とコラボレーションを可能にするものです。
Box AI Enhanced Extract Agent は、企業ユーザーの AI に対する信頼感を確立し、生成 AI テクノロジーや、それをビジネス クリティカルなタスクに使用することへの心理的ハードルを克服できるようにしました。
この投稿では、Box チームによる Box AI Enhanced Extract Agent 開発への道を探り、新しいエージェント AI システムを構築しようとするチームが独自のソリューション開発において考慮すべき事項について考察します。
確信を持ってコンテンツを引き出す
データ抽出を語るとき、ドキュメントからのテキスト抽出だけでは、もはや不十分な時代になっています。企業が安心して取り組むための核心となる目標は、不確実性の推定です。これは、特定の抽出に対してモデルがどの程度不確実であるかを理解することと定義されます。組織が大量のドキュメントを処理する際、特にこれが重要になります。たとえば、数万件の検索項目があり、各項目に関連するすべての値を抽出する場合、人間によるレビューを効果的かつ確実に行えるようにする必要があります。目標は、高精度のみならず、抽出された個々のデータについて高い信頼性スコアも得ることです。
Box AI Enhanced Extract Agent が目指したのは、企業が最も複雑なコンテンツ(スキャンされた PDF、画像、スライド、その他のさまざまな資料)を扱う方法を変革し、それらすべてを構造化された実用的なインテリジェンスに変えることでした。
Box と Box AI は、Google Cloud Marketplace でご利用いただけます。
たとえば、金融サービス企業は、融資の申請者の詳細情報と収入データを正確に抽出することで審査を自動化できます。法務チームは、契約書の重要な条項を特定することで事実確認を加速でき、人事部門は、新規採用者の書類を自動的に処理することでオンボーディングを効率化できます。いずれの場合も、重要な日付や契約条件などすべての抽出データを、Box と Google とのコラボレーションが提供する精度の高い信頼性スコアに基づいて検証できます。この信頼性スコアによって、AI で検証済みの信頼できる情報を切り分け、手作業による膨大な労力をかけることなく、効率的な運用とプロアクティブなコンプライアンスを実現できるのです。

Gemini 2.5 Pro でデータ抽出を強化
Box の Enhanced Extract Agent は、Google の Gemini 2.5 Pro がもたらす高度なマルチモーダルのエージェント推論や機能をコア インテリジェンス エンジンとして利用しています。ただし、この関係は単なる API 呼び出しにとどまりません。
Box の CTO、Ben Kus 氏は次のように述べています。「Gemini 2.5 Pro は、マルチモーダルの詳細な推論とコード生成の機能により、これらの複雑な抽出タスクの精度において、以前のモデルをはるかに上回っています。Gemini はこれらの機能により、高度な抽出エージェントで非構造化コンテンツを構造化コンテンツに変換するという Box の意欲的な目標の達成に欠かせない要素となっています。」
Box の AI エージェントは、Gemini 2.5 Pro モデルならではの具体的かつきめ細かな情報供給を利用し、安定した信頼性スコアとより深い理解力を確立しました。

エージェント間プロトコルでコラボレーションを強化
Box は、Google Cloud の Agent2Agent プロトコルを利用してオープンな AI エコシステムを推進し、数十社のパートナーが提供する多様な外部エージェントとすべての Box AI エージェントとの安全な連携を可能にしています(しかもパートナーは増え続けています)。最新の A2A 仕様を採用することで、Box AI は複雑なマルチシステム プロセスにおける効率的かつ安全な通信を確保します。これにより、組織は複雑なクロスシステム ワークフローを実現し、コンテンツが実際に使用されている場所に直接インテリジェンスを取り込むことができるようになります。これは、エージェントのシームレスなコラボレーションを通じた生産性の向上をもたらします。この高度な相互作用では、推奨されるエージェント間プロトコルを次のように利用します。
-
Box の AI エージェント: 抽出タスク全体をオーケストレートし、ユーザー インタラクションを管理してビジネス ロジックを適用します。そして、信頼性スコアの算出と不確実性の分析という重要な機能を実行します。
-
Google の Gemini 2.5 Pro: テキストの理解、推論、生成といったコア機能を提供します。Gemini モデルは、この強化されたプロトコルを通じて、トークン尤度などの詳細な運用データをパートナー側に提供できるよう設計されています。
たとえば、このプロトコルにより、Box の Enhanced Extract Agent は一般的な AI モデルの統合に比べ Gemini 2.5 Pro の「内部」をより深部まで見ることができます。この深部に届くインサイトが、以下のことに欠かせません。
-
確実性の高い信頼性スコアの構築: 生成された各トークンについて Gemini 2.5 Pro がどの程度確信しているかを把握することで、Box AI の高度なデータ抽出機能は、エンドユーザーにとってより正確で意味のある信頼性の指標を構築できます。
-
ロバスト性の強化: もう一つの重要なポイントは、一貫した出力を確保するモデルのロバスト性です。Kus 氏はこの点について次のように説明します。「私たちにとってのロバスト性とは、同じモデルを複数回実行した場合に、値にどの程度のばらつきが見られるか、そしてこのばらつきを最小限に抑えることを意味します。Gemini を使用すれば、これを実現できます。」
オープンで拡張可能なエコシステムへの取り組みをさらに推し進めるために、Box AI エージェントは Agentspace に公開され、A2A プロトコルで他のエージェントと連携できるようになる予定です。また、Google のエージェント開発キット(ADK)のサポートも公開されているので、デベロッパーは ADK エージェントに Box の機能を組み込み、Box のインテリジェンスをエンタープライズ アプリケーション全体に統合できます。
Google ADK は、オープンソースでコード ファーストの Python ツールキットであり、デベロッパーはこれを使用して、柔軟性と制御性を備えた高度な AI エージェントを構築、評価、デプロイできます。さらに、これらの機能を拡張するために、Box Agent for Google ADK も用意されています。これにより、デベロッパーは Box のインテリジェント コンテンツ管理プラットフォームを Google ADK で構築されたエージェントと統合し、コンテンツ ワークフローと自動化を強化するカスタムの AI 搭載ソリューションを作成できます。
ADK とのインテグレーションは、デベロッパーにとって特に有意義なものです。使い慣れたソフトウェア開発ツールと手法を使用して Box のインテリジェント コンテンツ管理機能を活用し、高度な AI アプリケーションを作成できます。これらのツールを組み合わせることで、Box エコシステム内で革新的な AI ソリューションを構築するための強力かつ効率的なアプローチが実現します。
柔軟性に優れた AI で継続的学習と人間参加型プロセスを実現
高度な抽出とは、動的な自己改良の仕組みも視野に入れたコンセプトです。Kus 氏は次のように説明しています。「この(自己改良の)サイクルを実装することで信頼度がますます高まっていきます。このサイクルには、信頼度の低い抽出結果を人間が検証し、そのフィードバックをシステムの改良に使用する人間参加型プロセスが含まれます。」
ここでは、特にファインチューニングにおける Gemini 2.5 Pro の柔軟性が、継続的な改良を可能にします。Box は以下の高度な継続的学習アプローチを探っています。
-
コンテキスト内学習: Gemini 2.5 Pro にプロンプト内で修正済みの例を提供します。
-
教師ありファインチューニング: Google Cloud の Vertex AI を使用することで、Box はファインチューニングされた重みを自社のシステムに保存でき、その重みを使用してファインチューニングされたモデルを実行できます。
Box AI の Enhanced Extract Agent が、これらのファインチューニングされたモデル適応を(たとえば、特定の顧客やドキュメント テンプレートに応じた小規模な LoRA レイヤを通じて)管理し、推論時に Gemini 2.5 Pro エージェントに提供します。「Gemini 2.5 Pro では、これらのモデル適応を効率的に利用できます。具体的には、Vertex AI で Gemini モデルのコンテキスト キャッシュ機能を使用し、コンテキスト内学習によって特定の高価値抽出タスクに対してレスポンスを調整することが可能です。これにより、ユーザーのフィードバックと特定ドキュメントのニュアンスに基づいてシステムが継続的に改良される『真のアダプティブ ラーニング』が可能になります」と Kus 氏は話します。
今後の展望: 高度な AI コラボレーションを活用したプレミアムなドキュメント インテリジェンス
マルチモダリティ、インテリジェントな推論、プランニング、ツール呼び出し、大規模なコンテキスト ウィンドウといった Gemini 2.5 Pro の機能を基盤とする Enhanced Extract Agent は、Box が AI Hub とエージェント ファミリーを開発するうえで活用すべき重要な差別化要因として想定されています。Box は Enhanced Extract Agent について、組織がエンタープライズ環境に確信を持って AI をデプロイするための基本的な方法であると考えています。
Google チームにとっても、Box による本番環境グレードでスケーラブルな Gemini モデルの活用を目の当たりにするのは、喜ばしくも画期的なことでした。同社のソリューションは、抽出データだけでなく、メタデータのセマンティクスも提供し、高い信頼性を確保します。Gemini モデル上に Box コンテンツとエージェントを使用するシステムを実現し、Enhanced Extract Agent が時間の経過とともに適応と学習を重ねていくことを可能にしています。
Box と Google Cloud は、複雑なエンタープライズ ユースケース向けに Gemini 2.5 Pro などのモデルの可能性を最大限に引き出すことに重点を置き、引き続き連携して取り組んでいきます。これは、働き方の未来の急速な再定義を促し、エージェント型タスクを支援する次世代ドキュメント インテリジェンスへの道を切り開く取り組みでもあります。
組織のデータ、アセット、業務の変革に向けて、今すぐ Google Cloud Marketplace で Box と Box AI にアクセスしてください。
-Box、AI 責任者 Yashoda Bhavnani 氏
-Google、応用 AI エンジニアリング担当ディレクター Ali Arsanjani 博士