コンテンツに移動
デベロッパー

The Agent Factory のハイライト: オープンモデルを徹底解剖

2025年12月4日
https://storage.googleapis.com/gweb-cloudblog-publish/images/The_Agent_Factory_Blog_-_Hero.max-2500x2500.png
Amit Maraj

Developer Relations Engineer

Ivan Nardini

Developer Relations Engineer

※この投稿は米国時間 2025 年 11 月 15 日に、Google Cloud blog に投稿されたものの抄訳です。

The Agent Factory へようこそ!今回のエピソードでは、DeepMind のリサーチ エンジニアである Ravin Kumar を迎え、現在 AI の分野で最も大きなトピックの一つであるオープンソースのエージェント モデルの構築とトレーニングへの対処について取り上げます。私たちは、エージェントを使用するだけでなく、データ収集や教師ありファインチューニングから強化学習、評価に至るまで、工場ライン全体を構築するために必要になるものを理解したいと考えました。

Video Thumbnail

この投稿では、今回の対談からの重要なアイデアをいくつか紹介します。トピックの要点をすばやく把握したり、リンクやタイムスタンプを利用して特定のセグメントを詳しく調べたりするためにご活用ください。

エージェントにまつわる業界の動向

タイムスタンプ: 2:00

https://storage.googleapis.com/gweb-cloudblog-publish/images/image-1_ZfG9LL0.max-2200x2200.png

私たちは詳細な調査に入る前に、急速に変化する AI エージェントの世界における最新の進展を確認しました。

  • Gemini 2.5 Computer Use: Google の新しいモデルは仮想ユーザーとして機能し、コンピュータ画面の操作、ボタンのクリック、フォームへの入力、スクロールなどを行うことができます。これは、単に物事を知っているエージェントから、ブラウザで直接タスクを実行できるエージェントへの移行です。

  • AI Studio のバイブ コーディング: アプリケーションの「バイブ」を記述すると、AI がボイラープレートを処理する、アプリ構築の新しいアプローチです。「これを緑色に変更して」といった簡単な指示で特定の UI 要素を調整できるアノテーション モードも含まれています。

  • DeepSeek-OCR とコンテキスト圧縮: DeepSeek で、ドキュメントを画像のように扱ってレイアウトを理解し、10~20 個のテキストトークンを 1 つのビジュアル トークンに圧縮する方法が導入されました。これにより、長文コンテキスト タスクの速度が大幅に向上し、費用が削減されます。

  • Google Veo 3.1 と Flow: AI 動画モデルへの新しいアップデートで、豊かな音声生成と強力な編集機能が追加されています。「挿入」でキャラクターを追加したり、「削除」で既存の動画からオブジェクトを消去したりできるようになっており、クリエイターは反復的な制御を行えます。

オープンモデルの構築に関する Ravin Kumar の見解

エージェント機能を備えたオープンモデルを作成するエンドツーエンドのプロセスについて、Ravin に詳しく話を聞きました。このプロセスには従来の ML ライフサイクルが反映されているものの、コンポーネントは大幅に複雑になっています。

エージェントデータの定義

タイムスタンプ: 14:55

Ravin は、エージェントのトレーニング データが標準的なテキスト データセットとは大きく異なると説明しました。これは、ユーザーが実際に必要としているものを特定することから始まります。データ自体は、モデルが意思決定を行い、ツールを使用する複雑な例である軌跡の集合です。Ravin は、オープンモデルが学習するための作業場所を作成するために、人間がキュレートしたデータと、社内の「教師」モデルと API によって生成された合成データを組み合わせて使用していると話しています。

トレーニング手法: SFT と強化学習

タイムスタンプ: 17:14 

データの準備が整った後、トレーニング プロセスは 2 段階のアプローチで進められます。まず、教師ありファインチューニング(SFT)では、フレームワークがモデルの重みを更新し、サンプルに基づいて新しい動作を促します。ただし、一般化(元のトレーニング データにはない新しい状況)に対処するためには、強化学習(RL)を使用します。Ravin は、RL で報酬を設定することの難しさを強調し、「報酬ハッキング」が発生しやすいと警告しています。これは、モデルが最終的なタスクを完了することなく、中間報酬を集めてしまうものです。

評価のリスク

タイムスタンプ: 20:10

Ravin は、プロセスの中で最も重要でリスクが高いのが評価だと強調しました。トレーニング プロセスを単純に信頼することはできず、厳格な「最終試験」が必要になります。これについては、一般的な能力を測定するために幅広い公開ベンチマークを組み合わせ、モデルが意図されたユースケースに対して安全かつ効果的になるように特定のカスタム評価が使用されています。

まとめ

Ravin Kumar との対談で、オープンなエージェント モデルの構築が、高度に構造化された厳格なプロセスであることがわかりました。これを実現するには、データの高品質な軌跡の作成、教師あり学習と強化学習の慎重な組み合わせ、そして何よりも厳格な評価が求められます。

構築してみる

Ravin がアドバイスしたように、まず最終的な目標を決めることが重要です。トレーニング コードを記述する前に、エージェントに対する 50 サンプルの小さな最終試験を作成し、成功の基準を定義します。測定できなければ、改善することはできません。また、さまざまなアプローチを組み合わせることもおすすめします。たとえば、Gemini のような高性能な API モデルをルーターとして使用し、特定のタスクには専用のオープンソース モデルを使用するなどです。

詳しくは、エピソード全体をご覧ください。次回もお楽しみに!

ソーシャル メディアでつながる

-デベロッパー リレーションズ エンジニア、Amit Maraj

-デベロッパー リレーションズ エンジニア、Ivan Nardini

投稿先