コンテンツに移動
デベロッパー

Agent Factory のハイライト: Gemini 3、AI Studio、Antigravity、Nano Banana を使用した構築

2026年1月9日
https://storage.googleapis.com/gweb-cloudblog-publish/images/ep-15-agent-factory-hero.max-2600x2600.png
Amit Maraj

AI Developer Relations Engineer

Paige Bailey

UTL - Developer Relations, Google DeepMind

※この投稿は米国時間 2025 年 12 月 11 日に、Google Cloud blog に投稿されたものの抄訳です。

The Agent Factory へようこそ!今週は、Google による大規模な AI リリースの技術的側面を、単なる宣伝にとどまらず詳細に分析しました。DeepMind のデベロッパー リレーション担当 UTL である Paige Bailey を迎え、新しい Gemini 3 モデルから Antigravity IDE まで、さまざまなトピックについて解説しています。

Google は驚異的なペースでリリースを続けており、ほぼ毎日のように新しいモデルや機能が登場しています。このエピソードでは、デベロッパーがこうしたツールを今すぐ活用する方法に焦点を当てます。

Video Thumbnail

この投稿では、今回の対談からの重要なアイデアをいくつか紹介します。なお、この投稿は、トピックをすばやく振り返ったり、リンクやタイムスタンプを使用して特定のセグメントを詳しく調べたりできるような構成になっています。

https://storage.googleapis.com/gweb-cloudblog-publish/images/paige-relentless-shipping.max-2200x2200.png

技術スタックとは

このエピソードでは、新しい名前がいくつか登場しました。今回取り上げたテクノロジーの概要は次のとおりです。

  • Gemini 3: Google のモデル ファミリーの最新バージョン。Gemini 1 は理解、Gemini 2 は推論を重視していたのに対し、Gemini 3 は行動とコーディングを重視して設計されています。ツールの使用や関数呼び出しが強化されている点が特徴です。

  • Antigravity: Gemini 3 をコーディング ワークフローに直接統合するように設計された、Google の新しい AI ネイティブ IDE(統合開発環境)。スクリーンショットなどのマルチモーダル入力を使用して、コード変更を効率的に行えます。

  • Nano Banana Pro: メディア生成シリーズの最新バージョン。高忠実度の画像、ボクセルアート、ゲームアセットを作成できます。

The Factory Floor

「The Factory Floor」は、このポッドキャストの実践演習コーナーです。ここでは、概念的な内容から一歩踏み込み、実際のコードを使ったライブデモを行いました。

Gemini 3 で「Nordic Shield」を構築

タイムスタンプ: 11:20

Paige は、AI Studio の「ビルド」機能を使用して、複雑な React アプリケーションをゼロから作成しました。目標は、モデルが自己修正し、特定の設計上の制約に対処できるかどうかをテストすることでした。

  • プロンプト: ウェブカメラとマイクを使用した保険用カタログ作成アプリを作成してください。「北欧 / IKEA」風のデザインテーマ、在庫リスト、Google 検索に基づいてアイテムの価値を推定する機能が必要です。

  • プロセス: Gemini 3 は、React Native アプリを生成し、ディレクトリ構造を設定し、エージェント用のプロンプトを記述しました。

  • 結果: 「Nordic Shield」というアプリは、動画を使用してアイテム(Google Pixel 7 やソーダ缶など)をカタログ化することに成功しました。音声の問題が発生した際は、推論トレースを生成して問題をリアルタイムでデバッグしました。また、Gemini Live を活用して会話を行い、二次的な「エージェント的」ステップとして、Google 検索でアイテムの推定価値を調べました。

Antigravity によるウェブサイトのリデザイン

タイムスタンプ: 30:27

https://storage.googleapis.com/gweb-cloudblog-publish/images/amit-website-redesign.max-2200x2200.png

次に、Google の新しい IDE である Antigravity を取り上げました。目標は、テキスト中心の既存のウェブサイトを、スクリーンショットのみを参考にしながら、現代的で鮮やかな「ネオ ブルータリスト」デザインに更新することでした。

  • 入力: 既存のコードベースに加え、希望するビジュアル スタイル(手書き風、パステル調、ノート風)のスクリーンショット 2 枚。

  • 実装: Antigravity は画像を分析してデザインのコンセプトを理解し、作業がコンセプトから逸脱しないよう、タスクリストと実装計画を作成しました。

  • 結果: IDE はブランド ガイドラインに合わせてサイトをリファクタリングし、「ジグリングピル」型の UI 要素を導入するとともに、提供されたスクリーンショットと完全に一致するようにカラーパレットを更新しました。

Paige Bailey が語る Gemini の進化

DeepMind がモデルの急速な進化にどのように取り組んでいるのか、そしてそれが現在エージェントを構築しているデベロッパーにとってどのような意味を持つのかについて、Paige に話を聞きました。

Gemini の 3 つの段階

タイムスタンプ: 2:49

https://storage.googleapis.com/gweb-cloudblog-publish/images/paige-gemini-evolution.max-2200x2200.png

Paige は Gemini ファミリーの明確な進化の道筋を解説しました。その説明によると、最初の Gemini はマルチモーダル理解(動画、テキスト、音声)に重点を置いていました。Gemini 2 では思考、すなわち段階的に推論して計画する機能が導入されました。現在のバージョンである Gemini 3 は、行動に重きを置いています。このモデルは、推論に基づいて行動することに最適化されており、特にコーディングとツールの使用を通じて、各モデルが単独ではなく連携して動作する複合アーキテクチャを実現します。

事前トレーニングと事後トレーニング

タイムスタンプ: 4:55

これらのモデルの「教育」について、Paige は次のようなわかりやすい例えで説明しました。

  • 事前トレーニングは、モデルを学校に通わせるようなものです。Gemini に大量のトークン(インターネット データ、合成データ、ビデオゲームの映像)へのアクセス権を与え、基本を学習させます。

  • 事後トレーニングは、いわば「実務経験」です。ここでは、DeepMind が複雑なワークフローの具体例を手作業で厳選してモデルに提供します。たとえば、ウェブサイトを編集する際や、複数ツールを使用して 1 つのタスクを完了する際の複数ターンの会話などです。

「Vending Bench」

タイムスタンプ: 6:48

ベンチマークが変化しています。Paige は、Vending Bench という注目すべき新しい評価指標を紹介してくれました。このテストでは、モデルが自動販売機のような受動的なビジネスを運営できるかどうかを評価します。モデルは、稼働時間を最大化するために、在庫の把握、商品の再注文、補充担当者の配置、長期的な計画の策定を行う必要があります。スコアは、モデルが 1 年間で生み出す利益額によって決まります。現在、Gemini 3 Pro は 1 台あたり約 5,462 ドルの収益を上げており、長期の戦略的意思決定が大幅に改善されていることを示しています。

Nano Banana によるクリエイティブなマルチモダリティ

タイムスタンプ: 28:34

https://storage.googleapis.com/gweb-cloudblog-publish/images/paige-nano-banana.max-1200x1200.png

エピソードでは、スタックのクリエイティブな側面にも触れています。Paige は、推論とマルチモーダル出力を組み合わせると、可能性が爆発的に広がると強調しました。その例として、Nano Banana Pro を使用してゲームアセット、3D モデリングの正投影図(城など)、詳細な物理学の説明図を作成する事例が紹介されました。重要なポイントは、これらのメディアモデルと検索グラウンディングを組み合わせることで、正確で忠実度の高いビジュアル アセットを作成できることです。

まとめ

Google はモデルだけでなく、ハードウェアから Antigravity のような IDE に至るまで、充実したエコシステム全体を構築しています。これらのエージェントはワンクリックで Google Cloud に直接デプロイできるため、魅力的なデモからプロダクション レディなアプリケーションへの移行もスムーズです。

Paige が述べたように、進化の軌跡は指数関数的です。受動的なビジネスでも複雑なコーディング エージェントでも、構築に必要なツールはすでに揃っています。

構築してみる

まだお試しでない場合は、AI Studio にアクセスするか、Gemini API をお試しください。

「Vending Bench」チャレンジにも挑戦して、Gemini 3 よりも上手にビジネスを運営するエージェントを構築できるか試してみましょう。

ぜひ、皆様が構築されたものをお知らせください。

担当者のソーシャル メディア

-AI デベロッパー リレーション エンジニア、Amit Maraj

-Google DeepMind、デベロッパー リレーション担当 UTL、Paige Bailey

投稿先