コンテンツに移動
AI & 機械学習

マルチモーダル AI は「百聞は一見にしかず」の証

2025年5月30日
https://storage.googleapis.com/gweb-cloudblog-publish/images/GettyImages-1758555858.max-2600x2600.jpg
Logan Kilpatrick

Senior Product Manager, Google DeepMind

AI の分野では、音声と映像によって、新しい UX パラダイムが生まれています。そしてそれが企業と人々にどのような機会をもたらすのかを説明します。

※この投稿は米国時間 2025 年 4 月 30 日に、Google Cloud blog に投稿されたものの抄訳です。

Google DeepMind では、強化学習(RL)から AlphaGo による競争効果、ノーベル化学賞を受賞した AlphaFold への取り組みまで、あらゆる分野のイノベーションが起きています。

Google は先日、Google 史上最もインテリジェントなモデルである Gemini 2.5 をリリースしました。これは、ネイティブなマルチモダリティを備えた Gemini の優れた機能を基盤としています。マルチモダリティ(音声、映像、テキストの入力と出力)は、AI が世界をより包括的かつ人間的に認識し、理解するのに役立ちます。

これは、初期の AI システムからの大きな変更点です。アルゴリズムによる初期の反復処理ではテキストをうまく処理できましたが、言語モデルをインテリジェンスの代替物として見た場合、多くの人間が兼ね備えている、視覚的または聴覚的な理解を通じて世界を理解する、という能力がなかったことが明らかな問題点でした。

現在、マルチモーダルはまったく新しい UX パラダイムを生み出しています。たとえば、Notebook LM などのソリューションではすでに音声を利用できるようになっています。最終的には、入力と出力の融合が、複雑なワークフローの自動化、新しいコンテンツの生成、そして自然で堅牢なユーザーエクスペリエンスの提供を可能にします。それでは、マルチモーダル AI がこの新しいパラダイムをどのように生み出し、企業や人々にどのような機会をもたらすのかについて、具体的にお話ししましょう。

Video Thumbnail

マルチモーダル AI とは何か?コンテキストが重要なのはなぜか?

マルチモーダル AI とは、簡単に言えば、人間が使い慣れたすべての入力モーダルと出力モーダルの融合です。モデルはテキスト、音声、動画、画像を入力として受け取り、同じものを出力できます。ただし、重要なのはコンテキストです。コンテキストが重要なのは、コンテキストがなければモデルが要求されたことを実行できないためです。コンテキストは、モデルが要求されたことを実行するために不可欠であり、得られる結果の品質を左右する主な要因です。

言語モデル用のシンプルなテキスト プロンプトを想像してみてください。これは、新しいセッションやインタラクションを開始するたびにクリアされます。これを「AI 1.0」システムと呼んでいます。AI 1.0 システムでは、モデルにコンテキストを与えてコンテキスト ウィンドウに入力するという、面倒な作業をすべてユーザーが行う必要があります。

マルチモーダル AI は、音声や映像を含め、人間が理解するコンテキストを活用する 2.0 アプリケーションを実現させる可能性を秘めているため、期待が高まっています。

音声と映像の融合: 新しい UX パラダイム

入力の観点から現在最も注目されているのは映像です。モデルが画像の理解に優れているなら、動画の理解にも本質的に優れています。

「百聞は一見にしかず」という古くからのことわざがあります。マルチモーダルの世界では、このことがさらに重要になります。今、私が自分のパソコンを見て、目に映っているものをすべて説明しようとすると、45 分かかるでしょう。しかし、写真を撮れば簡単です。映像のユースケースは、オブジェクト トラッキングのような単純なものから、画像の検出まで多岐にわたります。たとえば、工場では、製造する製品に不純物が混入していないか、製造ラインを監視しています。あるいは、農場では何十枚もの写真を分析して、作物の収穫量を把握しようとしているかもしれません。これらのモダリティを組み合わせることにより、幅広い分野で大きなチャンスが生まれます。

最近の例を挙げましょう。Google Cloud Next で、私は Gemini のマルチモーダル機能を使用して 1970 年代のキッチンを改装する方法を紹介しました。AI Studio に、同僚の Paige のキッチンを分析するようプロンプトで指示し、テキストによる説明、間取り、画像を提供すると、Gemini は、アイデアを形にする Gemini のネイティブな画像生成機能を利用して、キャビネット、デザイン、カラーパレット、素材を提案してきました。次に、実際にどれくらいの費用がかかるかを見積もるため、Google 検索によるグラウンディングを使用しました。材料の実際の費用や、地域の建築基準も取り込みました。

動画の理解、ネイティブな画像生成、Google 検索による実際の情報へのグラウンディングなどは Gemini が得意とする分野です。

映像とともに、音声もユーザーが AI とやり取りする新しい UX パラダイムです。プロンプト(chat bot にテキストを入力する手段)を使用するだけでなく、私たちが多くの時間を費やして人と話しているように、モデルに話しかけるようになってきています。

NotebookLM を例に挙げてみましょう。汎用性が高く、内部では Gemini モデルが使われています。ノートブック エクスペリエンスを可能にするという点でユニークなツールです。また、長いコンテキストも扱えます。つまり、音声モデルがノートブック自体で示す以上の多くのことを行えます。NotebookLM の活用例をご覧ください。研究論文のアップロードから、音声概要によるポッドキャストの作成まで、さまざまな活用方法があります。

マルチモーダル AI により、企業はより野心的な課題を解決できる

音声、映像、テキストにより、個人や企業は、解決したい課題を、参入障壁を下げつつ解決できるようになります。

これは差別化のチャンスです。chat bot にマイクアイコンを配置するだけでは、このテクノロジーの可能性を最大限に引き出すことはできません。こうしたモダリティを活用することで、より深いプロダクト エクスペリエンスを構築できます。モデルを自分で構築してデプロイ方法を考えるのではなく、モデルに 1 つの API 呼び出しを送信するだけで、より野心的な課題を解決できるようになりました。しかも今すぐ活用できるのです。

未来への確かな歩み

マルチモーダルの未来には、実世界で行動を起こすモデルと、より強力なインフラストラクチャの 2 つの面があります。ロボットを例に考えてみましょう。こうしたモデルは、見る、理解する、行動を起こす能力をますます高めています。モデルの信頼性を高めるには多くの作業が必要ですが、私たちはそうした方向に進んでいます。

さらに、テスト、オブザーバビリティ、モニタリング、バージョン管理、A/B テストなど、すべてを網羅する強力で最適化されたインフラストラクチャも必要です。私はこの新しい AI エコシステムに楽観的です。スタックのあらゆるレイヤにイノベーションの機会が見つかるからです。2025 年にマルチモーダル AI がどのような形になっていくかについて詳しくは、AI トレンドレポートをダウンロードしてください。

-Google DeepMind、シニア プロダクト マネージャー、Logan Kilpatrick

投稿先