生成 AI のその先へ : AI エージェントを支えるテクノロジー
Hamidou Dia
Vice President, Applied AI Engineering
様々な用途に適した数多くの有望な AI 技術が存在します。これらのテクノロジーの真価は、複数のタスクや複雑なタスクを処理するために組み合わせることで発揮されます。
※この投稿は米国時間 2024 年 8 月 20 日に、Google Cloud blog に投稿されたものの抄訳です。
生成 AI がこの 1 年間、常に話題の中心にあったように、次のビッグトレンドがすでに現れていることにお気づきの方もいるかもしれません。それは、AI エージェントです。
生成 AI がここ数十年で開発されたテクノロジーの中でも極めて強力なものであることに人々が気づくのに時間はかかりませんでした。しかし、確立された AI テクノロジーも数多く存在します。その多くは特定のビジネス タスクを実行するために特別に開発されたもので、生成 AI と組み合わせることで、さらに多くの用途に活用できます。
生成 AI が私たちの注目を集めている、その魔法のような能力の多くは、単独で実現されることはほとんどありません。生成ツールによってもたらされたと考えられているイノベーションのいくつかは、実際には、高度な推論、インテリジェントな意思決定、複数ステップからなる計画、複雑なアクションの実行などを可能にする他の AI システムを活用することで生まれています。これが、顧客対応、従業員の能力強化、創造性の増幅、コーディングやデータ分析の高速化を実現する、高度な連携型 AI エージェントを構築するための基盤となっています。
簡単に言うと、生成 AI は、常に必要というわけではありませんが、必要となった場合には、他のタイプの AI と組み合わせることでさらに強力になる可能性があるということです。
AI エージェントの時代を迎えるにあたり、生成 AI は現在利用可能な膨大な AI ツールボックスの中の単なる一つの技術に過ぎないことを忘れてはなりません。そして、この革新的なテクノロジーの恩恵を最大限に享受するには、利用可能な AI をすべて活用する必要があるでしょう。AI のリーダーたちはすでにそれを実践しています。
AI は 1 つの技術以上の可能性を秘めている
基盤モデルや大規模言語モデル(LLM)は、テキスト、画像、動画、音声、さらにはコンピュータ コードなど、事実上あらゆる種類のコンテンツを作成できます。生成 AI の機能を支える ML モデルは、トレーニング データ内のパターンや構造を検出することで、類似した特性を持つまったく新しいコンテンツを作成できます。
このタイプの AI の持つ可能性と、誰にでも利用可能であることが、多くのビジネス リーダーを魅了しています。他のタイプの AI は以前から存在していましたが、専門的な知識や技術を必要とする場合がほとんどでした。現在、注目すべき点は、生成 AI が他のタイプの AI からの入力によってより有用になるだけでなく、生成 AI のインターフェースによって、予測モデル、画像認識、音声認識など、よりテクニカルな AI の理解、運用、操作が容易になることです。
たとえば、AI エージェントに「この 6 か月間でベンチマークを上回った株式銘柄はどれですか?」と質問したとします。生成 AI モデルには、それだけでは、質問者の事業に関連するさまざまな予測を検索したり、質問したりできる機能はありません。この場合、生成 AI はプロンプトを解釈し、関数呼び出しをトリガーして予測を取得し、その予測を解釈して回答を提供する役割を担います。しかし予測を生成するのはまったく異なる種類の AI システムであり、エクスペリエンスの残りの部分を実行する生成 AI モデルではありません。
さらに、株価パフォーマンスについて質問するプロンプトをモデルがより賢く解釈できるよう、関連情報(検索データや自社の企業データなど)でモデルをグラウンディングすることで、出力を大幅に向上させることができます。さらに、ユーザーのプロンプトの意味を理解することで、生成 AI モデルは、ユーザーが求める結果をより正確に把握できます。この 2 つのステップ、すなわちグラウンディングとセマンティック検索は、生成 AI からユーザー独自のビジネスやユースケースにより関連性のある結果を得るのに役立ちます。
McKinsey の調査によると、生成 AI は、あらゆる AI テクノロジーの効果を最大 40% 向上させる可能性があります。これは、他のツールに組み込まれることで、そのツールが担うユースケースを超えたタスクを生成機能が実現することを考慮すると、そのおよそ倍になると推定されます。
総合的に見ると、このような予測は、AI が成熟し続けるにつれて、組織は、生成 AI の潜在能力を最大限に引き出す AI エージェントを作成するために、複数の異なるテクノロジーを組み合わせるようになることを示唆しています。そして、多くの組織が AI の将来の可能性を熱心に模索している今、あらゆる AI テクノロジーを調査し、AI エージェントへの明確な道筋を立案することが不可欠です。
このことを念頭に置いて、人気の AI テクノロジーをいくつか見てみましょう。これらは、生成 AI の助けを借りることで、より利用しやすく、拡張性が高く、強力なものとなっています。
予測 AI
予測 AI テクノロジーは、過去のデータを分析し、パターンを特定することで将来の結果を予測します。こうしたインサイトは、意思決定をサポートし、応答や対応の指針となります。また、予測モデルは閲覧行動、購入履歴、個人の好みを分析できるレコメンデーション エンジンなどにも活用されています。顧客のお気に入りの布団に最適なシーツセットや完璧に厳選されたプレイリストなど、どのようなレコメンデーションにも利用できます。
予測モデルはすでに、フリート配送ルートの最適化、フライト遅延を削減するための気象パターン予測、製造工場での潜在的な品質不良の早期発見など、さまざまな場面で多くの組織を支援しています。そして、生成 AI は、これらの予測をさらに革新的かつ堅牢かつ正確なものにしています。たとえば、生成 AI を使用すると、現実的な未来のシナリオを生成したり、トレーニング データセットのギャップを合成データで補完したりすることが可能です。同様に、予測 AI は、ユーザーの好みや行動に関する予測に基づいて、よりターゲットを絞ったコンテンツの作成や最適化を支援できるため、パーソナライズされたエクスペリエンスの実現に役立ちます。
Vision AI
Vision AI は、画像や動画を理解し、分析し、そこから情報を抽出するのに役立ちます。ユーザーは、単純なものから複雑なものまで、幅広いビジネス アプリケーションに対応するコンピュータ ビジョン モデルをトレーニングできます。
たとえば、Vision AI を使用すると、動画や画像内の特定のオブジェクト(道路の陥没など)や場所、さらにはアクションなどを検出および分類できます。また、画像をスキャンし、オブジェクトを検出して、有用な画像メタデータを生成するモデルを作成することもできます。コンピュータ ビジョン技術を活用することで、顧客の顔とともに動く 3D メイクアップを施すといった 3D スタイル変換を実用化しているブランドもあります。
現在では、Gemini のようなマルチモーダル生成 AI モデルと組み合わせることで、クリエイティブな AI エージェントを提供できるようになっており、写真や動画にプロレベルの編集を行ったり、25 年分の動画から最もエキサイティングな部分を見つけ出すことが可能です。
会話型 AI
会話型 AI とは、人間の会話や交流をシミュレートできるテクノロジーのカテゴリを指し、ML、自然言語処理(NLP)、自動音声認識(ASR)、テキスト読み上げ(TTS)などが含まれます。これらのテクノロジーを組み合わせることで、コンピュータ システムが人間の言語を構造化データとして解釈できるようになり、顧客に対して、人間のエージェントと同様の適切な応答を返すことが可能になります。
さらに、会話型 AI モデルは、顧客の感情や意図の検出を支援し、問題をより迅速に解決して顧客満足度の向上につなげるための継続的なサポートを提供することで、人間のエージェントをサポートすることもできます。最も一般的な例としては、複雑な会話やリクエストに対応しながら自然で直感的なカスタマー エクスペリエンスを提供する、コールセンターの仮想エージェントの構築が挙げられます。
生成 AI と会話型 AI は同義語として使用されることがよくありますが、実際に、人間のように解釈、応答、対話できるエージェントを作成するには複数のテクノロジーが必要です。しかし、生成 AI の台頭により、会話型 AI の機能も自然と向上することとなり、2 言語間での会話をリアルタイムで翻訳したり、ニュースや音声録音を配信したり、車の購入を手助けしたりする、より人間らしくインテリジェントな AI エージェントを作成できるようになっています。
音声文字変換と翻訳向け AI
同様に、音声の AI テクノロジーも会話型 AI エクスペリエンスを提供するうえで大きな役割を果たしますが、このテクノロジーは、chatbot、仮想エージェント、仮想アシスタント以外にも、さまざまなビジネス ユースケースに活用できます。たとえば、特化した音声 AI モデルを活用することで、電話会議などの音声の文字起こしを行ったり、動画の字幕を作成したりできます。また、言語を自動的に検出し、テキストや音声をリアルタイムで翻訳するモデルもあります。
これらのテクノロジーは、未来のイノベーションとして形を現しつつあるのではなく、すでに確立されたものであり、多くのケースで理解が深まっています。さらに重要なことは、これらのテクノロジーがまだ十分に活用されていないということです。特に、生成 AI ツールとの統合においては、多くのチャンスが残されています。
AI エージェントの未来
生成 AI の出現に伴う顕著な変化の一つは、それが人々の想像力を解き放ち、データ、システム、人々との関わり方に対する考え方を変えたことです。かつて AI への投資を検討したが、見送った組織も少なくないでしょう。しかし今では、そのような組織も以前には考えられなかった可能性を見出しています。
この新たな展望によって企業は自社の業務や運営方法を見直し、以下のような新たな疑問を抱くようになりました。
- 倉庫の積み荷や小売店の在庫をカメラで監視し、在庫が適切かつ安全に保管されているかどうかを判断できるか?
- 特定の種類やブランドのオレンジジュースを顧客が何回購入したかを把握できるか?また、追加購入につながりそうな関連商品を特定できるか?
- 新素材やタンパク質の応用に関する研究や開発を AI システムはどの程度迅速化できるか?
- スキャン画像を分析することで、より迅速かつ正確に病気の発見や診断を行えるか?
- データベースにある花火またはホームランを含むすべての動画クリップを自動的に探し出せるか?
- 自動化されたシステムは、人間の従業員と同じように顧客とやりとりできるか?
多くの組織がデータを管理したり、AI や ML を活用したりするための機能やツールを獲得していくにつれて、かつては特殊なユースケースと見なされていたものが、より一般的なものになりつつあります。デジタルと現実世界が融合した体験のレベルが上がり、以前は優先順位の一番下に追いやられていたかもしれない他のタイプの AI テクノロジーへの関心が再び高まっています。また、AI エージェントを開発する際には、AI 技術がどういった状況で使われるのか、そのコンテキストをより重視するようになっています。
生成 AI の革新的な点は、非構造化データの生成、合成、要約を可能にすることです。しかし、その真の可能性は、AI の活用を専門家やエンジニアの領域に限定してきた障壁を取り除くことができる点にあります。協力してプロジェクトを遂行するチームのように、生成 AI はリーダーとして機能し、最終目標を達成するためにさまざまな知識、洞察、能力を提供できる適切な人材やテクノロジーを結びつける役割を果たします。
生成 AI は、企業内に AI の価値をより広く浸透させることが可能ですが、それを実現する AI テクノロジーが生成 AI のみであると考えるのは短絡的です。実際には、新しいユースケースや機能が開発され続けるなか、将来の AI には、既存のものと新しいものを組み合わせた複数のモデルや AI テクノロジーが関わってくる可能性が高いと考えられます。
冒頭の画像は、Vertex AI の Imagen 3 を使用して、次のプロンプトで作成しました。「雑誌用にフラットなスタイルで描かれた可能性に満ちた世界。技術的ではあるが未来的ではなく、ビジネス活動や興奮が世界中で巻き起こっているように見えるもの」
-Google Cloud、応用 AI エンジニアリング担当 VP Hamidou Dia