Vertex AI Gemini Live API で音声駆動型エージェント アプリケーションを構築する
Anant Nawalgaria
Sr. Staff ML Engineer, Google
Heiko Hotz
Generative AI Global Blackbelt, Google
※この投稿は米国時間 2025 年 5 月 6 日に、Google Cloud blog に投稿されたものの抄訳です。
あらゆる業界で、効率的でプロアクティブなソリューションが求められています。現場のプロフェッショナルが音声コマンドと視覚的な入力を使用して問題をリアルタイムに診断し、重要な情報にアクセスしてプロセスを始動できたら、どんなに便利か想像してみてください。Gemini 2.0 Flash Live API を使用すれば、開発者は業界の用途に合わせた次世代型のエージェント アプリケーションを作成できます。
この API は、上に挙げた一連の機能を複雑な産業オペレーションにもたらします。単一のデータタイプに依存するソリューションとは異なり、音声、映像、テキストといったマルチモーダル データを継続的なライブ ストリームで活用します。これにより、製造、医療、エネルギー、物流など、各種業界のプロフェッショナルが抱える多様なニーズを真に理解し、それに対応できるインテリジェント アシスタントが実現します。
この投稿では、Gemini 2.0 Flash Live API を活用した産業用機器の状態モニタリングについて、モーターのメンテナンスに焦点を当てた具体的なユースケースとともに説明します。Live API を使用すると、Gemini との双方向の音声と動画による低レイテンシのやり取りが可能になります。これにより、エンドユーザーに人間と話しているかのような自然な音声会話エクスペリエンスを提供できるうえ、音声コマンドでモデルのレスポンスを中断することも可能になります。このモデルは、テキスト、音声、動画の入力を処理でき、テキストと音声の出力を生成できます。ここで取り上げるユースケースは、従来の AI と比較したこの API の利点と、戦略的コラボレーションの可能性に焦点を当てています。
マルチモーダル インテリジェンスのデモ: 状態モニタリングのユースケース
デモでは、Gemini 2.0 Flash Live API を活用した双方向のライブ マルチモーダル ストリーミング バックエンドを紹介しています。このバックエンドは、リアルタイムの音声と映像の処理が可能で、高度な推論と自然な会話を実現します。API のエージェント機能と関数呼び出し機能を Google Cloud サービスとともに利用することで、工場の現場オペレーターが使いやすいモバイル デバイス向けの簡潔なユーザー インターフェースを備えた、パワフルなライブ マルチモーダル システムの構築が可能になります。このデモでは、実際の現場で対応すべき目標物として、目に見える欠陥のあるモーターを取り上げています。

スマートフォンでのデモの流れをまとめると次のようになります。
-
映像によるリアルタイム識別: カメラをモーターに向けると、Gemini がモデルを識別し、マニュアルから関連情報を即座に要約するので、機器の重要な詳細情報をすばやく確認できます。
-
映像によるリアルタイムでの欠陥識別: 「このモーターの目に見える欠陥を調べて」などの音声コマンドにより、Gemini がライブ動画を分析し、欠陥を識別して場所を特定し、欠陥として特定した理由を説明します。
-
修理プロセスの開始の合理化: 欠陥が特定されると、システムが欠陥部分をハイライトした画像と部品情報を含むメールを自動的に作成して送信し、修理プロセスを直接開始します。
-
音によるリアルタイム欠陥識別: 事前に録音された正常なモーターと欠陥のあるモーターの駆動音を分析することで、Gemini がサウンド プロファイルに基づいて欠陥のあるモーターを正確に識別し、分析結果を説明します。
-
モーターの駆動に関するマルチモーダル QA: オペレーターは、カメラを機器の特定部位に向けながら、モーターに関する複雑な質問を尋ねることができます。Gemini は、視覚的なコンテキストとモーター マニュアルの情報をインテリジェントに組み合わせて、正確な回答を音声で提供します。
仕組み: 技術的なアーキテクチャ


このデモでは、Google Cloud Vertex AI の Gemini Multimodal Livestreaming API を活用します。通常の Gemini API は視覚的および音声的特徴の抽出を処理しますが、この API は中核となるワークフローとエージェント形式での関数呼び出しを管理します。
ワークフローには、次のアクションが含まれます。
-
エージェント形式での関数呼び出し: API はユーザーからの音声と映像の入力を解釈して、必要なアクションを決定します。
-
音による欠陥検出: システムがユーザーによるインテントを認識すると、モーター音を録音して GCS に保存し、正常な音と異常な音のサンプルを含むプロンプトを使用する関数をトリガーします。音は Gemini Flash 2.0 API によって分析され、モーターの状態診断が行われます。
-
映像による検査: API が映像による欠陥検出を実行するというユーザーのインテントを認識すると、画像をキャプチャして、テキスト プロンプトによるゼロショット検出を使用する関数を呼び出します。欠陥の特定とハイライトには Gemini Flash 2.0 API の空間理解が活用されます。
-
マルチモーダル QA: ユーザーが質問をすると、API は情報取得のインテントを認識し、モーター マニュアルに対して RAG を実行してマルチモーダル コンテキストと組み合わせ、Gemini API を使用して正確な回答を提供します。
-
修理オーダーの送信: API は修理を開始するユーザーのインテントを認識すると、部品番号と欠陥画像を抽出し、事前定義されたテンプレートを使用して修理オーダーを自動的にメールで送信します。
このようなデモは、こちらのガイドをご参照のうえ、上記の図に示された各種機能を組み込むことで、最小限のカスタム インテグレーションにより簡単に作成できます。作業の大半は、さまざまなユースケースに合わせてカスタムの関数呼び出しを追加することです。
主な機能と、さまざまな業界に適用できるユースケースが産業界にもたらすメリット
このデモは、Gemini Multimodal Livestreaming API の主な機能と、産業界に変革をもたらすメリットに焦点を当てています。
-
リアルタイムのマルチモーダル処理: この API は音声と映像のライブストリームを同時に処理する能力を備えており、状況が変化し続ける環境でも即時に分析情報を提供することができます。これはダウンタイムの防止と業務継続性の確保に極めて重要です。
-
ユースケース: 医療分野では、医療スタッフがライブ動画と音声を使用して現場の救急隊員にリモートから指示を送り、バイタルサインと視覚情報をリアルタイムに受け取って、緊急時に専門的サポートを提供できます。
-
音声と映像による高度な推論: Gemini の高度な推論機能は、複雑な映像と微かな聴覚的手がかりを解釈して、正確な診断を下します。
-
ユースケース: 製造業では、AI が機械の音と映像を分析して、故障を未然に予測し、生産の中断を最小限に抑えることができます。
-
エージェント形式での関数呼び出しでワークフローを自動化: この API はエージェントの性質を持っているので、レポートの生成、プロセスの開始、ワークフローの合理化などのアクションをプロアクティブにトリガーするインテリジェント アシスタント機能が実現します。
-
ユースケース: 物流業界では、音声コマンドと映像による梱包破損検査によって、補償プロセスが自動的にトリガーされ、関係者に通知されます。
-
シームレスなインテグレーションとスケーラビリティ: この API は Vertex AI を基盤としており、他の Google Cloud サービスと統合できるので、大規模なデプロイにおけるスケーラビリティと信頼性が得られます。
-
ユースケース: 農業分野では、カメラとマイクを搭載したドローンが API にライブデータをストリーミングし、広大な農地で作物の健康状態や害虫の有無をリアルタイムで分析できます。
-
モバイル向けに最適化されたユーザー エクスペリエンス: モバイル ファーストで設計されているので、現場スタッフが使い慣れたデバイスを使用して必要なときに必要な場所で AI アシスタントとやり取りできます。
-
ユースケース: 小売業では、店舗スタッフが音声認識と画像認識を使用して、店舗での接客時に在庫の確認、商品の場所の特定、商品情報へのアクセスを迅速に行えます。
-
予防的メンテナンスと効率性の向上: リアルタイムの状態モニタリングが可能になるので事後対応的メンテナンスから予防的メンテナンスへと移行でき、ダウンタイムの短縮、アセットの利用率の最適化、分野の枠を超えた効率性の向上を実現できます。
-
ユースケース: エネルギー分野では、現場の技術者が API を使用して音声と映像のライブストリームを通じて風力タービンなどのリモート機器の問題を診断し、費用と時間のかかる実地作業を減らすことができます。
使ってみる
Gemini Live API を使用した最先端の AI インタラクションを、こちらのソリューションでご確認ください。低レイテンシの音声、ウェブカメラ / 画面の統合、中断可能なストリーミング オーディオ、Cloud Functions を介したモジュール式ツール システムを備えており、開発者はコードベースをソリューション構築の強力な出発点として活用できます。プロジェクトのクローンを作成して、コンポーネントを適応させれば、真の会話機能と認知機能を実現する変革的なマルチモーダル AI ソリューションの作成を開始できます。インテリジェント産業の未来は、ライブでマルチモーダルなものであり、その可能性はすべての業界に広がっています。
-Google、シニアスタッフ ML エンジニア、Anant Nawalgaria
-Google、スタッフ ML エンジニア、Heiko Hotz