コンテンツに移動
AI & 機械学習

Gemini Live API が Vertex AI で一般提供開始

2025年12月18日
Fabien Blanc-paques

Group Product Manager, Vertex AI, Google Cloud

Try Gemini 3.1 Pro

Our most intelligent model available yet for complex tasks on Gemini Enterprise and Vertex AI

Try now

※この投稿は米国時間 2025 年 12 月 13 日に、Google Cloud blog に投稿されたものの抄訳です。

このたび、最新の Gemini 2.5 Flash ネイティブ音声モデルを搭載した Gemini Live API が Vertex AI で一般提供開始となりました。

先駆的な組織は、Gemini Live API を使用して、音声、ビジョン、テキストを融合した次世代のマルチモーダル会話型 AI を構築し、人間のようなスムーズで高度にコンテキストに応じたインタラクションを実現しています。Google Cloud のお客様は、最も要求の厳しいワークフローに必要な安定性とパフォーマンスを備えた、低レイテンシの音声および動画エージェントをデプロイできます。

リアルタイムのマルチモーダル AI エージェントによる新たな基準

Gemini Live API は、AI を実用化するための新基準です。単に話を聞くだけでなく、リアルタイムでユーザーの意図や画面のコンテキストを瞬時に理解し、声に込められた感情を捉え、人間のような声で応答するエージェントを想像してみてください。

この動的な機能の背後にあるのが、Gemini 2.5 Flash ネイティブ音声モデルです。Google のアプローチは、Google の高度なエクスペリエンス全体で提供されているのと同じ高品質の会話型インテリジェンスを、エンタープライズ アプリケーションに直接提供するというシンプルなコミットメントに基づいています。

リアルタイムのインタラクションでは、正確さとスピードが不可欠です。Gemini Live API はネイティブにマルチモーダルであり、人間の会話が持つ瞬間的な複雑さを処理するよう設計されています。

  • 発話の途中で遮られてもテンポを崩さず対応し、自然な会話のキャッチボールを実現します。

  • ピッチやペースなどの音響キューを理解し、意図やトーンを解読します。

  • ユーザーが共有した複雑な視覚データ(グラフ、ライブ動画、図)を見て議論し、即座に状況に応じたサポートを提供します。

Vertex AI でデプロイするという確かな信頼

Gemini Live API は、企業の成功を後押しするために設計されています。Vertex AI は、ミッション クリティカルなエージェントが本番環境で必要とするセキュリティと安定性を提供します。

Gemini 2.5 Flash ネイティブ音声モデルは、大量の同時インタラクションを一貫した低レイテンシのパフォーマンスで処理できるよう最適化されています。Vertex AI にデプロイすることで、複数のリージョンにわたる Google の拡大するグローバル インフラストラクチャを活用し、ユーザーに信頼性を提供できます。さらに、データの処理場所を管理できるエンタープライズ グレードのデータ所在地機能により、重要な規制やコンプライアンス基準を満たすことができます。

Gemini Live API の実社会へのインパクト

Gemini Live API の真の力は、現在この API を使用してカスタマー エクスペリエンスを再定義している企業によって実証されています。

世界をリードするコマース プラットフォームである Shopify は、Vertex AI の Gemini Live API を活用して、マルチモーダル AI アシスタント、Sidekick を開発しました。Sidekick は、デスクから離れた場所でも、パーソナライズされた堅牢なサポートを提供し、従来のチケット発行ワークフローに頼らないリアルタイムの問題解決を実現します。

「Sidekick を使い始めて 1 分も経たないうちに、AI と話していることを忘れてしまうユーザーも多く、長いチャットの後で、ボットにお礼を言うユーザーもいます。起業家にとって、今はエキサイティングな時代です。Gemini が提供する新しい AI 機能は、販売者が成功を勝ち取る力になります。」 Shopify、プロダクト担当バイス プレジデント、David Wurtz 氏

https://storage.googleapis.com/gweb-cloudblog-publish/images/1_s90px9y.max-1600x1600.png

United Wholesale Mortgage(UWM)は、AI ローン オフィサー アシスタントの Mia を使用して、ビジネス プロセスを変革し、ブローカー パートナーのビジネス効率を大幅に向上させました。

「Gemini 2.5 Flash ネイティブ音声モデルを統合し、Vertex AI プラットフォームで Gemini Live API の機能を活用することで、2025 年 5 月のリリース以来、Mia の機能を大幅に強化することができました。この強力な組み合わせにより、当社はブローカー パートナー向けに 14,000 件以上のローンを創出することができました。これは、UWM において AI が単なる流行語ではないことを証明しています。」UWM、最高技術責任者、Jason Bressler 氏

https://storage.googleapis.com/gweb-cloudblog-publish/images/2_4T1igof.max-1300x1300.png

SightCall は、リモートでの動画サポートと AI 駆動型のビジュアル アシスタンスを提供し、カスタマー サービス チームとフィールド チームが問題をより迅速に解決できるよう支援しています。

「このパートナーシップが非常にエキサイティングなのは、Gemini 2.5 Flash ネイティブ音声モデルが単に高速であるだけでなく、驚くほど人間的であるためです。SightCall Xpert Knowledge™ と組み合わせることで、優秀な技術者並みの知識を持ったリアルタイム対応のエキスパートを作成できました。これが視覚的サポートの未来です。」SightCall、CEO、Thomas Cottereau 氏

https://storage.googleapis.com/gweb-cloudblog-publish/images/3_54hmOIa.max-1700x1700.png

Napster  は、Gemini Live API のビジョン機能と音声機能を使用して、ユーザーが専門的な AI コンパニオンと共創し、リアルタイムのガイダンスを受けられる環境を提供しています。

「Vertex AI の Gemini 2.5 Flash ネイティブ音声モデルを活用することで、これまで不可能だったものを構築することができました。ユーザー本人や画面を見て、リアルタイムの会話で本物の専門家のように応答する AI コンパニオンです。ビジョンと音声の組み合わせにより、プロンプトもエンジニアリングも不要な、真のコラボレーションが可能になります。AI がコンテキスト全体を理解し、誰もが創造性と専門性を発揮できる、自然な対話を実現できました。」- Napster、最高技術責任者、Edo Segal 氏

https://storage.googleapis.com/gweb-cloudblog-publish/images/5_4VOZLde.max-2000x2000.png

Lumeris は、ニュアンスや感情への配慮が不可欠なリスクの高い環境で、ヘルスケア AI アシスタントの Tom を導入しています。

「Vertex AI の Gemini Live API への移行は、患者との対話をより直感的かつ効率的に行うための戦略的投資です。その結果、より応答性が高く、パーソナライズされた音声エクスペリエンスを実現できました。Lumeris の目標は、エージェント型のプライマリ ケア チーム メンバーである Tom と患者とのあらゆるやり取りの質を高めることです。これは、患者ケアの新たな基準の確立につながっています。」- Lumeris、代表者兼最高技術責任者、Jean-Claude Saghbini 氏

https://storage.googleapis.com/gweb-cloudblog-publish/images/6_zfAiTVD.max-2000x2000.png

Newo は、一般的な問い合わせから販売まで、さまざまなタスクを処理し、極めて人間らしく、感情に即した会話品質を実現する、汎用性の高い AI 受付係を導入しています。

「Vertex AI を通じて Gemini 2.5 Flash ネイティブ音声モデルを使用することで、Newo.ai AI 受付係は、超低レイテンシと高度な推論を組み合わせた、比類のない会話インテリジェンスを実現しています。騒がしい環境でも主な話者を特定し、会話の途中で言語を切り替え、非常に自然で感情豊かな音声で応答することができます。Gemini Live API を活用した当社の AI アウトバウンド セールス エージェントは、笑い、冗談を交わし、真の意味でつながりを生み出せるため、すべての通話が人間味あふれるものになります。」- Newo.ai、共同創業者、David Yang 氏

https://storage.googleapis.com/gweb-cloudblog-publish/images/7_N5BSHN6.max-1800x1800.png

11Sight は、予約の受け付けや販売を担う AI 搭載の会話エージェントを通じて、顧客とのやり取りを再定義しています。

「Vertex AI の Gemini 2.5 Flash ネイティブ音声モデルは、非常に低いレイテンシで音声 AI エージェントを迅速に開発するために必要なエンタープライズ グレードのプラットフォームを提供してくれました。このソリューションを Sentinel AI エージェントと統合したことで、通話解決率は 2 月の 40% から 11 月には 60% に向上しました。」- 11Sight、最高技術責任者、Farokh Eskafi 博士

https://storage.googleapis.com/gweb-cloudblog-publish/images/8_dojEBmM.max-2000x2000.png

次世代エージェントの構築を今すぐ開始

Vertex AI で Gemini Live API を使用して今すぐ構築を始めましょう。

-Google Cloud、Vertex AI、グループ プロダクト マネージャー、Fabien Blanc-paques

投稿先