AI & 機械学習

Gemini と Google ADK を使用してリアルタイム音声エージェントを構築する方法

2025年8月26日

Ashwini Kumar

Solution Acceleration Architect

Neeraj Agrawal

Solution Acceleration Architect

※この投稿は米国時間 2025 年 8 月 22 日に、Google Cloud blog に投稿されたものの抄訳です。

高度な会話型 AI の構築は、テキストの域をはるかに超えています。

AI を使用して、リアルタイムの音声駆動型エージェントを作成できるようになりました。しかし、これらのシステムには、低レイテンシの双方向通信、リアルタイムの情報検索、複雑なタスクを処理する能力が必要です。このガイドでは、Gemini と Google Agent Development Kit（ADK）を使用して構築する方法を説明します。インテリジェントで応答性の高い音声エージェントを作成する方法を見ていきましょう。

基盤となるエージェント

まず、ペルソナを持つエージェントを作成しますが、外部ツールにはアクセスできません。これは最もシンプルなエージェントで、事前トレーニングされた知識のみに依存しているため、優れた出発点となります。

読み込んでいます...

このエージェントは会話できますが、外部情報にはアクセスできません。

高度なエージェント

エージェントを便利なものにするために、ツールを追加します。これにより、エージェントはライブデータとサービスにアクセスできるようになります。streaming_service.py では、エージェントに Google 検索と Google マップへのアクセス権を付与しています。

読み込んでいます...

ツールの詳細

Google 検索: この事前構築された ADK ツールを使用すると、エージェントは Google 検索を実行して、最新のイベントやリアルタイムの情報に関する質問に回答できます。
Google マップの MCP ツールセット: Model Context Protocol（MCP）を使用して、エージェントを専用サーバー（ここでは、Google Maps API を理解するサーバー）に接続します。メインのエージェントはオーケストレーターとして機能し、処理できないタスクを専門ツールに委任します。

自然な会話の設計

RunConfig オブジェクトは、エージェントによるコミュニケーションについて定義します。これは、音声の選択やストリーミングモードなどの側面を制御します。

読み込んでいます...

StreamingMode.BIDI（双方向）を使用すると、ユーザーはエージェントの話に割り込んで、より自然な会話を実現できます。

非同期コア

リアルタイムの音声チャットでは、聞く、考える、話すという複数のタスクを同時に処理する必要があります。Python の asyncio と TaskGroup は、これらの並列タスクを実行します。

読み込んでいます...

エージェントの音声の翻訳

receive_service_responses タスクは、エージェントの出力を処理してユーザーに送信します。この出力には、音声とテキストの文字起こしが含まれます。

音声の処理

音声は、Base64 エンコードを使用して処理され、バイナリデータがテキスト文字列に変換されて送信されます。

読み込んでいます...

テキストの処理

テキストの文字起こしがストリーミングされ、リアルタイムでフィードバックが提供されます。

読み込んでいます...

開始する

ーソリューションアクセラレーションアーキテクト、Ashwini Kumar

ーソリューションアクセラレーションアーキテクト、Neeraj Agrawal

投稿先

Partners

Google Cloud でパートナーが構築した AI セキュリティイノベーションを発表

執筆者: Vineet Bhan • 所要時間: 4 分

AI & Machine Learning

Baseten が AI 推論の費用対効果を 225% 改善した方法

執筆者: Philip Kiely • 所要時間: 4 分

https://storage.googleapis.com/gweb-cloudblog-publish/images/hero_image_gaudiy_horizontal.max-700x700.jpg

Customers

Gaudiy: AI を活用したガンプラのデジラマ画像生成サービスで、IP とファンをつなぐ新たなコミュニティを開拓

執筆者: Google Cloud Japan Team • 所要時間: 3 分

AI & Machine Learning

会話型コマースエージェントで直感的なショッピングエクスペリエンスを提供

執筆者: Sachin Padwal • 所要時間: 3 分

Gemini と Google ADK を使用してリアルタイム音声エージェントを構築する方法

Ashwini Kumar

Neeraj Agrawal

基盤となるエージェント

高度なエージェント

ツールの詳細

自然な会話の設計

非同期コア

エージェントの音声の翻訳

開始する

関連記事

Google Cloud でパートナーが構築した AI セキュリティ イノベーションを発表

Baseten が AI 推論の費用対効果を 225% 改善した方法

Gaudiy: AI を活用したガンプラのデジラマ画像生成サービスで、IP とファンをつなぐ新たなコミュニティを開拓

会話型コマース エージェントで直感的なショッピング エクスペリエンスを提供

Google Cloud でパートナーが構築した AI セキュリティイノベーションを発表

会話型コマースエージェントで直感的なショッピングエクスペリエンスを提供