コンテキストに応じた音声を使用する

プロアクティブ オーディオを使用すると、Gemini が応答するタイミングやコンテキストをユーザーが制御できるため、中断が少なく、より自然な会話が可能になります。たとえば、Gemini に、質問されたときや特定のトピックについて話しているときのみ応答するよう指示できます。プロアクティブ オーディオの動作を確認するには、機能のデモをご覧ください。

このガイドでは、プロアクティブ オーディオの仕組み、アプリケーションへの統合方法、課金対象のトークンについて説明します。このガイドでは、Proactive Audio の価格表については説明しません。料金の詳細については、Vertex AI の料金をご覧ください。このガイドでは、Vertex AI Studio で作業しているか、Google Gen AI SDK for Python を使用していることを前提としています。

サポートされているモデル

Proactive Audio は次のモデルで使用できます。

モデル バージョン 可用性レベル
gemini-live-2.5-flash-preview-native-audio-09-2025 公開プレビュー版
gemini-live-2.5-flash-preview-native-audio 公開プレビュー版。廃止日: 2025 年 10 月 17 日

コンテキストに応じた音声を使用する

gemini-live-2.5-flash-preview-native-audio-09-2025 では、Proactive Audio はデフォルトで有効になっていません。

プロアクティブ音声を使用するには、セットアップ メッセージの proactivity フィールドを構成し、proactive_audiotrue に設定します。

Python

config = LiveConnectConfig(
    response_modalities=["AUDIO"],
    proactivity=ProactivityConfig(proactive_audio=True),
)
  

コンテキストに応じた音声のみを使用して会話する

プロアクティブ オーディオを使用して Gemini との会話を開始し、Gemini が回答できるタイミングを定義して、回答を関連性の高いトピックに限定できます。

たとえば、料理について Gemini と会話する例を次に示します。

Prompt: "You are an AI assistant in Italian cooking; only chime in when the topic is about Italian cooking."

Speaker A: "I really love cooking!" (No response from Gemini.)

Speaker B: "Oh yes, me too! My favorite is French cuisine." (No response from
Gemini.)

Speaker A: "I really like Italian food; do you know how to make a pizza?"

(Italian cooking topic will trigger response from Gemini.)
Live API: "I'd be happy to help! Here's a recipe for a pizza."

機能

プロアクティブ オーディオを使用すると、ユーザーが話し終えた後、Gemini は最小限の遅延で応答します。これにより、中断が減り、中断が発生した場合でも Gemini がコンテキストを失うのを防ぐことができます。

また、Proactive Audio は、Gemini が周囲の雑音や外部の会話によって中断されるのを防ぎ、会話中に外部の会話が聞こえてきた場合に Gemini が応答しないようにします。

Gemini の回答中にユーザーが割り込む必要がある場合、Proactive Audio を使用すると、ユーザーが「えー」や「あー」などのフィラーワードを使用するよりも、Gemini が適切にバックチャネル(適切な割り込みが処理される)を返すのが容易になります。

Gemini は、発言者の音声ではない音声ファイルを一緒に聴き、会話の後半でその音声ファイルに関する質問に答えることができます。

課金

Gemini が会話をリッスンしている間は、入力音声トークンが課金されます。

出力音声トークンについては、Gemini が応答した場合にのみ課金されます。Gemini が応答しない場合や無音状態が続く場合、出力音声トークンに対する課金は発生しません。

詳細については、Vertex AI の料金をご覧ください。