借助主动音频功能,你可以控制 Gemini 的回答时间和回答情境,从而减少中断,让 Gemini 进行更真实的对话。例如,您可以让 Gemini 仅在收到提示或讨论某些特定主题时做出回答。如需了解主动音频的实际运用,请观看功能演示。
本指南介绍了主动音频的运作方式、如何将其集成到应用中,以及哪些令牌会产生费用。本指南未涵盖 Proactive Audio 的价目表。如需了解完整的价格详情,请参阅 Vertex AI 价格。 本指南假定您正在 Vertex AI Studio 中工作,或者正在使用 Google Gen AI SDK for Python。
支持的模型
您可以在以下型号的设备上使用主动音频:
模型版本 | 可用性等级 |
---|---|
gemini-live-2.5-flash-preview-native-audio-09-2025 |
公开预览版 |
gemini-live-2.5-flash-preview-native-audio |
公开预览版;终止日期:2025 年 10 月 17 日 |
使用主动音频
在 gemini-live-2.5-flash-preview-native-audio-09-2025
中,主动音频功能默认处于停用状态。
如需使用主动音频,请在设置消息中配置 proactivity
字段,并将 proactive_audio
设置为 true
:
Python
config = LiveConnectConfig( response_modalities=["AUDIO"], proactivity=ProactivityConfig(proactive_audio=True), )
使用主动音频进行对话
您可以使用主动音频功能发起与 Gemini 的对话,并定义 Gemini 何时可以回答问题,从而将 Gemini 的回答限制在相关主题内。
例如,以下是与 Gemini 就烹饪展开的对话示例:
Prompt: "You are an AI assistant in Italian cooking; only chime in when the topic is about Italian cooking."
Speaker A: "I really love cooking!" (No response from Gemini.)
Speaker B: "Oh yes, me too! My favorite is French cuisine." (No response from
Gemini.)
Speaker A: "I really like Italian food; do you know how to make a pizza?"
(Italian cooking topic will trigger response from Gemini.)
Live API: "I'd be happy to help! Here's a recipe for a pizza."
特性
使用主动音频时,Gemini 会在用户说完话后以极低的延迟做出响应。这样可以减少中断,并有助于 Gemini 在发生中断时不会丢失上下文。
主动音频功能还可以帮助 Gemini 避免受到背景噪音或外部对话的干扰,并防止 Gemini 在对话期间因外部对话而做出回应。
如果用户需要在 Gemini 回答期间打断,Proactive Audio 可让 Gemini 更轻松地进行适当的后通道处理(即处理适当的打断),而不是像用户使用 umm 或 uhh 等填充词时那样。
Gemini 可以共同聆听不是说话者声音的音频文件,然后在对话中回答与该音频文件相关的问题。
结算
在 Gemini 聆听对话时,系统会收取输入音频令牌费用。
对于输出音频令牌,只有在 Gemini 回答时才会收费。如果 Gemini 不回应或保持静默,则不会收取输出音频令牌的费用。
如需了解详情,请参阅 Vertex AI 价格。