使用主动音频

借助主动音频功能,你可以控制 Gemini 的回答时间和回答情境,从而减少中断,让 Gemini 进行更真实的对话。例如,您可以让 Gemini 仅在收到提示或讨论某些特定主题时做出回答。如需了解主动音频的实际运用,请观看功能演示

本指南介绍了主动音频的运作方式、如何将其集成到应用中,以及哪些令牌会产生费用。本指南未涵盖 Proactive Audio 的价目表。如需了解完整的价格详情,请参阅 Vertex AI 价格。 本指南假定您正在 Vertex AI Studio 中工作,或者正在使用 Google Gen AI SDK for Python。

支持的模型

您可以在以下型号的设备上使用主动音频:

模型版本 可用性等级
gemini-live-2.5-flash-preview-native-audio-09-2025 公开预览版
gemini-live-2.5-flash-preview-native-audio 公开预览版;终止日期:2025 年 10 月 17 日

使用主动音频

gemini-live-2.5-flash-preview-native-audio-09-2025 中,主动音频功能默认处于停用状态。

如需使用主动音频,请在设置消息中配置 proactivity 字段,并将 proactive_audio 设置为 true

Python

config = LiveConnectConfig(
    response_modalities=["AUDIO"],
    proactivity=ProactivityConfig(proactive_audio=True),
)
  

使用主动音频进行对话

您可以使用主动音频功能发起与 Gemini 的对话,并定义 Gemini 何时可以回答问题,从而将 Gemini 的回答限制在相关主题内。

例如,以下是与 Gemini 就烹饪展开的对话示例:

Prompt: "You are an AI assistant in Italian cooking; only chime in when the topic is about Italian cooking."

Speaker A: "I really love cooking!" (No response from Gemini.)

Speaker B: "Oh yes, me too! My favorite is French cuisine." (No response from
Gemini.)

Speaker A: "I really like Italian food; do you know how to make a pizza?"

(Italian cooking topic will trigger response from Gemini.)
Live API: "I'd be happy to help! Here's a recipe for a pizza."

特性

使用主动音频时,Gemini 会在用户说完话后以极低的延迟做出响应。这样可以减少中断,并有助于 Gemini 在发生中断时不会丢失上下文。

主动音频功能还可以帮助 Gemini 避免受到背景噪音或外部对话的干扰,并防止 Gemini 在对话期间因外部对话而做出回应。

如果用户需要在 Gemini 回答期间打断,Proactive Audio 可让 Gemini 更轻松地进行适当的后通道处理(即处理适当的打断),而不是像用户使用 ummuhh 等填充词时那样。

Gemini 可以共同聆听不是说话者声音的音频文件,然后在对话中回答与该音频文件相关的问题。

结算

在 Gemini 聆听对话时,系统会收取输入音频令牌费用。

对于输出音频令牌,只有在 Gemini 回答时才会收费。如果 Gemini 不回应或保持静默,则不会收取输出音频令牌的费用。

如需了解详情,请参阅 Vertex AI 价格