使用主动音频

借助主动音频功能，你可以控制 Gemini 的回答时间和回答情境，从而减少中断，让 Gemini 进行更真实的对话。例如，您可以让 Gemini 仅在收到提示或讨论某些特定主题时做出回答。如需了解主动音频的实际运用，请观看功能演示。

本指南介绍了主动音频的运作方式、如何将其集成到应用中，以及哪些token会产生费用。本指南未涵盖 Proactive Audio 的价目表。如需了解完整的价格详情，请参阅 Vertex AI 价格。本指南假定您正在 Vertex AI Studio 中工作，或者正在使用 Google Gen AI SDK for Python。

支持的模型

您可以在以下模型上使用主动音频：

模型版本	可用性级别
`gemini-live-2.5-flash-preview-native-audio-09-2025`	公开预览版
`gemini-live-2.5-flash-preview-native-audio`	公开预览版；终止日期：2025 年 10 月 17 日

使用主动音频

在 gemini-live-2.5-flash-preview-native-audio-09-2025 中，主动音频功能默认处于停用状态。

如需使用主动音频，请在设置消息中配置 proactivity 字段，并将 proactive_audio 设置为 true：

Python

config = LiveConnectConfig(
    response_modalities=["AUDIO"],
    proactivity=ProactivityConfig(proactive_audio=True),
)

使用主动音频进行对话

您可以使用主动音频功能发起与 Gemini 的对话，并定义 Gemini 何时可以回答问题，从而将 Gemini 的回答限制在相关主题内。

例如，以下是与 Gemini 就烹饪展开的对话示例：

Prompt: "You are an AI assistant in Italian cooking; only chime in when the topic is about Italian cooking."

Speaker A: "I really love cooking!" (No response from Gemini.)

Speaker B: "Oh yes, me too! My favorite is French cuisine." (No response from
Gemini.)

Speaker A: "I really like Italian food; do you know how to make a pizza?"

(Italian cooking topic will trigger response from Gemini.)
Live API: "I'd be happy to help! Here's a recipe for a pizza."

特性

使用主动音频时，Gemini 会在用户说完话后以极低的延迟做出响应。这样可以减少中断，并有助于 Gemini 在发生中断时不会丢失上下文。

主动音频功能还可以帮助 Gemini 避免受到背景噪音或外部对话的干扰，并防止 Gemini 在对话期间因外部对话而做出回应。

如果用户需要在 Gemini 回答期间打断，Proactive Audio 可让 Gemini 更轻松地进行适当的后通道处理（即处理适当的打断），而不是像用户使用 umm 或 uhh 等填充词时那样。

Gemini 可以共同聆听不是说话者声音的音频文件，然后在对话中回答与该音频文件相关的问题。

结算

在 Gemini 聆听对话时，系统会收取输入音频token费用。

对于输出音频token，只有在 Gemini 回答时才会收费。如果 Gemini 不回应或保持静默，则不会收取输出音频token的费用。

如需了解详情，请参阅 Vertex AI 价格。