El Audio proactivo ayuda a Gemini a tener conversaciones más auténticas, ya que te permite controlar cuándo responde y en qué contextos con menos interrupciones. Por ejemplo, puedes pedirle a Gemini que solo responda cuando se le indique o cuando se hablen de ciertos temas específicos. Para ver el Audio Proactivo en acción, consulta una demostración de las funciones.
En esta guía, se explica cómo funciona el Audio Proactivo, cómo integrarlo en tu aplicación y por qué tokens se te factura. En esta guía, no se incluye la lista de precios de Audio proactivo. Para obtener todos los detalles sobre los precios, consulta Precios de Vertex AI. En esta guía, se supone que trabajas en Vertex AI Studio o que usas el SDK de Google Gen AI para Python.
Modelos compatibles
Puedes usar Audio proactivo con los siguientes modelos:
Versión del modelo | Nivel de disponibilidad |
---|---|
gemini-live-2.5-flash-preview-native-audio-09-2025 |
Versión preliminar pública |
gemini-live-2.5-flash-preview-native-audio |
Versión preliminar pública; fecha de descontinuación: 17 de octubre de 2025 |
Cómo usar el audio proactivo
El Audio proactivo no está habilitado de forma predeterminada en gemini-live-2.5-flash-preview-native-audio-09-2025
.
Para usar el audio proactivo, configura el campo proactivity
en el mensaje de configuración y establece proactive_audio
en true
:
Python
config = LiveConnectConfig( response_modalities=["AUDIO"], proactivity=ProactivityConfig(proactive_audio=True), )
Cómo tener una conversación con Audio proactivo
Puedes iniciar una conversación con Gemini usando Audio proactivo y definir cuándo puede responder, lo que limita sus respuestas a temas pertinentes.
Por ejemplo, a continuación, se muestra una muestra de cómo podría ser una conversación con Gemini sobre cocina:
Prompt: "You are an AI assistant in Italian cooking; only chime in when the topic is about Italian cooking."
Speaker A: "I really love cooking!" (No response from Gemini.)
Speaker B: "Oh yes, me too! My favorite is French cuisine." (No response from
Gemini.)
Speaker A: "I really like Italian food; do you know how to make a pizza?"
(Italian cooking topic will trigger response from Gemini.)
Live API: "I'd be happy to help! Here's a recipe for a pizza."
Funciones
Cuando se usa el audio proactivo, Gemini responderá con una latencia mínima después de que el usuario termine de hablar. Esto reduce las interrupciones y ayuda a Gemini a no perder el contexto si se produce una interrupción.
El Audio proactivo también ayuda a Gemini a evitar interrupciones por ruido de fondo o charlas externas, y evita que Gemini responda si se introduce una charla externa durante una conversación.
Si el usuario necesita interrumpir una respuesta de Gemini, el audio proactivo facilita que Gemini realice una retroalimentación adecuada (es decir, se controlan las interrupciones apropiadas), en lugar de que el usuario use palabras de relleno como eh o um.
Gemini puede escuchar junto contigo un archivo de audio que no sea la voz del orador y, luego, responder preguntas sobre ese archivo de audio más adelante en la conversación.
Facturación
Mientras Gemini escucha una conversación, se cobrarán los tokens de audio de entrada.
En el caso de los tokens de audio de salida, solo se te cobra cuando Gemini responde. Si Gemini no responde o permanece en silencio, no se te cobrarán los tokens de audio de salida.
Para obtener más información, consulta los precios de Vertex AI.