Usar Audio proactivo

Audio proactivo ayuda a Gemini a mantener conversaciones más auténticas, ya que te permite controlar cuándo responde y en qué contextos, con menos interrupciones. Por ejemplo, puedes pedirle a Gemini que solo responda cuando se le indique o cuando se hable de temas concretos. Para ver cómo funciona Audio Proactivo, consulta una demostración de las funciones.

En esta guía se explica cómo funciona Audio proactivo, cómo integrarlo en tu aplicación y qué tokens se te facturan. En esta guía no se incluye la lista de precios de Audio proactivo. Para ver todos los detalles de los precios, consulta los precios de Vertex AI. En esta guía se da por hecho que trabajas en Vertex AI Studio o que usas el SDK de IA generativa de Google para Python.

Modelos admitidos

Puedes usar Audio proactivo con los siguientes modelos:

Versión del modelo Nivel de disponibilidad
gemini-live-2.5-flash-preview-native-audio-09-2025 Vista previa pública
gemini-live-2.5-flash-preview-native-audio Vista previa pública; fecha de retirada: 17 de octubre del 2025

Usar Audio proactivo

La función Audio proactivo no está habilitada de forma predeterminada en gemini-live-2.5-flash-preview-native-audio-09-2025.

Para usar Audio proactivo, configura el campo proactivity en el mensaje de configuración y asigna el valor true a proactive_audio:

Python

config = LiveConnectConfig(
    response_modalities=["AUDIO"],
    proactivity=ProactivityConfig(proactive_audio=True),
)
  

Mantener una conversación con Audio proactivo

Puedes iniciar una conversación con Gemini usando Audio proactivo y definir cuándo puede responder Gemini, limitando sus respuestas a temas relevantes.

Por ejemplo, a continuación se muestra un ejemplo de cómo podría ser una conversación con Gemini sobre cocina:

Prompt: "You are an AI assistant in Italian cooking; only chime in when the topic is about Italian cooking."

Speaker A: "I really love cooking!" (No response from Gemini.)

Speaker B: "Oh yes, me too! My favorite is French cuisine." (No response from
Gemini.)

Speaker A: "I really like Italian food; do you know how to make a pizza?"

(Italian cooking topic will trigger response from Gemini.)
Live API: "I'd be happy to help! Here's a recipe for a pizza."

Funciones

Cuando se usa Audio proactivo, Gemini responde con una latencia mínima después de que el usuario termine de hablar. De esta forma, se reducen las interrupciones y se ayuda a Gemini a no perder el contexto si se produce una interrupción.

Audio proactivo también ayuda a Gemini a evitar interrupciones debidas al ruido de fondo o a conversaciones externas, y evita que Gemini responda si se introduce una conversación externa durante una conversación.

Si el usuario necesita interrumpir una respuesta de Gemini, la función Audio proactivo facilita que Gemini responda de forma adecuada (es decir, que se gestionen las interrupciones apropiadas) en lugar de que el usuario utilice muletillas como eh o um.

Gemini puede escuchar junto a ti un archivo de audio que no sea la voz del interlocutor y, posteriormente, responder a preguntas sobre ese archivo de audio en la conversación.

Facturación

Mientras Gemini esté escuchando una conversación, se cobrarán los tokens de audio de entrada.

En el caso de los tokens de audio de salida, solo se te cobrará cuando Gemini responda. Si Gemini no responde o se queda en silencio, no se te cobrarán los tokens de audio de salida.

Para obtener más información, consulta los precios de Vertex AI.