L'audio proactif aide Gemini à avoir des conversations plus authentiques en vous permettant de contrôler quand il répond et dans quels contextes, avec moins d'interruptions. Par exemple, vous pouvez demander à Gemini de ne répondre que lorsqu'il est sollicité ou lorsque certains sujets spécifiques sont abordés. Pour voir l'audio proactif en action, consultez la démonstration des fonctionnalités.
Ce guide explique le fonctionnement de l'audio proactif, comment l'intégrer à votre application et les jetons qui vous sont facturés. Ce guide ne couvre pas la liste des prix pour Proactive Audio. Pour en savoir plus sur les tarifs, consultez la page Tarifs de Vertex AI. Ce guide suppose que vous travaillez dans Vertex AI Studio ou que vous utilisez le SDK Google Gen AI pour Python.
Modèles compatibles
Vous pouvez utiliser l'audio proactif avec les modèles suivants :
Version de modèle | Niveau de disponibilité |
---|---|
gemini-live-2.5-flash-preview-native-audio-09-2025 |
Version Preview publique |
gemini-live-2.5-flash-preview-native-audio |
Version Preview publique ; date d'arrêt : 17 octobre 2025 |
Utiliser l'audio proactif
L'audio proactif n'est pas activé par défaut dans gemini-live-2.5-flash-preview-native-audio-09-2025
.
Pour utiliser l'audio proactif, configurez le champ proactivity
dans le message de configuration et définissez proactive_audio
sur true
:
Python
config = LiveConnectConfig( response_modalities=["AUDIO"], proactivity=ProactivityConfig(proactive_audio=True), )
Avoir une conversation à l'aide de l'audio proactif
Vous pouvez démarrer une conversation avec Gemini à l'aide de l'audio proactif et définir quand Gemini peut répondre, en limitant ses réponses aux sujets pertinents.
Par exemple, voici un exemple de conversation avec Gemini sur la cuisine :
Prompt: "You are an AI assistant in Italian cooking; only chime in when the topic is about Italian cooking."
Speaker A: "I really love cooking!" (No response from Gemini.)
Speaker B: "Oh yes, me too! My favorite is French cuisine." (No response from
Gemini.)
Speaker A: "I really like Italian food; do you know how to make a pizza?"
(Italian cooking topic will trigger response from Gemini.)
Live API: "I'd be happy to help! Here's a recipe for a pizza."
Fonctionnalités
Lorsque vous utilisez l'audio proactif, Gemini répond avec une latence minimale une fois que l'utilisateur a fini de parler. Cela réduit les interruptions et aide Gemini à ne pas perdre le contexte en cas d'interruption.
L'audio proactif aide également Gemini à éviter les interruptions dues au bruit de fond ou aux conversations externes, et empêche Gemini de répondre si des conversations externes sont introduites pendant une conversation.
Si l'utilisateur doit interrompre Gemini pendant une réponse, l'audio proactif permet à Gemini de mieux gérer les interruptions appropriées, plutôt que si l'utilisateur utilise des mots de remplissage tels que euh ou hum.
Gemini peut écouter un fichier audio qui n'est pas la voix de l'interlocuteur et répondre ensuite à des questions sur ce fichier audio au cours de la conversation.
Facturation
Des jetons audio d'entrée seront facturés lorsque Gemini écoutera une conversation.
Pour les jetons audio de sortie, vous n'êtes facturé que lorsque Gemini répond. Si Gemini ne répond pas ou reste silencieux, vos jetons audio de sortie ne vous seront pas facturés.
Pour en savoir plus, consultez les tarifs de Vertex AI.