Mit Proactive Audio kann Gemini authentischere Unterhaltungen führen, da Sie steuern können, wann und in welchen Kontexten der Assistent antwortet. Außerdem gibt es weniger Unterbrechungen. Sie können Gemini beispielsweise auffordern, nur zu antworten, wenn Sie dazu aufgefordert werden oder wenn bestimmte Themen besprochen werden. Hier finden Sie eine Demonstration der Funktionen.
In diesem Leitfaden wird beschrieben, wie Proactive Audio funktioniert, wie Sie es in Ihre Anwendung einbinden und für welche Tokens Ihnen Kosten in Rechnung gestellt werden. Die Preisliste für Proactive Audio wird in diesem Leitfaden nicht behandelt. Vollständige Preisinformationen In dieser Anleitung wird davon ausgegangen, dass Sie entweder in Vertex AI Studio arbeiten oder das Google Gen AI SDK für Python verwenden.
Unterstützte Modelle
Die Funktion „Proaktive Audioausgabe“ ist auf den folgenden Modellen verfügbar:
Modellversion | Verfügbarkeitsstufe |
---|---|
gemini-live-2.5-flash-preview-native-audio-09-2025 |
Öffentliche Vorschau |
gemini-live-2.5-flash-preview-native-audio |
Öffentliche Vorschau; Einstellung: 17. Oktober 2025 |
Proaktive Audioeingabe verwenden
Proactive Audio ist in gemini-live-2.5-flash-preview-native-audio-09-2025
nicht standardmäßig aktiviert.
Wenn Sie Proactive Audio verwenden möchten, konfigurieren Sie das Feld proactivity
in der Einrichtungsnachricht und legen Sie proactive_audio
auf true
fest:
Python
config = LiveConnectConfig( response_modalities=["AUDIO"], proactivity=ProactivityConfig(proactive_audio=True), )
Unterhaltung mit proaktiver Audioeingabe führen
Sie können eine Unterhaltung mit Gemini über die proaktive Audiofunktion starten und festlegen, wann Gemini antworten darf. So können Sie die Antworten auf relevante Themen beschränken.
Das folgende Beispiel zeigt, wie eine Unterhaltung mit Gemini über das Kochen aussehen könnte:
Prompt: "You are an AI assistant in Italian cooking; only chime in when the topic is about Italian cooking."
Speaker A: "I really love cooking!" (No response from Gemini.)
Speaker B: "Oh yes, me too! My favorite is French cuisine." (No response from
Gemini.)
Speaker A: "I really like Italian food; do you know how to make a pizza?"
(Italian cooking topic will trigger response from Gemini.)
Live API: "I'd be happy to help! Here's a recipe for a pizza."
Features
Wenn Sie Proactive Audio verwenden, antwortet Gemini mit minimaler Latenz, nachdem der Nutzer gesprochen hat. So werden Unterbrechungen reduziert und Gemini verliert nicht den Kontext, wenn es doch zu einer Unterbrechung kommt.
Proactive Audio hilft Gemini auch, Unterbrechungen durch Hintergrundgeräusche oder Gespräche zu vermeiden, und verhindert, dass Gemini antwortet, wenn während einer Unterhaltung Gespräche geführt werden.
Wenn der Nutzer während einer Antwort von Gemini unterbrechen muss, erleichtert Proactive Audio Gemini, angemessen zu reagieren (d. h. angemessene Unterbrechungen werden berücksichtigt), anstatt wenn ein Nutzer Füllwörter wie ähm oder äh verwendet.
Gemini kann sich eine Audiodatei anhören, die nicht die Stimme des Sprechers enthält, und später im Gespräch Fragen zu dieser Audiodatei beantworten.
Abrechnung
Während Gemini einer Unterhaltung zuhört, werden Eingabe-Audio-Tokens berechnet.
Für Audio-Ausgabetokens werden Ihnen nur Kosten berechnet, wenn Gemini antwortet. Wenn Gemini nicht reagiert oder stumm bleibt, werden Ihnen keine Audio-Ausgabetokens berechnet.
Weitere Informationen finden Sie unter Vertex AI-Preise.