L'audio proattivo aiuta Gemini ad avere conversazioni più autentiche consentendoti di controllare quando risponde e in quali contesti con meno interruzioni. Ad esempio, puoi chiedere a Gemini di rispondere solo quando richiesto o quando vengono discussi determinati argomenti specifici. Per vedere l'audio proattivo in azione, guarda una dimostrazione delle funzionalità.
Questa guida spiega come funziona l'audio proattivo, come integrarlo nella tua applicazione e per quali token ti viene addebitato un costo. Questa guida non copre il listino prezzi per Proactive Audio. Per i dettagli completi sui prezzi, consulta la pagina Prezzi di Vertex AI. Questa guida presuppone che tu stia lavorando in Vertex AI Studio o che tu stia utilizzando l'SDK Google Gen AI per Python.
Modelli supportati
Puoi utilizzare l'audio proattivo con i seguenti modelli:
Versione del modello | Livello di disponibilità |
---|---|
gemini-live-2.5-flash-preview-native-audio-09-2025 |
Anteprima pubblica |
gemini-live-2.5-flash-preview-native-audio |
Anteprima pubblica; data di ritiro: 17 ottobre 2025 |
Utilizzare l'audio proattivo
L'audio proattivo non è abilitato per impostazione predefinita in
gemini-live-2.5-flash-preview-native-audio-09-2025
.
Per utilizzare l'audio proattivo, configura il campo proactivity
nel
messaggio di configurazione e imposta proactive_audio
su true
:
Python
config = LiveConnectConfig( response_modalities=["AUDIO"], proactivity=ProactivityConfig(proactive_audio=True), )
Avere una conversazione utilizzando l'audio proattivo
Puoi avviare una conversazione con Gemini utilizzando Proactive Audio e definire quando Gemini può rispondere, limitando le sue risposte a argomenti pertinenti.
Ad esempio, di seguito è riportato un esempio di conversazione con Gemini sulla cucina:
Prompt: "You are an AI assistant in Italian cooking; only chime in when the topic is about Italian cooking."
Speaker A: "I really love cooking!" (No response from Gemini.)
Speaker B: "Oh yes, me too! My favorite is French cuisine." (No response from
Gemini.)
Speaker A: "I really like Italian food; do you know how to make a pizza?"
(Italian cooking topic will trigger response from Gemini.)
Live API: "I'd be happy to help! Here's a recipe for a pizza."
Funzionalità
Quando utilizzi l'audio proattivo, Gemini risponderà con una latenza minima dopo che l'utente ha finito di parlare. In questo modo si riducono le interruzioni e Gemini non perde il contesto in caso di interruzione.
Inoltre, Proactive Audio aiuta Gemini a evitare interruzioni causate da rumori di sottofondo o chiacchiere esterne e impedisce a Gemini di rispondere se vengono introdotte chiacchiere esterne durante una conversazione.
Se l'utente deve interrompere la risposta di Gemini, Proactive Audio consente a Gemini di gestire in modo appropriato il canale secondario (ovvero le interruzioni appropriate), anziché se un utente utilizza parole di riempimento come ehm o uhm.
Gemini può ascoltare insieme a te un file audio che non è la voce dell'utente e rispondere successivamente alle domande su quel file audio nel corso della conversazione.
Fatturazione
Mentre Gemini ascolta una conversazione, verranno addebitati i token audio di input.
Per i token audio di output, l'addebito viene effettuato solo quando Gemini risponde. Se Gemini non risponde o rimane in silenzio, non verranno addebitati token audio di output.
Per maggiori informazioni, consulta la pagina Prezzi di Vertex AI.