Utilizzare l'audio proattivo

L'audio proattivo aiuta Gemini ad avere conversazioni più autentiche consentendoti di controllare quando risponde e in quali contesti con meno interruzioni. Ad esempio, puoi chiedere a Gemini di rispondere solo quando richiesto o quando vengono discussi determinati argomenti specifici. Per vedere l'audio proattivo in azione, guarda una dimostrazione delle funzionalità.

Questa guida spiega come funziona l'audio proattivo, come integrarlo nella tua applicazione e per quali token ti viene addebitato un costo. Questa guida non copre il listino prezzi per Proactive Audio. Per i dettagli completi sui prezzi, consulta la pagina Prezzi di Vertex AI. Questa guida presuppone che tu stia lavorando in Vertex AI Studio o che tu stia utilizzando l'SDK Google Gen AI per Python.

Modelli supportati

Puoi utilizzare l'audio proattivo con i seguenti modelli:

Versione del modello Livello di disponibilità
gemini-live-2.5-flash-preview-native-audio-09-2025 Anteprima pubblica
gemini-live-2.5-flash-preview-native-audio Anteprima pubblica; data di ritiro: 17 ottobre 2025

Utilizzare l'audio proattivo

L'audio proattivo non è abilitato per impostazione predefinita in gemini-live-2.5-flash-preview-native-audio-09-2025.

Per utilizzare l'audio proattivo, configura il campo proactivity nel messaggio di configurazione e imposta proactive_audio su true:

Python

config = LiveConnectConfig(
    response_modalities=["AUDIO"],
    proactivity=ProactivityConfig(proactive_audio=True),
)
  

Avere una conversazione utilizzando l'audio proattivo

Puoi avviare una conversazione con Gemini utilizzando Proactive Audio e definire quando Gemini può rispondere, limitando le sue risposte a argomenti pertinenti.

Ad esempio, di seguito è riportato un esempio di conversazione con Gemini sulla cucina:

Prompt: "You are an AI assistant in Italian cooking; only chime in when the topic is about Italian cooking."

Speaker A: "I really love cooking!" (No response from Gemini.)

Speaker B: "Oh yes, me too! My favorite is French cuisine." (No response from
Gemini.)

Speaker A: "I really like Italian food; do you know how to make a pizza?"

(Italian cooking topic will trigger response from Gemini.)
Live API: "I'd be happy to help! Here's a recipe for a pizza."

Funzionalità

Quando utilizzi l'audio proattivo, Gemini risponderà con una latenza minima dopo che l'utente ha finito di parlare. In questo modo si riducono le interruzioni e Gemini non perde il contesto in caso di interruzione.

Inoltre, Proactive Audio aiuta Gemini a evitare interruzioni causate da rumori di sottofondo o chiacchiere esterne e impedisce a Gemini di rispondere se vengono introdotte chiacchiere esterne durante una conversazione.

Se l'utente deve interrompere la risposta di Gemini, Proactive Audio consente a Gemini di gestire in modo appropriato il canale secondario (ovvero le interruzioni appropriate), anziché se un utente utilizza parole di riempimento come ehm o uhm.

Gemini può ascoltare insieme a te un file audio che non è la voce dell'utente e rispondere successivamente alle domande su quel file audio nel corso della conversazione.

Fatturazione

Mentre Gemini ascolta una conversazione, verranno addebitati i token audio di input.

Per i token audio di output, l'addebito viene effettuato solo quando Gemini risponde. Se Gemini non risponde o rimane in silenzio, non verranno addebitati token audio di output.

Per maggiori informazioni, consulta la pagina Prezzi di Vertex AI.