O áudio proativo ajuda o Gemini a ter conversas mais autênticas, permitindo-lhe controlar quando responde e em que contextos, com menos interrupções. Por exemplo, pode pedir ao Gemini para responder apenas quando lhe for pedido ou quando forem abordados determinados tópicos específicos. Para ver o áudio proativo em ação, consulte uma demonstração das funcionalidades.
Este guia aborda o funcionamento do áudio proativo, como o integrar na sua aplicação e os tokens pelos quais lhe é faturado. Este guia não aborda a lista de preços do áudio proativo. Para ver os detalhes completos dos preços, consulte os preços do Vertex AI. Este guia pressupõe que está a trabalhar no Vertex AI Studio ou a usar o SDK de IA gen da Google para Python.
Modelos suportados
Pode usar o áudio proativo com os seguintes modelos:
Versão do modelo | Nível de disponibilidade |
---|---|
gemini-live-2.5-flash-preview-native-audio-09-2025 |
Pré-visualização pública |
gemini-live-2.5-flash-preview-native-audio |
Pré-visualização pública; data de descontinuação: 17 de outubro de 2025 |
Use o áudio proativo
O áudio proativo não está ativado por predefinição no
gemini-live-2.5-flash-preview-native-audio-09-2025
.
Para usar o áudio proativo, configure o campo proactivity
na mensagem de configuração e defina proactive_audio
como true
:
Python
config = LiveConnectConfig( response_modalities=["AUDIO"], proactivity=ProactivityConfig(proactive_audio=True), )
Tenha uma conversa através do áudio proativo
Pode iniciar uma conversa com o Gemini através do áudio proativo e definir quando o Gemini pode responder, limitando as respetivas respostas a tópicos relevantes.
Por exemplo, segue-se uma amostra do aspeto de uma conversa com o Gemini sobre culinária:
Prompt: "You are an AI assistant in Italian cooking; only chime in when the topic is about Italian cooking."
Speaker A: "I really love cooking!" (No response from Gemini.)
Speaker B: "Oh yes, me too! My favorite is French cuisine." (No response from
Gemini.)
Speaker A: "I really like Italian food; do you know how to make a pizza?"
(Italian cooking topic will trigger response from Gemini.)
Live API: "I'd be happy to help! Here's a recipe for a pizza."
Funcionalidades
Quando usa o áudio proativo, o Gemini responde com uma latência mínima depois de o utilizador terminar de falar. Isto reduz as interrupções e ajuda o Gemini a não perder o contexto se ocorrer uma interrupção.
O áudio proativo também ajuda o Gemini a evitar interrupções devido a ruído de fundo ou conversas externas e impede que o Gemini responda se forem introduzidas conversas externas durante uma conversa.
Se o utilizador precisar de interromper durante uma resposta do Gemini, o áudio proativo facilita a comunicação em segundo plano adequada do Gemini (o que significa que as interrupções adequadas são processadas), em vez de quando um utilizador usa palavras de preenchimento, como hum ou ah.
O Gemini pode ouvir em simultâneo um ficheiro de áudio que não seja a voz do orador e, posteriormente, responder a perguntas sobre esse ficheiro de áudio na conversa.
Faturação
Enquanto o Gemini estiver a ouvir uma conversa, são cobrados tokens de áudio de entrada.
No caso dos tokens de áudio de saída, só lhe é cobrado um valor quando o Gemini responde. Se o Gemini não responder ou permanecer em silêncio, não são cobrados tokens de áudio de saída.
Para mais informações, consulte os preços do Vertex AI.