O áudio proativo ajuda o Gemini a ter conversas mais autênticas, permitindo que você controle quando ele responde e em quais contextos, com menos interrupções. Por exemplo, você pode pedir para o Gemini responder apenas quando solicitado ou quando determinados assuntos específicos forem abordados. Para conferir o áudio proativo em ação, assista a uma demonstração dos recursos.
Este guia explica como o áudio proativo funciona, como integrá-lo ao seu aplicativo e quais tokens são cobrados. Este guia não aborda a lista de preços do Proactive Audio. Para detalhes completos sobre preços, consulte Preços da Vertex AI. Este guia pressupõe que você esteja trabalhando no Vertex AI Studio ou usando o SDK da IA generativa do Google para Python.
Modelos compatíveis
É possível usar o Áudio proativo com os seguintes modelos:
Versão do modelo | Nível de disponibilidade |
---|---|
gemini-live-2.5-flash-preview-native-audio-09-2025 |
Pré-lançamento público |
gemini-live-2.5-flash-preview-native-audio |
Pré-lançamento público; data de descontinuação: 17 de outubro de 2025 |
Usar o áudio proativo
O áudio proativo não está ativado por padrão no
gemini-live-2.5-flash-preview-native-audio-09-2025
.
Para usar o áudio proativo, configure o campo proactivity
na
mensagem de configuração e defina proactive_audio
como true
:
Python
config = LiveConnectConfig( response_modalities=["AUDIO"], proactivity=ProactivityConfig(proactive_audio=True), )
Conversar usando o áudio proativo
Você pode iniciar uma conversa com o Gemini usando o áudio proativo e definir quando ele pode responder, limitando as respostas a temas relevantes.
Por exemplo, confira abaixo uma amostra de como seria uma conversa com o Gemini sobre culinária:
Prompt: "You are an AI assistant in Italian cooking; only chime in when the topic is about Italian cooking."
Speaker A: "I really love cooking!" (No response from Gemini.)
Speaker B: "Oh yes, me too! My favorite is French cuisine." (No response from
Gemini.)
Speaker A: "I really like Italian food; do you know how to make a pizza?"
(Italian cooking topic will trigger response from Gemini.)
Live API: "I'd be happy to help! Here's a recipe for a pizza."
Recursos
Ao usar o áudio proativo, o Gemini responde com latência mínima depois que o usuário termina de falar. Isso reduz as interrupções e ajuda o Gemini a não perder o contexto se uma interrupção acontecer.
O áudio proativo também ajuda o Gemini a evitar interrupções causadas por ruídos de fundo ou conversas externas e impede que ele responda se uma conversa externa for iniciada durante uma conversa.
Se o usuário precisar interromper uma resposta do Gemini, o áudio proativo vai facilitar a interrupção adequada do Gemini (ou seja, as interrupções apropriadas são processadas), em vez de usar palavras de preenchimento, como hum ou ah.
O Gemini pode ouvir um arquivo de áudio que não é a voz do falante e responder a perguntas sobre ele mais tarde na conversa.
Faturamento
Enquanto o Gemini ouve uma conversa, os tokens de áudio de entrada são cobrados.
Para tokens de áudio de saída, a cobrança só é feita quando o Gemini responde. Se o Gemini não responder ou ficar em silêncio, não haverá cobrança pelos tokens de áudio de saída.
Para mais informações, consulte Preços da Vertex AI.