Usar áudio proativo

O áudio proativo ajuda o Gemini a ter conversas mais autênticas, permitindo-lhe controlar quando responde e em que contextos, com menos interrupções. Por exemplo, pode pedir ao Gemini para responder apenas quando lhe for pedido ou quando forem abordados determinados tópicos específicos. Para ver o áudio proativo em ação, consulte uma demonstração das funcionalidades.

Este guia aborda o funcionamento do áudio proativo, como o integrar na sua aplicação e os tokens pelos quais lhe é faturado. Este guia não aborda a lista de preços do áudio proativo. Para ver os detalhes completos dos preços, consulte os preços do Vertex AI. Este guia pressupõe que está a trabalhar no Vertex AI Studio ou a usar o SDK de IA gen da Google para Python.

Modelos suportados

Pode usar o áudio proativo com os seguintes modelos:

Versão do modelo Nível de disponibilidade
gemini-live-2.5-flash-preview-native-audio-09-2025 Pré-visualização pública
gemini-live-2.5-flash-preview-native-audio Pré-visualização pública; data de descontinuação: 17 de outubro de 2025

Use o áudio proativo

O áudio proativo não está ativado por predefinição no gemini-live-2.5-flash-preview-native-audio-09-2025.

Para usar o áudio proativo, configure o campo proactivity na mensagem de configuração e defina proactive_audio como true:

Python

config = LiveConnectConfig(
    response_modalities=["AUDIO"],
    proactivity=ProactivityConfig(proactive_audio=True),
)
  

Tenha uma conversa através do áudio proativo

Pode iniciar uma conversa com o Gemini através do áudio proativo e definir quando o Gemini pode responder, limitando as respetivas respostas a tópicos relevantes.

Por exemplo, segue-se uma amostra do aspeto de uma conversa com o Gemini sobre culinária:

Prompt: "You are an AI assistant in Italian cooking; only chime in when the topic is about Italian cooking."

Speaker A: "I really love cooking!" (No response from Gemini.)

Speaker B: "Oh yes, me too! My favorite is French cuisine." (No response from
Gemini.)

Speaker A: "I really like Italian food; do you know how to make a pizza?"

(Italian cooking topic will trigger response from Gemini.)
Live API: "I'd be happy to help! Here's a recipe for a pizza."

Funcionalidades

Quando usa o áudio proativo, o Gemini responde com uma latência mínima depois de o utilizador terminar de falar. Isto reduz as interrupções e ajuda o Gemini a não perder o contexto se ocorrer uma interrupção.

O áudio proativo também ajuda o Gemini a evitar interrupções devido a ruído de fundo ou conversas externas e impede que o Gemini responda se forem introduzidas conversas externas durante uma conversa.

Se o utilizador precisar de interromper durante uma resposta do Gemini, o áudio proativo facilita a comunicação em segundo plano adequada do Gemini (o que significa que as interrupções adequadas são processadas), em vez de quando um utilizador usa palavras de preenchimento, como hum ou ah.

O Gemini pode ouvir em simultâneo um ficheiro de áudio que não seja a voz do orador e, posteriormente, responder a perguntas sobre esse ficheiro de áudio na conversa.

Faturação

Enquanto o Gemini estiver a ouvir uma conversa, são cobrados tokens de áudio de entrada.

No caso dos tokens de áudio de saída, só lhe é cobrado um valor quando o Gemini responde. Se o Gemini não responder ou permanecer em silêncio, não são cobrados tokens de áudio de saída.

Para mais informações, consulte os preços do Vertex AI.