Esta página foi traduzida pela API Cloud Translation.

Usar o áudio proativo

O áudio proativo ajuda o Gemini a ter conversas mais autênticas, permitindo que você controle quando ele responde e em quais contextos, com menos interrupções. Por exemplo, você pode pedir para o Gemini responder apenas quando solicitado ou quando determinados assuntos específicos forem abordados. Para conferir o áudio proativo em ação, assista a uma demonstração dos recursos.

Este guia explica como o áudio proativo funciona, como integrá-lo ao seu aplicativo e quais tokens são cobrados. Este guia não aborda a lista de preços do Proactive Audio. Para detalhes completos sobre preços, consulte Preços da Vertex AI. Este guia pressupõe que você esteja trabalhando no Vertex AI Studio ou usando o SDK da IA generativa do Google para Python.

Modelos compatíveis

É possível usar o Áudio proativo com os seguintes modelos:

Versão do modelo	Nível de disponibilidade
`gemini-live-2.5-flash-preview-native-audio-09-2025`	Pré-lançamento público
`gemini-live-2.5-flash-preview-native-audio`	Pré-lançamento público; data de descontinuação: 17 de outubro de 2025

Usar o áudio proativo

O áudio proativo não está ativado por padrão no gemini-live-2.5-flash-preview-native-audio-09-2025.

Para usar o áudio proativo, configure o campo proactivity na mensagem de configuração e defina proactive_audio como true:

Python

config = LiveConnectConfig(
    response_modalities=["AUDIO"],
    proactivity=ProactivityConfig(proactive_audio=True),
)

Conversar usando o áudio proativo

Você pode iniciar uma conversa com o Gemini usando o áudio proativo e definir quando ele pode responder, limitando as respostas a temas relevantes.

Por exemplo, confira abaixo uma amostra de como seria uma conversa com o Gemini sobre culinária:

Prompt: "You are an AI assistant in Italian cooking; only chime in when the topic is about Italian cooking."

Speaker A: "I really love cooking!" (No response from Gemini.)

Speaker B: "Oh yes, me too! My favorite is French cuisine." (No response from
Gemini.)

Speaker A: "I really like Italian food; do you know how to make a pizza?"

(Italian cooking topic will trigger response from Gemini.)
Live API: "I'd be happy to help! Here's a recipe for a pizza."

Recursos

Ao usar o áudio proativo, o Gemini responde com latência mínima depois que o usuário termina de falar. Isso reduz as interrupções e ajuda o Gemini a não perder o contexto se uma interrupção acontecer.

O áudio proativo também ajuda o Gemini a evitar interrupções causadas por ruídos de fundo ou conversas externas e impede que ele responda se uma conversa externa for iniciada durante uma conversa.

Se o usuário precisar interromper uma resposta do Gemini, o áudio proativo vai facilitar a interrupção adequada do Gemini (ou seja, as interrupções apropriadas são processadas), em vez de usar palavras de preenchimento, como hum ou ah.

O Gemini pode ouvir um arquivo de áudio que não é a voz do falante e responder a perguntas sobre ele mais tarde na conversa.

Faturamento

Enquanto o Gemini ouve uma conversa, os tokens de áudio de entrada são cobrados.

Para tokens de áudio de saída, a cobrança só é feita quando o Gemini responde. Se o Gemini não responder ou ficar em silêncio, não haverá cobrança pelos tokens de áudio de saída.

Para mais informações, consulte Preços da Vertex AI.