A partir de 29 de abril de 2025, os modelos Gemini 1.5 Pro e Gemini 1.5 Flash não estarão disponíveis em projetos que não os usaram antes, incluindo novos projetos. Para mais detalhes, consulte Versões e ciclo de vida do modelo.

Esta página foi traduzida pela API Cloud Translation.

API Multimodal Live

A API Multimodal Live permite interações de voz e vídeo bidirecionais de baixa latência com o Gemini. Com a API Multimodal Live, você pode oferecer aos usuários finais a experiência de conversas por voz naturais e semelhantes às humanas, além de interromper as respostas do modelo usando comandos de voz. O modelo pode processar entradas de texto, áudio e vídeo e fornecer saídas de texto e áudio.

A API Multimodal Live está disponível na API Gemini como o método BidiGenerateContent e é criada com base em WebSockets.

Para mais informações, consulte o guia de referência da API Multimodal Live.

Para conferir um exemplo de conversão de texto em texto que ajuda a começar a usar a API Multimodal Live, consulte:

Gen AI SDK for Python

Instalar

pip install --upgrade google-genai

Para saber mais, consulte a documentação de referência do SDK.

Defina variáveis de ambiente para usar o SDK da IA generativa com a Vertex AI:

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=us-central1
export GOOGLE_GENAI_USE_VERTEXAI=True

from google import genai
from google.genai.types import LiveConnectConfig, HttpOptions, Modality

client = genai.Client(http_options=HttpOptions(api_version="v1beta1"))
model_id = "gemini-2.0-flash-exp"

async with client.aio.live.connect(
    model=model_id,
    config=LiveConnectConfig(response_modalities=[Modality.TEXT]),
) as session:
    text_input = "Hello? Gemini, are you there?"
    print("> ", text_input, "\n")
    await session.send(input=text_input, end_of_turn=True)

    response = []

    async for message in session.receive():
        if message.text:
            response.append(message.text)

    print("".join(response))
# Example output:
# >  Hello? Gemini, are you there?
# Yes, I'm here. What would you like to talk about?

Recursos:

Entrada de áudio com saída de áudio
Entrada de áudio e vídeo com saída de áudio
Uma seleção de vozes. Consulte Vozes da API Multimodal Live.
Duração da sessão de até 15 minutos para áudio ou até 2 minutos de áudio e vídeo

Para saber mais sobre outros recursos da API Multimodal Live, consulte Recursos da API Multimodal Live.

Language:

Somente em inglês.

Limitações:

Consulte as Limitações da API Multimodal Live.

API Multimodal Live Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

Gen AI SDK for Python

Instalar

API Multimodal Live