API Multimodal Live

A API Multimodal Live permite interações de voz e vídeo bidirecionais de baixa latência com o Gemini. Com a API Multimodal Live, você pode oferecer aos usuários finais a experiência de conversas por voz naturais e humanas, além de interromper as respostas do modelo usando comandos de voz. O modelo pode processar entradas de texto, áudio e vídeo e fornecer saídas de texto e áudio.

A API Multimodal Live está disponível na API Gemini como o método BidiGenerateContent e é criada com base em WebSockets.

Para mais informações, consulte o guia de referência da API Multimodal Live.

Para conferir um exemplo de conversão de texto em texto que ajuda a começar a usar a API Multimodal Live, consulte:

SDK da Gen AI para Python

Saiba como instalar ou atualizar o SDK do Google Gen AI para Python.
Para mais informações, consulte a documentação de referência da API SDK do Gen AI para Python ou o python-genai repositório do GitHub.
Defina variáveis de ambiente para usar o SDK da IA generativa com a Vertex AI:

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=us-central1
export GOOGLE_GENAI_USE_VERTEXAI=True

from google import genai
from google.genai.types import LiveConnectConfig, HttpOptions, Modality

client = genai.Client(http_options=HttpOptions(api_version="v1beta1"))
model_id = "gemini-2.0-flash-exp"

async with client.aio.live.connect(
    model=model_id,
    config=LiveConnectConfig(response_modalities=[Modality.TEXT]),
) as session:
    text_input = "Hello? Gemini, are you there?"
    print("> ", text_input, "\n")
    await session.send(input=text_input, end_of_turn=True)

    response = []

    async for message in session.receive():
        if message.text:
            response.append(message.text)

    print("".join(response))
# Example output:
# >  Hello? Gemini, are you there?

# Yes, I'm here. What would you like to talk about?

Recursos:

  • Entrada de áudio com saída de áudio
  • Entrada de áudio e vídeo com saída de áudio
  • Uma seleção de vozes. Consulte Voz da API Multimodal Live.
  • Duração da sessão de até 15 minutos para áudio ou até 2 minutos de áudio e vídeo

Para saber mais sobre outros recursos da API Multimodal Live, consulte Recursos da API Multimodal Live.

Language:

  • Somente em inglês.

Limitações: