Se usó la API de Cloud Translation para traducir esta página.

API de Multimodal Live

La API de Multimodal Live habilita interacciones de voz y video bidireccionales de baja latencia con Gemini. Con la API de Multimodal Live, puedes brindar a los usuarios finales la experiencia de conversaciones de voz naturales y similares a las humanas, y la capacidad de interrumpir las respuestas del modelo con comandos por voz. El modelo puede procesar entradas de texto, audio y video, y puede proporcionar salidas de texto y audio.

La API de Multimodal Live está disponible en la API de Gemini como el método BidiGenerateContent y se compila en WebSockets.

Para obtener más información, consulta la guía de referencia de la API de Multimodal Live.

Si quieres ver un ejemplo de texto a texto para comenzar a usar la API de Multimodal Live, consulta lo siguiente:

Gen AI SDK for Python

Instalar

pip install --upgrade google-genai

Para obtener más información, consulta la documentación de referencia del SDK.

Establece variables de entorno para usar el SDK de Gen AI con Vertex AI:

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=us-central1
export GOOGLE_GENAI_USE_VERTEXAI=True

from google import genai
from google.genai.types import LiveConnectConfig, HttpOptions, Modality

client = genai.Client(http_options=HttpOptions(api_version="v1beta1"))
model_id = "gemini-2.0-flash-exp"

async with client.aio.live.connect(
    model=model_id,
    config=LiveConnectConfig(response_modalities=[Modality.TEXT]),
) as session:
    text_input = "Hello? Gemini, are you there?"
    print("> ", text_input, "\n")
    await session.send(input=text_input, end_of_turn=True)

    response = []

    async for message in session.receive():
        if message.text:
            response.append(message.text)

    print("".join(response))
# Example output:
# >  Hello? Gemini, are you there?
# Yes, I'm here. What would you like to talk about?

Funciones:

Entrada de audio con salida de audio
Entrada de audio y video con salida de audio
Una selección de voces (consulta las voces de la API de Multimodal Live)
Duración de la sesión de hasta 15 minutos para audio o hasta 2 minutos para audio y video

Para obtener información sobre las funciones adicionales de la API de Multimodal Live, consulta Funciones de la API de Multimodal Live.

Language:

Solo en inglés

Limitaciones:

Consulta las limitaciones de la API de Multimodal Live.

API de Multimodal Live Organiza tus páginas con colecciones Guarda y categoriza el contenido según tus preferencias.

Gen AI SDK for Python

Instalar

API de Multimodal Live