API de Multimodal Live

La API de Multimodal Live habilita interacciones de voz y video bidireccionales de baja latencia con Gemini. Con la API de Multimodal Live, puedes proporcionar a los usuarios finales la experiencia de conversaciones de voz naturales y similares a las humanas, y la capacidad de interrumpir las respuestas del modelo con comandos por voz. El modelo puede procesar entradas de texto, audio y video, y puede proporcionar salidas de texto y audio.

La API de Multimodal Live está disponible en la API de Gemini como el método BidiGenerateContent y se compila en WebSockets.

Para obtener más información, consulta la guía de referencia de la API de Multimodal Live.

Si quieres ver un ejemplo de texto a texto para comenzar a usar la API de Multimodal Live, consulta lo siguiente:

SDK de Gen AI para Python

Obtén información para instalar o actualizar el SDK de Google Gen AI para Python.
Para obtener más información, consulta la documentación de referencia de la API del SDK de Gen AI para Python o el repositorio de GitHub de python-genai.
Establece variables de entorno para usar el SDK de IA generativa con Vertex AI:

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=us-central1
export GOOGLE_GENAI_USE_VERTEXAI=True

from google import genai
from google.genai.types import LiveConnectConfig, HttpOptions, Modality

client = genai.Client(http_options=HttpOptions(api_version="v1beta1"))
model_id = "gemini-2.0-flash-exp"

async with client.aio.live.connect(
    model=model_id,
    config=LiveConnectConfig(response_modalities=[Modality.TEXT]),
) as session:
    text_input = "Hello? Gemini, are you there?"
    print("> ", text_input, "\n")
    await session.send(input=text_input, end_of_turn=True)

    response = []

    async for message in session.receive():
        if message.text:
            response.append(message.text)

    print("".join(response))
# Example output:
# >  Hello? Gemini, are you there?

# Yes, I'm here. What would you like to talk about?

Funciones:

  • Entrada de audio con salida de audio
  • Entrada de audio y video con salida de audio
  • Una selección de voces (consulta las voces de la API de Multimodal Live)
  • Duración de la sesión de hasta 15 minutos para audio o hasta 2 minutos para audio y video

Para obtener información sobre las funciones adicionales de la API de Multimodal Live, consulta Funciones de la API de Multimodal Live.

Language:

  • Solo en inglés

Limitaciones: