La API de Multimodal Live habilita interacciones de voz y video bidireccionales de baja latencia con Gemini. Con la API de Multimodal Live, puedes proporcionar a los usuarios finales la experiencia de conversaciones de voz naturales y similares a las humanas, y la capacidad de interrumpir las respuestas del modelo con comandos por voz. El modelo puede procesar entradas de texto, audio y video, y puede proporcionar salidas de texto y audio.
La API de Multimodal Live está disponible en la API de Gemini como el método BidiGenerateContent
y se compila en WebSockets.
Para obtener más información, consulta la guía de referencia de la API de Multimodal Live.
Si quieres ver un ejemplo de texto a texto para comenzar a usar la API de Multimodal Live, consulta lo siguiente:
Gen AI SDK for Python
Obtén información para instalar o actualizar Gen AI SDK for Python.
Para obtener más información, consulta la documentación de referencia del SDK.Establece variables de entorno para usar el SDK de Gen AI con Vertex AI:
# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values # with appropriate values for your project. export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT export GOOGLE_CLOUD_LOCATION=us-central1 export GOOGLE_GENAI_USE_VERTEXAI=True
Funciones:
- Entrada de audio con salida de audio
- Entrada de audio y video con salida de audio
- Una selección de voces (consulta las voces de la API de Multimodal Live)
- Duración de la sesión de hasta 15 minutos para audio o hasta 2 minutos para audio y video
Para obtener información sobre las funciones adicionales de la API de Multimodal Live, consulta Funciones de la API de Multimodal Live.
Language:
- Solo en inglés
Limitaciones:
- Consulta las limitaciones de la API de Multimodal Live.