La API de Multimodal Live habilita interacciones de voz y video bidireccionales de baja latencia con Gemini. Con la API de Multimodal Live, puedes proporcionar a los usuarios finales la experiencia de conversaciones de voz naturales y similares a las humanas, y la capacidad de interrumpir las respuestas del modelo con comandos por voz. El modelo puede procesar entradas de texto, audio y video, y puede proporcionar salidas de texto y audio.
La API de Multimodal Live está disponible en la API de Gemini como el método BidiGenerateContent
y se compila en WebSockets.
Para obtener más información, consulta la guía de referencia de la API de Multimodal Live.
Si quieres ver un ejemplo de texto a texto para comenzar a usar la API de Multimodal Live, consulta lo siguiente:
SDK de Gen AI para Python
Obtén información para instalar o actualizar el SDK de Google Gen AI para Python.
Para obtener más información, consulta la
documentación de referencia de la API del SDK de Gen AI para Python o el
repositorio de GitHub de python-genai
.
Establece variables de entorno para usar el SDK de IA generativa con Vertex AI:
# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values # with appropriate values for your project. export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT export GOOGLE_CLOUD_LOCATION=us-central1 export GOOGLE_GENAI_USE_VERTEXAI=True
Funciones:
- Entrada de audio con salida de audio
- Entrada de audio y video con salida de audio
- Una selección de voces (consulta las voces de la API de Multimodal Live)
- Duración de la sesión de hasta 15 minutos para audio o hasta 2 minutos para audio y video
Para obtener información sobre las funciones adicionales de la API de Multimodal Live, consulta Funciones de la API de Multimodal Live.
Language:
- Solo en inglés
Limitaciones:
- Consulta las limitaciones de la API de Multimodal Live.