A API Multimodal Live permite interações de voz e vídeo bidirecionais de baixa latência com o Gemini. Com a API Multimodal Live, você pode oferecer aos usuários finais a experiência de conversas por voz naturais e humanas, além de interromper as respostas do modelo usando comandos de voz. O modelo pode processar entradas de texto, áudio e vídeo e fornecer saídas de texto e áudio.
A API Multimodal Live está disponível na API Gemini como o
método BidiGenerateContent
e é criada com base em
WebSockets.
Para mais informações, consulte o guia de referência da API Multimodal Live.
Para conferir um exemplo de conversão de texto em texto que ajuda a começar a usar a API Multimodal Live, consulte:
SDK da Gen AI para Python
Saiba como instalar ou atualizar o SDK do Google Gen AI para Python.
Para mais informações, consulte a
documentação de referência da API SDK do Gen AI para Python ou o
python-genai
repositório do GitHub.
Defina variáveis de ambiente para usar o SDK da IA generativa com a Vertex AI:
# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values # with appropriate values for your project. export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT export GOOGLE_CLOUD_LOCATION=us-central1 export GOOGLE_GENAI_USE_VERTEXAI=True
Recursos:
- Entrada de áudio com saída de áudio
- Entrada de áudio e vídeo com saída de áudio
- Uma seleção de vozes. Consulte Voz da API Multimodal Live.
- Duração da sessão de até 15 minutos para áudio ou até 2 minutos de áudio e vídeo
Para saber mais sobre outros recursos da API Multimodal Live, consulte Recursos da API Multimodal Live.
Language:
- Somente em inglês.
Limitações:
- Consulte as Limitações da API Multimodal Live.