L'API Multimodal Live consente interazioni vocali e video bidirezionali a bassa latenza con Gemini. Con l'API Multimodal Live, puoi offrire agli utenti finali l'esperienza di conversazioni vocali naturali e simili a quelle umane, nonché la possibilità di interrompere le risposte del modello utilizzando i comandi vocali. Il modello può elaborare input di testo, audio e video e fornire output di testo e audio.
L'API Multimodal Live è disponibile nell'API Gemini come metodo BidiGenerateContent
ed è basata su WebSockets.
Per ulteriori informazioni, consulta la Guida di riferimento dell'API Multimodal Live.
Per un esempio di conversione da testo a testo che ti aiuti a iniziare a utilizzare l'API Multimodal Live, consulta quanto segue:
Gen AI SDK for Python
Scopri come installare o aggiornare Gen AI SDK for Python.
Per saperne di più, consulta la documentazione di riferimento dell'SDK.Imposta le variabili di ambiente per utilizzare l'SDK di IA generativa con Vertex AI:
# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values # with appropriate values for your project. export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT export GOOGLE_CLOUD_LOCATION=us-central1 export GOOGLE_GENAI_USE_VERTEXAI=True
Funzionalità:
- Input audio con uscita audio
- Input audio e video con uscita audio
- Una selezione di voci; consulta Voci dell'API Multimodal Live
- Durata della sessione fino a 15 minuti per l'audio o fino a 2 minuti di audio e video
Per scoprire altre funzionalità dell'API Multimodal Live, consulta Funzionalità dell'API Multimodal Live.
Language:
- Solo in inglese
Limitazioni:
- Consulta le limitazioni dell'API Multimodal Live.