L'API Multimodal Live permet des interactions vocales et vidéo bidirectionnelles et à faible latence avec Gemini. L'API Multimodal Live vous permet de proposer aux utilisateurs finaux des conversations vocales naturelles, semblables à celles d'un être humain, et de leur permettre d'interrompre les réponses du modèle à l'aide de commandes vocales. Le modèle peut traiter des entrées textuelles, audio et vidéo, et peut fournir des sorties textuelles et audio.
L'API Multimodal Live est disponible dans l'API Gemini en tant que méthode BidiGenerateContent
et est basée sur WebSockets.
Pour en savoir plus, consultez le guide de référence de l'API Multimodal Live.
Pour obtenir un exemple de conversion texte-texte qui vous aidera à vous familiariser avec l'API Multimodal Live, consultez les pages suivantes:
Gen AI SDK for Python
Découvrez comment installer ou mettre à jour Gen AI SDK for Python.
Pour en savoir plus, consultez la documentation de référence du SDK.Définissez des variables d'environnement pour utiliser le SDK Gen AI avec Vertex AI:
# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values # with appropriate values for your project. export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT export GOOGLE_CLOUD_LOCATION=us-central1 export GOOGLE_GENAI_USE_VERTEXAI=True
Caractéristiques:
- Entrée audio avec sortie audio
- Entrée audio et vidéo avec sortie audio
- Sélection de voix (voir Voix de l'API Multimodal Live)
- Durée de session maximale de 15 minutes pour l'audio ou de 2 minutes pour l'audio et la vidéo
Pour en savoir plus sur les fonctionnalités supplémentaires de l'API Multimodal Live, consultez la section Fonctionnalités de l'API Multimodal Live.
Language:
- Anglais uniquement
Limites :
- Consultez la section Limites de l'API Multimodal Live.