Die Multimodal Live API ermöglicht bidirektionale Sprach- und Videointeraktionen mit Gemini bei niedriger Latenz. Mit der Multimodal Live API können Sie Endnutzern natürliche, menschliche Konversationen ermöglichen und ihnen die Möglichkeit geben, die Antworten des Modells per Sprachbefehl zu unterbrechen. Das Modell kann Text-, Audio- und Videoeingaben verarbeiten und Text- und Audioausgaben liefern.
Die Multimodal Live API ist in der Gemini API als Methode BidiGenerateContent
verfügbar und basiert auf WebSockets.
Weitere Informationen finden Sie im Referenzhandbuch für die Multimodal Live API.
Hier finden Sie ein Beispiel für die Text-zu-Text-Funktion, mit dem Sie die Multimodal Live API kennenlernen können:
Gen AI SDK für Python
Informationen zum Installieren oder Aktualisieren des Google Gen AI SDK for Python
Weitere Informationen finden Sie in der
Referenzdokumentation zur Gen AI SDK for Python API oder im
GitHub-Repository für python-genai
.
Umgebungsvariablen für die Verwendung des Gen AI SDK mit Vertex AI festlegen:
# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values # with appropriate values for your project. export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT export GOOGLE_CLOUD_LOCATION=us-central1 export GOOGLE_GENAI_USE_VERTEXAI=True
Funktionen:
- Audioeingabe mit Audioausgabe
- Audio- und Videoeingabe mit Audioausgabe
- Auswahl an Stimmen; siehe Multimodal Live API-Stimmen
- Sitzungsdauer von bis zu 15 Minuten für Audio oder bis zu 2 Minuten für Audio und Video
Weitere Informationen zu den Funktionen der Multimodal Live API finden Sie unter Funktionen der Multimodal Live API.
Sprache:
- Nur Englisch
Beschränkungen:
- Weitere Informationen finden Sie unter Einschränkungen der Multimodal Live API.