Multimodal Live API

Die Multimodal Live API ermöglicht bidirektionale Sprach- und Videointeraktionen mit Gemini bei niedriger Latenz. Mit der Multimodal Live API können Sie Endnutzern natürliche, menschliche Konversationen ermöglichen und ihnen die Möglichkeit geben, die Antworten des Modells per Sprachbefehl zu unterbrechen. Das Modell kann Text-, Audio- und Videoeingaben verarbeiten und Text- und Audioausgaben liefern.

Die Multimodal Live API ist in der Gemini API als Methode BidiGenerateContent verfügbar und basiert auf WebSockets.

Weitere Informationen finden Sie im Referenzhandbuch für die Multimodal Live API.

Hier finden Sie ein Beispiel für die Text-zu-Text-Funktion, mit dem Sie die Multimodal Live API kennenlernen können:

Gen AI SDK für Python

Informationen zum Installieren oder Aktualisieren des Google Gen AI SDK for Python
Weitere Informationen finden Sie in der Referenzdokumentation zur Gen AI SDK for Python API oder im GitHub-Repository für python-genai.
Umgebungsvariablen für die Verwendung des Gen AI SDK mit Vertex AI festlegen:

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=us-central1
export GOOGLE_GENAI_USE_VERTEXAI=True

from google import genai
from google.genai.types import LiveConnectConfig, HttpOptions, Modality

client = genai.Client(http_options=HttpOptions(api_version="v1beta1"))
model_id = "gemini-2.0-flash-exp"

async with client.aio.live.connect(
    model=model_id,
    config=LiveConnectConfig(response_modalities=[Modality.TEXT]),
) as session:
    text_input = "Hello? Gemini, are you there?"
    print("> ", text_input, "\n")
    await session.send(input=text_input, end_of_turn=True)

    response = []

    async for message in session.receive():
        if message.text:
            response.append(message.text)

    print("".join(response))
# Example output:
# >  Hello? Gemini, are you there?

# Yes, I'm here. What would you like to talk about?

Funktionen:

  • Audioeingabe mit Audioausgabe
  • Audio- und Videoeingabe mit Audioausgabe
  • Auswahl an Stimmen; siehe Multimodal Live API-Stimmen
  • Sitzungsdauer von bis zu 15 Minuten für Audio oder bis zu 2 Minuten für Audio und Video

Weitere Informationen zu den Funktionen der Multimodal Live API finden Sie unter Funktionen der Multimodal Live API.

Sprache:

  • Nur Englisch

Beschränkungen: