Diese Seite wurde von der Cloud Translation API übersetzt.

Multimodal Live API

Die Multimodal Live API ermöglicht bidirektionale Sprach- und Videointeraktionen mit Gemini bei niedriger Latenz. Mit der Multimodal Live API können Sie Endnutzern natürliche, menschliche Konversationen ermöglichen und ihnen die Möglichkeit geben, die Antworten des Modells per Sprachbefehl zu unterbrechen. Das Modell kann Text-, Audio- und Videoeingaben verarbeiten und Text- und Audioausgaben liefern.

Die Multimodal Live API ist in der Gemini API als Methode BidiGenerateContent verfügbar und basiert auf WebSockets.

Weitere Informationen finden Sie im Referenzhandbuch für die Multimodal Live API.

Hier finden Sie ein Beispiel für die Text-zu-Text-Funktion, mit dem Sie die Multimodal Live API kennenlernen können:

Gen AI SDK for Python

Installieren

pip install --upgrade google-genai

Weitere Informationen finden Sie in der SDK-Referenzdokumentation.

Legen Sie Umgebungsvariablen fest, um das Gen AI SDK mit Vertex AI zu verwenden:

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=us-central1
export GOOGLE_GENAI_USE_VERTEXAI=True

from google import genai
from google.genai.types import LiveConnectConfig, HttpOptions, Modality

client = genai.Client(http_options=HttpOptions(api_version="v1beta1"))
model_id = "gemini-2.0-flash-exp"

async with client.aio.live.connect(
    model=model_id,
    config=LiveConnectConfig(response_modalities=[Modality.TEXT]),
) as session:
    text_input = "Hello? Gemini, are you there?"
    print("> ", text_input, "\n")
    await session.send(input=text_input, end_of_turn=True)

    response = []

    async for message in session.receive():
        if message.text:
            response.append(message.text)

    print("".join(response))
# Example output:
# >  Hello? Gemini, are you there?
# Yes, I'm here. What would you like to talk about?

Funktionen:

Audioeingabe mit Audioausgabe
Audio- und Videoeingabe mit Audioausgabe
Eine Auswahl an Stimmen; siehe Stimmen der Multimodal Live API
Sitzungsdauer von bis zu 15 Minuten für Audio oder bis zu 2 Minuten für Audio und Video

Weitere Informationen zu den Funktionen der Multimodal Live API finden Sie unter Funktionen der Multimodal Live API.

Sprache:

Nur Englisch

Beschränkungen:

Weitere Informationen finden Sie unter Einschränkungen der multimodalen Live API.

Multimodal Live API Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.

Gen AI SDK for Python

Installieren

Multimodal Live API