API Multimodal Live

L'API Multimodal Live permet des interactions vocales et vidéo bidirectionnelles et à faible latence avec Gemini. L'API Multimodal Live vous permet de proposer aux utilisateurs finaux des conversations vocales naturelles, semblables à celles d'un être humain, et de leur permettre d'interrompre les réponses du modèle à l'aide de commandes vocales. Le modèle peut traiter des entrées textuelles, audio et vidéo, et peut fournir des sorties textuelles et audio.

L'API Multimodal Live est disponible dans l'API Gemini en tant que méthode BidiGenerateContent et est basée sur WebSockets.

Pour en savoir plus, consultez le guide de référence de l'API Multimodal Live.

Pour obtenir un exemple de conversion texte-texte qui vous aidera à vous familiariser avec l'API Multimodal Live, consultez les pages suivantes:

Gen AI SDK for Python

Découvrez comment installer ou mettre à jour Gen AI SDK for Python.

Pour en savoir plus, consultez la documentation de référence du SDK.

Définissez des variables d'environnement pour utiliser le SDK Gen AI avec Vertex AI:

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=us-central1
export GOOGLE_GENAI_USE_VERTEXAI=True

from google import genai
from google.genai.types import LiveConnectConfig, HttpOptions, Modality

client = genai.Client(http_options=HttpOptions(api_version="v1beta1"))
model_id = "gemini-2.0-flash-exp"

async with client.aio.live.connect(
    model=model_id,
    config=LiveConnectConfig(response_modalities=[Modality.TEXT]),
) as session:
    text_input = "Hello? Gemini, are you there?"
    print("> ", text_input, "\n")
    await session.send(input=text_input, end_of_turn=True)

    response = []

    async for message in session.receive():
        if message.text:
            response.append(message.text)

    print("".join(response))
# Example output:
# >  Hello? Gemini, are you there?

# Yes, I'm here. What would you like to talk about?

Caractéristiques:

  • Entrée audio avec sortie audio
  • Entrée audio et vidéo avec sortie audio
  • Sélection de voix (voir Voix de l'API Multimodal Live)
  • Durée de session maximale de 15 minutes pour l'audio ou de 2 minutes pour l'audio et la vidéo

Pour en savoir plus sur les fonctionnalités supplémentaires de l'API Multimodal Live, consultez la section Fonctionnalités de l'API Multimodal Live.

Language:

  • Anglais uniquement

Limites :