API Multimodal Live

L'API Multimodal Live consente interazioni vocali e video bidirezionali a bassa latenza con Gemini. Con l'API Multimodal Live, puoi offrire agli utenti finali l'esperienza di conversazioni vocali naturali e simili a quelle umane, nonché la possibilità di interrompere le risposte del modello utilizzando i comandi vocali. Il modello può elaborare input di testo, audio e video e fornire output di testo e audio.

L'API Multimodal Live è disponibile nell'API Gemini come metodo BidiGenerateContent ed è basata su WebSockets.

Per ulteriori informazioni, consulta la Guida di riferimento dell'API Multimodal Live.

Per un esempio di conversione da testo a testo che ti aiuti a iniziare a utilizzare l'API Multimodal Live, consulta quanto segue:

Gen AI SDK for Python

Scopri come installare o aggiornare Gen AI SDK for Python.

Per saperne di più, consulta la documentazione di riferimento dell'SDK.

Imposta le variabili di ambiente per utilizzare l'SDK di IA generativa con Vertex AI:

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=us-central1
export GOOGLE_GENAI_USE_VERTEXAI=True

from google import genai
from google.genai.types import LiveConnectConfig, HttpOptions, Modality

client = genai.Client(http_options=HttpOptions(api_version="v1beta1"))
model_id = "gemini-2.0-flash-exp"

async with client.aio.live.connect(
    model=model_id,
    config=LiveConnectConfig(response_modalities=[Modality.TEXT]),
) as session:
    text_input = "Hello? Gemini, are you there?"
    print("> ", text_input, "\n")
    await session.send(input=text_input, end_of_turn=True)

    response = []

    async for message in session.receive():
        if message.text:
            response.append(message.text)

    print("".join(response))
# Example output:
# >  Hello? Gemini, are you there?

# Yes, I'm here. What would you like to talk about?

Funzionalità:

  • Input audio con uscita audio
  • Input audio e video con uscita audio
  • Una selezione di voci; consulta Voci dell'API Multimodal Live
  • Durata della sessione fino a 15 minuti per l'audio o fino a 2 minuti di audio e video

Per scoprire altre funzionalità dell'API Multimodal Live, consulta Funzionalità dell'API Multimodal Live.

Language:

  • Solo in inglese

Limitazioni: