A partire dal 29 aprile 2025, i modelli Gemini 1.5 Pro e Gemini 1.5 Flash non sono disponibili nei progetti che non li hanno mai utilizzati, inclusi i nuovi progetti. Per maggiori dettagli, vedi Versioni e ciclo di vita dei modelli.

Questa pagina è stata tradotta dall'API Cloud Translation.

API Multimodal Live

L'API Multimodal Live consente interazioni vocali e video bidirezionali a bassa latenza con Gemini. Con l'API Multimodal Live, puoi offrire agli utenti finali l'esperienza di conversazioni vocali naturali e simili a quelle umane, nonché la possibilità di interrompere le risposte del modello utilizzando i comandi vocali. Il modello può elaborare input di testo, audio e video e fornire output di testo e audio.

L'API Multimodal Live è disponibile nell'API Gemini come metodo BidiGenerateContent ed è basata su WebSockets.

Per ulteriori informazioni, consulta la Guida di riferimento dell'API Multimodal Live.

Per un esempio di conversione da testo a testo che ti aiuti a iniziare a utilizzare l'API Multimodal Live, consulta quanto segue:

Gen AI SDK for Python

Installa

pip install --upgrade google-genai

Per scoprire di più, consulta la documentazione di riferimento dell'SDK.

Imposta le variabili di ambiente per utilizzare l'SDK Gen AI con Vertex AI:

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=us-central1
export GOOGLE_GENAI_USE_VERTEXAI=True

from google import genai
from google.genai.types import LiveConnectConfig, HttpOptions, Modality

client = genai.Client(http_options=HttpOptions(api_version="v1beta1"))
model_id = "gemini-2.0-flash-exp"

async with client.aio.live.connect(
    model=model_id,
    config=LiveConnectConfig(response_modalities=[Modality.TEXT]),
) as session:
    text_input = "Hello? Gemini, are you there?"
    print("> ", text_input, "\n")
    await session.send(input=text_input, end_of_turn=True)

    response = []

    async for message in session.receive():
        if message.text:
            response.append(message.text)

    print("".join(response))
# Example output:
# >  Hello? Gemini, are you there?
# Yes, I'm here. What would you like to talk about?

Funzionalità

Input audio con uscita audio
Input audio e video con uscita audio
Una selezione di voci; consulta Voci dell'API Multimodal Live
Durata della sessione fino a 15 minuti per l'audio o fino a 2 minuti di audio e video

Per scoprire altre funzionalità dell'API Multimodal Live, consulta Funzionalità dell'API Multimodal Live.

Language:

Solo in inglese

Limitazioni:

Consulta i limiti dell'API multimodale in tempo reale.

API Multimodal Live Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.

Gen AI SDK for Python

Installa

API Multimodal Live