Mulai 29 April 2025, model Gemini 1.5 Pro dan Gemini 1.5 Flash tidak tersedia di project yang belum pernah menggunakan model ini, termasuk project baru. Untuk mengetahui detailnya, lihat Versi dan siklus proses model.

Halaman ini diterjemahkan oleh Cloud Translation API.

Multimodal Live API

Multimodal Live API memungkinkan interaksi suara dan video dua arah dengan latensi rendah dengan Gemini. Dengan menggunakan Multimodal Live API, Anda dapat memberikan pengalaman percakapan suara yang alami dan mirip manusia kepada pengguna akhir, serta kemampuan untuk mengganggu respons model menggunakan perintah suara. Model ini dapat memproses input teks, audio, dan video, serta dapat memberikan output teks dan audio.

Multimodal Live API tersedia di Gemini API sebagai metode BidiGenerateContent dan dibuat di WebSockets.

Untuk informasi selengkapnya, lihat panduan referensi Multimodal Live API.

Untuk contoh teks ke teks guna membantu Anda memulai Multimodal Live API, lihat referensi berikut:

Gen AI SDK for Python

Instal

pip install --upgrade google-genai

Untuk mempelajari lebih lanjut, lihat dokumentasi referensi SDK.

Tetapkan variabel lingkungan untuk menggunakan Gen AI SDK dengan Vertex AI:

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=us-central1
export GOOGLE_GENAI_USE_VERTEXAI=True

from google import genai
from google.genai.types import LiveConnectConfig, HttpOptions, Modality

client = genai.Client(http_options=HttpOptions(api_version="v1beta1"))
model_id = "gemini-2.0-flash-exp"

async with client.aio.live.connect(
    model=model_id,
    config=LiveConnectConfig(response_modalities=[Modality.TEXT]),
) as session:
    text_input = "Hello? Gemini, are you there?"
    print("> ", text_input, "\n")
    await session.send(input=text_input, end_of_turn=True)

    response = []

    async for message in session.receive():
        if message.text:
            response.append(message.text)

    print("".join(response))
# Example output:
# >  Hello? Gemini, are you there?
# Yes, I'm here. What would you like to talk about?

Fitur:

Input audio dengan output audio
Input audio dan video dengan output audio
Pilihan suara; lihat Suara Multimodal Live API
Durasi sesi hingga 15 menit untuk audio atau hingga 2 menit audio dan video

Untuk mempelajari kemampuan tambahan Multimodal Live API, lihat Kemampuan Multimodal Live API.

Bahasa:

Khusus bahasa Inggris

Batasan:

Lihat Batasan Multimodal Live API.

Multimodal Live API Tetap teratur dengan koleksi Simpan dan kategorikan konten berdasarkan preferensi Anda.

Gen AI SDK for Python

Instal

Multimodal Live API