Multimodal Live API memungkinkan interaksi suara dan video dua arah dengan latensi rendah dengan Gemini. Dengan menggunakan Multimodal Live API, Anda dapat memberikan pengalaman percakapan suara alami yang mirip manusia kepada pengguna akhir, dan dengan kemampuan untuk mengganggu respons model menggunakan perintah suara. Model ini dapat memproses input teks, audio, dan video, serta dapat memberikan output teks dan audio.
Multimodal Live API tersedia di Gemini API sebagai
metode BidiGenerateContent
dan dibuat di
WebSockets.
Untuk informasi selengkapnya, lihat panduan referensi Multimodal Live API.
Untuk contoh teks ke teks guna membantu Anda memulai Multimodal Live API, lihat hal berikut:
from google import genai
client = genai.Client()
model_id = "gemini-2.0-flash-exp"
config = {"response_modalities": ["TEXT"]}
async with client.aio.live.connect(model=model_id, config=config) as session:
message = "Hello? Gemini, are you there?"
print("> ", message, "\n")
await session.send(message, end_of_turn=True)
async for response in session.receive():
print(response.text)
Fitur:
- Input audio dengan output audio
- Input audio dan video dengan output audio
- Pilihan suara; lihat suara Multimodal Live API
- Durasi sesi hingga 15 menit untuk audio atau hingga 2 menit audio dan video
Untuk mempelajari kemampuan tambahan Multimodal Live API, lihat kemampuan Multimodal Live API.
Bahasa:
- Khusus bahasa Inggris
Batasan:
- Lihat Batasan Multimodal Live API.