Multimodal Live API memungkinkan interaksi suara dan video dua arah dengan latensi rendah dengan Gemini. Dengan menggunakan Multimodal Live API, Anda dapat memberikan pengalaman percakapan suara alami yang mirip manusia kepada pengguna akhir, dan dengan kemampuan untuk mengganggu respons model menggunakan perintah suara. Model ini dapat memproses input teks, audio, dan video, serta dapat memberikan output teks dan audio.
Multimodal Live API tersedia di Gemini API sebagai
metode BidiGenerateContent
dan dibuat di
WebSockets.
Untuk informasi selengkapnya, lihat panduan referensi Multimodal Live API.
Untuk contoh teks ke teks guna membantu Anda memulai Multimodal Live API, lihat referensi berikut:
Gen AI SDK untuk Python
Pelajari cara menginstal atau mengupdate Google Gen AI SDK untuk Python.
Untuk mengetahui informasi selengkapnya, lihat
dokumentasi referensi Gen AI SDK untuk Python API atau
repositori GitHub python-genai
.
Tetapkan variabel lingkungan untuk menggunakan Gen AI SDK dengan Vertex AI:
# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values # with appropriate values for your project. export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT export GOOGLE_CLOUD_LOCATION=us-central1 export GOOGLE_GENAI_USE_VERTEXAI=True
Fitur:
- Input audio dengan output audio
- Input audio dan video dengan output audio
- Pilihan suara; lihat Suara Multimodal Live API
- Durasi sesi hingga 15 menit untuk audio atau hingga 2 menit audio dan video
Untuk mempelajari kemampuan tambahan Multimodal Live API, lihat Kemampuan Multimodal Live API.
Bahasa:
- Khusus bahasa Inggris
Batasan:
- Lihat Batasan Multimodal Live API.