Gemini 2.0 Flash mendukung pembuatan respons dalam beberapa modalitas, termasuk teks, ucapan, dan gambar.
Pembuatan teks
Flash Gemini 2.0 mendukung pembuatan teks menggunakan konsol Google Cloud, REST API, dan SDK yang didukung. Untuk informasi selengkapnya, lihat panduan pembuatan teks.
Pembuatan ucapan (akses awal/daftar yang diizinkan)
Gemini 2.0 mendukung kemampuan pembuatan multimodal baru: text to speech.
Dengan kemampuan text-to-speech, Anda dapat meminta model untuk menghasilkan output
audio berkualitas tinggi yang terdengar seperti suara manusia (say "hi everyone"
), dan
Anda dapat lebih meningkatkan kualitas output dengan mengarahkan suara.
Pembuatan gambar (akses awal/daftar yang diizinkan)
Gemini 2.0 mendukung kemampuan untuk menghasilkan teks dengan gambar sisipan. Hal ini memungkinkan Anda menggunakan Gemini untuk mengedit gambar secara percakapan atau menghasilkan output multimodal (misalnya, postingan blog dengan teks dan gambar dalam satu giliran). Sebelumnya, hal ini akan memerlukan penggabungan beberapa model.
Pembuatan gambar tersedia sebagai rilis eksperimental pribadi. Fitur ini mendukung modalitas dan kemampuan berikut:
- Teks ke gambar
- Contoh perintah: "Buat gambar menara Eiffel dengan kembang api di latar belakang."
- Teks ke gambar dan teks (disisipkan)
- Contoh perintah: "Buat resep bergambar untuk paella. Buat gambar untuk menyertai teks saat Anda membuat resep."
- Gambar dan teks ke gambar dan teks (disisipkan)
- Contoh perintah: (Dengan gambar ruangan yang dilengkapi furnitur) "Sofa warna apa lagi yang cocok untuk ruangan saya? Bisakah Anda memperbarui gambarnya?"
- Pengeditan gambar (teks dan gambar ke gambar)
- Contoh perintah: "Edit gambar ini agar terlihat seperti kartun"
- Contoh perintah: [gambar kucing] + [gambar bantal] + "Buat jahitan silang kucing saya di bantal ini".
- Pengeditan gambar multi-giliran (chat)
- Contoh perintah: [upload gambar mobil biru.] "Ubah mobil ini menjadi mobil konversi." "Sekarang ubah warnanya menjadi kuning."
- Penambahan watermark
- Semua gambar yang dihasilkan menyertakan watermark SynthID.
Batasan:
- Pembuatan orang dan pengeditan gambar orang yang diupload tidak diizinkan.
- Untuk performa terbaik, gunakan bahasa berikut: EN, es-MX, ja-JP, zh-CN, hi-IN.
- Pembuatan gambar tidak mendukung input audio atau video.
- Pembuatan gambar mungkin tidak selalu memicu:
- Model hanya dapat menghasilkan teks. Coba minta output gambar secara eksplisit (misalnya, "buat gambar", "berikan gambar saat Anda melakukannya", "perbarui gambar").
- Model mungkin berhenti menghasilkan di tengah jalan. Coba lagi atau coba perintah lain.