Kekuatan dan batasan model Gemini

Kekuatan model Gemini

Berikut adalah beberapa kekuatan multimodal dengan model Gemini 1.0:

Kasus Penggunaan Deskripsi
Pencarian Info Menggabungkan pengetahuan dunia dengan informasi yang diekstrak dari gambar dan video.
Pengenalan Objek Menjawab pertanyaan terkait identifikasi objek yang mendetail dalam gambar dan video.
Pemahaman Konten Digital Menjawab pertanyaan dan mengekstrak informasi dari berbagai konten seperti infografis, diagram, gambar, tabel, dan halaman web.
Pembuatan Konten Terstruktur Menghasilkan respons dalam format seperti HTML dan JSON, berdasarkan petunjuk perintah yang diberikan.
Pembuatan teks / Deskripsi Membuat deskripsi gambar dan video dengan berbagai tingkat detail. Sebaiknya mulai dengan petunjuk berikut untuk gambar/video dan lakukan iterasi dari sana untuk mendapatkan deskripsi yang lebih spesifik.
  • Gambar: “Bisakah Anda menulis deskripsi tentang gambar itu?”
  • Video: “Bisa tuliskan deskripsi tentang apa yang terjadi dalam video ini?”
  • Ekstrapolasi Menyarankan hal lain untuk dilihat berdasarkan lokasi, apa yang mungkin terjadi selanjutnya/sebelum/di antara gambar atau video, dan memungkinkan penggunaan yang kreatif seperti menulis cerita berdasarkan input visual.

    Keterbatasan Gemini

    Model Gemini 1.0 memiliki batasan berikut:

    Batasan Deskripsi
    Penalaran spasial Dapat mengalami kesulitan dalam pelokalan objek/teks yang akurat dalam gambar. Mungkin kurang akurat dalam memahami gambar yang dirotasi.
    Perhitungan Hanya dapat memberikan perkiraan kasar jumlah objek, terutama untuk objek yang dikaburkan.
    Memahami video berdurasi lebih panjang Dapat mendukung video sebagai modalitas terpisah (berbeda dengan hanya memproses gambar individual). Namun, model ini menerima informasi dari serangkaian frame gambar yang tidak berdekatan, bukan video berkelanjutan itu sendiri (dan tanpa audio). Gemini juga tidak mengekstrak informasi apa pun di luar durasi video dua menit. Untuk meningkatkan performa video dengan konten padat, perpendek video Anda agar model dapat menangkap sebagian besar konten video.
    Mengikuti petunjuk rumit Dapat kesulitan dengan tugas yang membutuhkan banyak langkah penalaran. Pertimbangkan untuk menguraikan instruksi atau memberikan contoh beberapa rekaman untuk mendapatkan panduan yang lebih baik.
    Penggunaan medis Tidak cocok untuk menafsirkan gambar medis (misalnya, sinar-x dan CT pemindaian) atau memberikan saran medis.
    Chat multi-giliran (multimodal) Tidak dilatih untuk fungsi chatbot atau menjawab pertanyaan dengan nada mengobrol, dan dapat berperforma kurang efektif dalam percakapan banyak giliran.

    Langkah selanjutnya

    Untuk memulai, lihat Menguji perintah multimodal.