Coba model Gemini 1.5, model multimodal terbaru di Vertex AI, dan lihat model yang dapat Anda bangun dengan jendela konteks hingga 2 juta token. Coba model Gemini 1.5, model multimodal terbaru di Vertex AI, dan lihat model yang dapat Anda bangun dengan jendela konteks hingga 2 juta token.

Kekuatan dan batasan model Gemini

Kekuatan model Gemini

Berikut adalah beberapa kekuatan multimodal dengan model Gemini 1.0:

Kasus Penggunaan	Deskripsi
Pencarian Info	Menggabungkan pengetahuan dunia dengan informasi yang diekstrak dari gambar dan video.
Pengenalan Objek	Menjawab pertanyaan terkait identifikasi objek yang mendetail dalam gambar dan video.
Pemahaman Konten Digital	Menjawab pertanyaan dan mengekstrak informasi dari berbagai konten seperti infografis, diagram, gambar, tabel, dan halaman web.
Pembuatan Konten Terstruktur	Menghasilkan respons dalam format seperti HTML dan JSON, berdasarkan petunjuk perintah yang diberikan.
Pembuatan teks / Deskripsi	Membuat deskripsi gambar dan video dengan berbagai tingkat detail. Sebaiknya mulai dengan petunjuk berikut untuk gambar/video dan lakukan iterasi dari sana untuk mendapatkan deskripsi yang lebih spesifik. Gambar: “Bisakah Anda menulis deskripsi tentang gambar itu?” Video: “Bisa tuliskan deskripsi tentang apa yang terjadi dalam video ini?”
Ekstrapolasi	Menyarankan hal lain untuk dilihat berdasarkan lokasi, apa yang mungkin terjadi selanjutnya/sebelum/di antara gambar atau video, dan memungkinkan penggunaan yang kreatif seperti menulis cerita berdasarkan input visual.

Keterbatasan Gemini

Model Gemini 1.0 memiliki batasan berikut:

Batasan	Deskripsi
Penalaran spasial	Dapat mengalami kesulitan dalam pelokalan objek/teks yang akurat dalam gambar. Mungkin kurang akurat dalam memahami gambar yang dirotasi.
Perhitungan	Hanya dapat memberikan perkiraan kasar jumlah objek, terutama untuk objek yang dikaburkan.
Memahami video berdurasi lebih panjang	Dapat mendukung video sebagai modalitas terpisah (berbeda dengan hanya memproses gambar individual). Namun, model ini menerima informasi dari serangkaian frame gambar yang tidak berdekatan, bukan video berkelanjutan itu sendiri (dan tanpa audio). Gemini juga tidak mengekstrak informasi apa pun di luar durasi video dua menit. Untuk meningkatkan performa video dengan konten padat, perpendek video Anda agar model dapat menangkap sebagian besar konten video.
Mengikuti petunjuk rumit	Dapat kesulitan dengan tugas yang membutuhkan banyak langkah penalaran. Pertimbangkan untuk menguraikan instruksi atau memberikan contoh beberapa rekaman untuk mendapatkan panduan yang lebih baik.
Penggunaan medis	Tidak cocok untuk menafsirkan gambar medis (misalnya, sinar-x dan CT pemindaian) atau memberikan saran medis.
Chat multi-giliran (multimodal)	Tidak dilatih untuk fungsi chatbot atau menjawab pertanyaan dengan nada mengobrol, dan dapat berperforma kurang efektif dalam percakapan banyak giliran.

Langkah selanjutnya

Untuk memulai, lihat Menguji perintah multimodal.