Coba Gemini 1.5 Pro, model multimodal kami yang paling canggih di Vertex AI, dan lihat apa yang dapat Anda bangun dengan jendela konteks token 1 juta.Coba Gemini 1.5 Pro, model multimodal kami yang paling canggih di Vertex AI, dan lihat apa yang dapat Anda bangun dengan jendela konteks token 1 juta.
Pengenalan karakter optik (OCR) untuk gambar; pengenalan teks dan
konversi menjadi teks berkode mesin. Mengidentifikasi dan mengekstrak teks UTF-8 dalam gambar.
Gambar: Dioptimalkan untuk sparsearea teks dalam
gambar yang lebih besar.
Response: Menampilkan daftar kata yang diidentifikasi dengan teks,
kotak pembatas, dan textAnnotations, serta struktur
hierarki untuk teks yang terdeteksi
OCR (fullTextAnnotation).
Memberikan anotasi label umum dan kotak pembatas untuk beberapa objek
yang dikenali dalam satu gambar.
Untuk setiap objek yang terdeteksi, elemen berikut akan ditampilkan: deskripsi
tekstual, skor keyakinan, dan vertex [0,1] yang dinormalisasi untuk
poligon pembatas di sekitar objek.
Memberikan poligon pembatas untuk gambar yang dipangkas, skor keyakinan, dan fraksi tingkat kepentingan region penting ini sehubungan dengan gambar asli untuk setiap permintaan.
Anda dapat memberikan hingga 16 nilai rasio gambar (lebar:tinggi)
untuk satu gambar.
Memberikan serangkaian konten Web terkait ke gambar.
Menampilkan informasi berikut:
Entity web: Entity yang disimpulkan (label/deskripsi) dari
gambar serupa di Web.
Gambar yang sepenuhnya cocok: Daftar URL untuk gambar yang sepenuhnya cocok
dalam ukuran apa pun di Internet.
Gambar cocok yang sebagian: Daftar URL untuk gambar yang
memiliki fitur titik kunci yang sama, seperti versi gambar asli yang
dipangkas.
Halaman dengan gambar yang cocok: Daftar Halaman Web (diidentifikasi oleh
URL halaman, judul halaman, URL gambar yang cocok) dengan gambar yang memenuhi
kondisi yang dijelaskan di atas.
Gambar yang mirip secara visual: Daftar URL untuk gambar yang memiliki
beberapa fitur dengan gambar asli.
Label perkiraan terbaik: Perkiraan terbaik terkait topik gambar yang diminta
yang disimpulkan dari gambar serupa di Internet.
Menemukan wajah dengan poligon pembatas,
dan mengidentifikasi "titik acuan" wajah tertentu seperti mata, telinga, hidung, mulut,
dll. beserta nilai keyakinan yang sesuai.
Menampilkan rating kemungkinan untuk emosi
(kegembiraan, kesedihan, kemarahan, kejutan) dan properti gambar umum
(underexposed, blur, headwear present).
Rating biasanya dibedakan menjadi
6 nilai berbeda: UNKNOWN, VERY_UNLIKELY,
UNLIKELY, POSSIBLE, LIKELY, or
VERY_LIKELY.
[[["Mudah dipahami","easyToUnderstand","thumb-up"],["Memecahkan masalah saya","solvedMyProblem","thumb-up"],["Lainnya","otherUp","thumb-up"]],[["Hard to understand","hardToUnderstand","thumb-down"],["Incorrect information or sample code","incorrectInformationOrSampleCode","thumb-down"],["Missing the information/samples I need","missingTheInformationSamplesINeed","thumb-down"],["Masalah terjemahan","translationIssue","thumb-down"],["Lainnya","otherDown","thumb-down"]],["Terakhir diperbarui pada 2024-11-27 UTC."],[],[]]