Coba Gemini 1.5 Pro, model multimodal kami yang paling canggih di Vertex AI, dan lihat apa yang dapat Anda bangun dengan jendela konteks token 1 juta.Coba Gemini 1.5 Pro, model multimodal kami yang paling canggih di Vertex AI, dan lihat apa yang dapat Anda bangun dengan jendela konteks token 1 juta.
Pengenalan karakter optik (OCR) untuk gambar; pengenalan dan konversi teks ke teks berkode mesin. Mengidentifikasi dan mengekstrak teks UTF-8 dalam
gambar.
Gambar: Dioptimalkan untuk sparsearea teks dalam
gambar yang lebih besar.
Response: Menampilkan daftar kata yang diidentifikasi dengan teks,
kotak pembatas, dan textAnnotations, serta struktur
hierarki untuk teks yang terdeteksi
OCR (fullTextAnnotation).
Menyediakan anotasi label dan kotak pembatas umum untuk beberapa objek yang dikenali dalam satu gambar.
Untuk setiap objek yang terdeteksi, elemen berikut ditampilkan: deskripsi tekstual, skor keyakinan, dan verteks yang dinormalisasi [0,1] untuk poligon pembatas di sekitar objek.
Memberikan poligon pembatas untuk gambar yang dipangkas, skor keyakinan,
dan fraksi kepentingan wilayah penting ini sehubungan dengan
gambar asli untuk setiap permintaan.
Anda dapat memberikan hingga 16 nilai rasio gambar (width:height) untuk satu gambar.
Menyediakan serangkaian konten Web yang terkait ke sebuah gambar.
Menampilkan informasi berikut:
Entity web: Entitas yang disimpulkan (label/deskripsi) dari
gambar yang serupa di Web.
Gambar yang cocok sepenuhnya: Daftar URL untuk gambar yang cocok sepenuhnya
dengan segala ukuran di Internet.
Gambar yang cocok sebagian: Daftar URL untuk gambar yang
memiliki fitur key-point yang sama, seperti versi gambar asli
yang dipangkas.
Halaman dengan gambar yang cocok: Daftar Halaman (yang diidentifikasi berdasarkan
URL halaman, judul halaman, URL gambar yang cocok) dengan gambar yang memenuhi
kondisi yang dijelaskan di atas.
Gambar yang mirip secara visual: Daftar URL untuk gambar yang memiliki
beberapa fitur yang sama dengan gambar asli.
Label tebakan terbaik: Terkaan terbaik untuk topik gambar yang diminta
yang disimpulkan dari gambar serupa di internet.
Menemukan wajah dengan poligon pembatas, dan mengidentifikasi "landmark" wajah tertentu seperti mata, telinga, hidung, mulut, dll. beserta nilai keyakinannya yang sesuai.
Menampilkan rating kemungkinan untuk emosi
(kegembiraan, kesedihan, kemarahan, kejutan) dan properti gambar umum
(kurang terang, buram, ada aksesori kepala).
Rating biasanya dibedakan menjadi
6 nilai berbeda: UNKNOWN, VERY_UNLIKELY,
UNLIKELY, POSSIBLE, LIKELY, or
VERY_LIKELY.
[[["Mudah dipahami","easyToUnderstand","thumb-up"],["Memecahkan masalah saya","solvedMyProblem","thumb-up"],["Lainnya","otherUp","thumb-up"]],[["Hard to understand","hardToUnderstand","thumb-down"],["Incorrect information or sample code","incorrectInformationOrSampleCode","thumb-down"],["Missing the information/samples I need","missingTheInformationSamplesINeed","thumb-down"],["Masalah terjemahan","translationIssue","thumb-down"],["Lainnya","otherDown","thumb-down"]],["Terakhir diperbarui pada 2024-01-06 UTC."],[],[]]