Coba Gemini 1.5 Pro, model multimodal kami yang paling canggih di Vertex AI, dan lihat apa yang dapat Anda bangun dengan jendela konteks token 1 juta. Coba Gemini 1.5 Pro, model multimodal kami yang paling canggih di Vertex AI, dan lihat apa yang dapat Anda bangun dengan jendela konteks token 1 juta.

Daftar fitur

Vision API saat ini memungkinkan Anda menggunakan fitur berikut:

Semua jenis fitur
Deteksi teks	Pengenalan karakter optik (OCR) untuk gambar; pengenalan dan konversi teks ke teks berkode mesin. Mengidentifikasi dan mengekstrak teks UTF-8 dalam gambar. Gambar: Dioptimalkan untuk sparsearea teks dalam gambar yang lebih besar. Response: Menampilkan daftar kata yang diidentifikasi dengan teks, kotak pembatas, dan `textAnnotations`, serta struktur hierarki untuk teks yang terdeteksi OCR (`fullTextAnnotation`). Hierarki struktur teks yang diekstrak: TextAnnotation -> Halaman -> Blok -> Paragraf -> Kata -> Simbol. Setiap komponen struktural dari Halaman dapat memiliki propertinya sendiri seperti bahasa yang terdeteksi, jeda, dll. Bahasa yang didukung: Berfungsi dengan bahasa yang saat ini didukung, dipetakan, dan eksperimental bahasa Nilai fitur enum: `TEXT_DETECTION`.
Deteksi teks dokumen (teks padat / tulisan tangan)	Pengenalan karakter optik (OCR) untuk file (PDF/TIFF) atau gambar teks padat; pengenalan teks padat dan konversi menjadi teks berkode mesin. File: Dioptimalkan untuk file dokumen (PDF/TIFF). Gambar: Dioptimalkan untuk area teks yang *padat* pada gambar (gambar yang merupakan dokumen), dan gambar yang berisi tulisan tangan. Response: Menampilkan hierarki struktural untuk teks yang terdeteksi OCR (`fullTextAnnotation`). Hierarki struktur teks yang diekstrak: TextAnnotation -> Halaman -> Blok -> Paragraf -> Kata -> Simbol. Setiap komponen struktural dari Halaman dapat memiliki propertinya sendiri seperti bahasa yang terdeteksi, jeda, dll. Bahasa yang didukung: Berfungsi dengan bahasa yang saat ini didukung, dipetakan, dan eksperimental bahasa Nilai fitur enum: `DOCUMENT_TEXT_DETECTION`. Diprioritaskan saat `DOCUMENT_TEXT_DETECTION` dan `TEXT_DETECTION` diminta. Jika Anda mendeteksi teks dalam dokumen yang dipindai, coba Document AI untuk pengenalan karakter optik, penguraian formulir terstruktur, dan ekstraksi entitas. Anda dapat menggunakan Toolbox Document AI untuk mengonversi output dari format Document AI ke format Cloud Vision.
Deteksi tempat terkenal ¹	Memberikan nama tempat terkenal, skor keyakinan, dan kotak pembatas pada gambar untuk tempat terkenal tersebut. Memberikan koordinat untuk entitas yang terdeteksi.
Pendeteksian logo ²	Memberikan deskripsi tekstual dari entitas yang diidentifikasi, skor keyakinan, dan poligon pembatas untuk logo dalam file.
Deteksi label ³	Menyediakan label umum untuk gambar. Untuk setiap label, akan ditampilkan deskripsi tekstual, skor keyakinan, dan rating topik.
Properti gambar ⁴	Menampilkan warna dominan dalam gambar. Setiap warna direpresentasikan dalam ruang warna RGBA, memiliki skor keyakinan, dan menampilkan fraksi piksel yang ditempati oleh warna [0, 1].
Pelokalan objek ⁵	Menyediakan anotasi label dan kotak pembatas umum untuk beberapa objek yang dikenali dalam satu gambar. Untuk setiap objek yang terdeteksi, elemen berikut ditampilkan: deskripsi tekstual, skor keyakinan, dan verteks yang dinormalisasi [0,1] untuk poligon pembatas di sekitar objek. Perlu deteksi objek yang disesuaikan? Dengan AutoML Vision Object Detection, Anda dapat membuat model machine learning kustom untuk kasus penggunaan deteksi objek gambar tertentu.
Deteksi petunjuk pemangkasan ⁶	Memberikan poligon pembatas untuk gambar yang dipangkas, skor keyakinan, dan fraksi kepentingan wilayah penting ini sehubungan dengan gambar asli untuk setiap permintaan. Anda dapat memberikan hingga 16 nilai rasio gambar (width:height) untuk satu gambar.
Entity dan halaman web ⁷	Menyediakan serangkaian konten Web yang terkait ke sebuah gambar. Menampilkan informasi berikut: Entity web: Entitas yang disimpulkan (label/deskripsi) dari gambar yang serupa di Web. Gambar yang cocok sepenuhnya: Daftar URL untuk gambar yang cocok sepenuhnya dengan segala ukuran di Internet. Gambar yang cocok sebagian: Daftar URL untuk gambar yang memiliki fitur key-point yang sama, seperti versi gambar asli yang dipangkas. Halaman dengan gambar yang cocok: Daftar Halaman (yang diidentifikasi berdasarkan URL halaman, judul halaman, URL gambar yang cocok) dengan gambar yang memenuhi kondisi yang dijelaskan di atas. Gambar yang mirip secara visual: Daftar URL untuk gambar yang memiliki beberapa fitur yang sama dengan gambar asli. Label tebakan terbaik: Terkaan terbaik untuk topik gambar yang diminta yang disimpulkan dari gambar serupa di internet.
Deteksi konten vulgar (SafeSearch)	Memberikan rating kemungkinan untuk kategori konten vulgar berikut: `adult`, `spoof`, `medical`, `violence`, dan `racy`. Rating kemungkinan dinyatakan sebagai 6 nilai yang berbeda: `UNKNOWN`, `VERY_UNLIKELY`, `UNLIKELY`, `POSSIBLE`, `LIKELY`, atau `VERY_LIKELY`.
Deteksi wajah	Menemukan wajah dengan poligon pembatas, dan mengidentifikasi "landmark" wajah tertentu seperti mata, telinga, hidung, mulut, dll. beserta nilai keyakinannya yang sesuai. Menampilkan rating kemungkinan untuk emosi (kegembiraan, kesedihan, kemarahan, kejutan) dan properti gambar umum (kurang terang, buram, ada aksesori kepala). Rating biasanya dibedakan menjadi 6 nilai berbeda: `UNKNOWN`, `VERY_UNLIKELY`, `UNLIKELY`, `POSSIBLE`, `LIKELY`, or `VERY_LIKELY`. Pengenalan Wajah individu tertentu tidak didukung.

^{1.
Kredit gambar:
Nikolay Vorobyev di
Unsplash (anotasi ditambahkan).
↩}

^{2.
Kredit gambar: Robert Scoble (CC BY 2.0, anotasi ditambahkan).
↩}

^{3.
Kredit gambar:
Alex Knight di Unsplash.
↩}

^{4.
Kredit gambar:
Jeremy Bishop di Unsplash.
↩}

^{5.
Kredit gambar:
Bogdan Dada di Unsplash
(anotasi ditambahkan).
↩}

^{6.
Kredit gambar:

Yasmin Dangor di Unsplash (gambar asli dan yang dipangkas ditampilkan).
↩}

^{7.
Kredit gambar:
Quinten de Graaf di
Unsplash.
↩}