Coba Gemini 3, model terbaik kami untuk penalaran, coding, dan pemahaman multimodal di Platform Agen Gemini Enterprise

Vision AI

Ekstrak insight dari gambar, dokumen, dan video

Akses model visi tingkat lanjut melalui API untuk mengotomatiskan tugas visi, menyederhanakan analisis, dan mendapatkan hasil analisis yang bisa ditindaklanjuti. Atau bangun aplikasi kustom dengan pelatihan model no-code dan biaya rendah di lingkungan terkelola.

Pelanggan baru akan mendapatkan kredit gratis senilai hingga $300 untuk mencoba Vision AI dan produk Google Cloud lainnya.

Anda juga dapat mencoba men-deploy solusi peringkasan dokumen dan pemrosesan gambar AI/ML yang direkomendasikan Google.

Ringkasan

Apa itu computer vision?

Computer vision adalah bidang kecerdasan buatan (AI) yang memungkinkan komputer dan sistem menafsirkan dan menganalisis data visual serta memperoleh informasi yang berarti dari gambar digital, video, dan input visual lainnya. Beberapa penerapan umum solusi ini di dunia termasuk: deteksi objek, pemrosesan konten visual (gambar, dokumen, video), pemahaman dan analisis, penelusuran produk, penelusuran dan klasifikasi gambar, serta moderasi konten.

AI generatif multimodal canggih

Gemini Enterprise Agent Platform Google Cloud menawarkan akses ke Gemini, yakni model multimodal canggih yang mampu memahami hampir semua jenis input, menggabungkan berbagai jenis informasi, dan menghasilkan hampir semua jenis output.

AI generatif yang berfokus pada Vision

Imagen di Agent Platform menghadirkan kemampuan AI generatif gambar paling canggih dari Google kepada developer aplikasi melalui API. Beberapa fitur utamanya mencakup pembuatan gambar dengan perintah teks, pengeditan gambar dengan perintah teks, mendeskripsikan gambar dalam teks, dan penyesuaian model subjek.

Vision AI yang Siap Digunakan

Didukung oleh model ML computer vision terlatih, Cloud Vision API adalah API (REST dan RPC) yang siap digunakan dan memungkinkan developer mengintegrasikan fitur deteksi penglihatan umum dengan mudah dalam aplikasi, termasuk pelabelan gambar, deteksi wajah dan struktur, pengenalan karakter optik (OCR), dan pemberian tag konten vulgar.

Setiap fitur yang Anda terapkan ke gambar adalah unit yang dapat ditagih. Dengan Cloud Vision API, Anda dapat menggunakan 1.000 unit fiturnya secara gratis setiap bulannya. Lihat detail harga

Pemahaman dokumen AI generatif

Document AI adalah platform pemahaman dokumen yang menggabungkan computer vision dan teknologi lain seperti natural language processing untuk mengekstrak teks dan data dari dokumen yang dipindai, mengubah data tidak terstruktur menjadi informasi terstruktur dan insight bisnis.

Solusi ini menawarkan berbagai pemroses terlatih yang dioptimalkan untuk berbagai jenis dokumen. Solusi ini juga mempermudah pembuatan pemroses kustom untuk mengklasifikasikan, membagi, dan mengekstrak data terstruktur dari dokumen melalui Document AI Workbench.

pembicara di samping judul video: Document AI - masa depan dokumen

Pengantar Document AI

4:37

Vision AI yang siap digunakan untuk video

Dengan teknologi computer vision sebagai intinya, Video Intelligence API adalah cara mudah untuk memproses, menganalisis, dan memahami konten video.

Model ML-nya yang terlatih akan otomatis mengenali aneka jenis objek, tempat, dan tindakan dalam video yang disimpan maupun video streaming, dengan kualitas luar biasa. Solusi ini sangat efisien untuk kasus penggunaan umum seperti moderasi dan rekomendasi konten, arsip media, dan iklan kontekstual. Anda juga dapat melatih model ML kustom dengan Agent Platform Vision untuk kebutuhan spesifik Anda.

judul video "menggunakan ML untuk membuat arsip video" di atas kolase foto keluarga

Demo: Cara menggunakan Video Intelligence API untuk membuat arsip video yang dapat ditelusuri

6:21

Privasi dan keamanan data

Google Cloud memiliki kemampuan terdepan di industri yang memberi Anda—pelanggan kami—kontrol atas data Anda serta memberikan visibilitas tentang waktu dan cara data Anda diakses.

Sebagai pelanggan Google Cloud, Anda adalah pemilik data pelanggan Anda. Kami menerapkan langkah-langkah keamanan yang ketat untuk mengamankan data pelanggan serta memberi Anda alat dan fitur untuk mengontrolnya sesuai keinginan Anda. Data pelanggan adalah data Anda, bukan data Google. Kami hanya memproses data Anda sesuai dengan perjanjian Anda.

Pelajari lebih lanjut di Privacy Resource Center.

Membandingkan produk computer vision

Penawaran	Ideal untuk	Fitur utama
Cloud Vision API	Integrasi fitur visi dasar yang cepat dan mudah.	Fitur bawaan seperti pelabelan gambar, deteksi wajah dan tempat terkenal, OCR, dan penelusuran aman. Hemat biaya, bayar per penggunaan.
Document AI	Mengekstrak insight dari dokumen dan gambar yang dipindai, sehingga mengotomatiskan alur kerja dokumen.	OCR (didukung oleh AI Generatif), NLP, ML untuk pemahaman dokumen, ekstraksi teks, identifikasi entity, kategorisasi dokumen.
Video Intelligence API	Menganalisis konten video, moderasi dan rekomendasi konten, arsip media, dan iklan kontekstual.	Deteksi dan pelacakan objek, pemahaman scene, pengenalan aktivitas, deteksi dan analisis wajah, deteksi dan pengenalan teks.
Imagen di Gemini Enterprise Agent Platform	Mendapatkan deskripsi gambar otomatis. Penelusuran dan klasifikasi gambar. Moderasi dan rekomendasi konten.	Pembuatan gambar, pengeditan gambar, visual captioning, dan embedding multimodal. Lihat daftar lengkap fitur dan tahap peluncurannya.

Karena dioptimalkan untuk berbagai tujuan, produk ini memungkinkan Anda memanfaatkan model ML terlatih dan memulai dengan cepat dan efektif, serta dapat melakukan penyesuaian dengan mudah.

Cloud Vision API

Ideal untuk

Integrasi fitur visi dasar yang cepat dan mudah.

Fitur utama

Fitur bawaan seperti pelabelan gambar, deteksi wajah dan tempat terkenal, OCR, dan penelusuran aman.

Hemat biaya, bayar per penggunaan.

Document AI

Ideal untuk

Mengekstrak insight dari dokumen dan gambar yang dipindai, sehingga mengotomatiskan alur kerja dokumen.

Fitur utama

OCR (didukung oleh AI Generatif), NLP, ML untuk pemahaman dokumen, ekstraksi teks, identifikasi entity, kategorisasi dokumen.

Video Intelligence API

Ideal untuk

Menganalisis konten video, moderasi dan rekomendasi konten, arsip media, dan iklan kontekstual.

Fitur utama

Deteksi dan pelacakan objek, pemahaman scene, pengenalan aktivitas, deteksi dan analisis wajah, deteksi dan pengenalan teks.

Imagen di Gemini Enterprise Agent Platform

Ideal untuk

Mendapatkan deskripsi gambar otomatis.

Penelusuran dan klasifikasi gambar.

Moderasi dan rekomendasi konten.

Fitur utama

Pembuatan gambar, pengeditan gambar, visual captioning, dan embedding multimodal.

Lihat daftar lengkap fitur dan tahap peluncurannya.

Karena dioptimalkan untuk berbagai tujuan, produk ini memungkinkan Anda memanfaatkan model ML terlatih dan memulai dengan cepat dan efektif, serta dapat melakukan penyesuaian dengan mudah.

Cara Kerjanya

Rangkaian alat Vision AI Google Cloud menggabungkan computer vision dengan teknologi lain untuk memahami dan menganalisis video serta mengintegrasikan fitur deteksi visi dalam aplikasi dengan mudah, termasuk pelabelan gambar, deteksi wajah dan struktur, pengenalan karakter optik (OCR), dan pemberian tag konten vulgar.
Alat-alat ini tersedia melalui API dan tetap dapat disesuaikan untuk kebutuhan tertentu.

Cara kerja computer vision

Demo

Melihat cara kerja computer vision dengan file yang Anda miliki

Penggunaan Umum

Mendeteksi teks dalam file mentah dan membuat ringkasan secara otomatis

Meringkas dokumen besar dengan AI generatif

Solusi yang digambarkan dalam diagram arsitektur di sebelah kanan men-deploy pipeline yang dipicu saat Anda menambahkan dokumen PDF baru ke bucket Cloud Storage. Pipeline mengekstrak teks dari dokumen Anda, membuat ringkasan dari teks yang diekstrak, dan menyimpan ringkasan tersebut dalam database untuk Anda lihat dan telusuri.

Anda dapat memanggil aplikasi dengan mengupload file melalui Jupyter Notebook, atau langsung ke Cloud Storage di konsol Google Cloud.

Arsitektur referensi: peringkasan dokumen menggunakan AI generatif

Perkiraan waktu deployment: 11 menit (1 menit untuk mengonfigurasi, 10 menit untuk men-deploy).

Petunjuk

Meringkas dokumen besar dengan AI generatif

Solusi yang digambarkan dalam diagram arsitektur di sebelah kanan men-deploy pipeline yang dipicu saat Anda menambahkan dokumen PDF baru ke bucket Cloud Storage. Pipeline mengekstrak teks dari dokumen Anda, membuat ringkasan dari teks yang diekstrak, dan menyimpan ringkasan tersebut dalam database untuk Anda lihat dan telusuri.

Anda dapat memanggil aplikasi dengan mengupload file melalui Jupyter Notebook, atau langsung ke Cloud Storage di konsol Google Cloud.

Arsitektur referensi: peringkasan dokumen menggunakan AI generatif

Perkiraan waktu deployment: 11 menit (1 menit untuk mengonfigurasi, 10 menit untuk men-deploy).

Membangun pipeline pemrosesan gambar

Pemrosesan gambar yang skalabel pada arsitektur serverless

Solusi yang digambarkan dalam diagram di sebelah kanan, menggunakan model machine learning yang telah dilatih sebelumnya untuk menganalisis gambar yang disediakan pengguna dan menghasilkan anotasi gambar. Men-deploy solusi ini akan membuat layanan pemrosesan gambar yang dapat membantu Anda menangani konten buatan pengguna yang tidak aman atau berbahaya, mendigitalkan teks dari dokumen fisik, mendeteksi dan mengklasifikasikan objek dalam gambar, dan banyak lagi.

Anda akan dapat meninjau setelan konfigurasi dan keamanan untuk memahami cara menyesuaikan layanan pemrosesan gambar dengan berbagai kebutuhan.

arsitektur referensi - pipeline pemrosesan gambar

Perkiraan waktu deployment: 12 menit (2 menit untuk mengonfigurasi, 10 menit untuk men-deploy).

Petunjuk

Pemrosesan gambar yang skalabel pada arsitektur serverless

Solusi yang digambarkan dalam diagram di sebelah kanan, menggunakan model machine learning yang telah dilatih sebelumnya untuk menganalisis gambar yang disediakan pengguna dan menghasilkan anotasi gambar. Men-deploy solusi ini akan membuat layanan pemrosesan gambar yang dapat membantu Anda menangani konten buatan pengguna yang tidak aman atau berbahaya, mendigitalkan teks dari dokumen fisik, mendeteksi dan mengklasifikasikan objek dalam gambar, dan banyak lagi.

Anda akan dapat meninjau setelan konfigurasi dan keamanan untuk memahami cara menyesuaikan layanan pemrosesan gambar dengan berbagai kebutuhan.

Perkiraan waktu deployment: 12 menit (2 menit untuk mengonfigurasi, 10 menit untuk men-deploy).

Mendapatkan deskripsi gambar otomatis dengan AI generatif

Fitur Visual Captioning di Imagen memungkinkan Anda membuat deskripsi yang relevan untuk gambar. Anda dapat menggunakannya untuk mendapatkan metadata yang lebih mendetail tentang gambar untuk disimpan dan ditelusuri, untuk membuat teks otomatis guna mendukung kasus penggunaan aksesibilitas, dan mendapatkan deskripsi singkat tentang produk dan aset visual.

Fitur ini tersedia dalam bahasa Inggris, Prancis, Jerman, Italia, dan Spanyol, dan dapat diakses di Konsol Google Cloud, atau melalui panggilan API.

Petunjuk

Fitur Visual Captioning di Imagen memungkinkan Anda membuat deskripsi yang relevan untuk gambar. Anda dapat menggunakannya untuk mendapatkan metadata yang lebih mendetail tentang gambar untuk disimpan dan ditelusuri, untuk membuat teks otomatis guna mendukung kasus penggunaan aksesibilitas, dan mendapatkan deskripsi singkat tentang produk dan aset visual.

Fitur ini tersedia dalam bahasa Inggris, Prancis, Jerman, Italia, dan Spanyol, dan dapat diakses di Konsol Google Cloud, atau melalui panggilan API.

Mengekstrak teks dan insight dari dokumen dengan AI generatif

Mendapatkan insight dari dokumen yang beragam dengan Document AI

Dengan dukungan model dasar, Document AI Custom Extractor dapat mengekstrak teks dan data dari dokumen generik dan khusus domain, secara lebih cepat dan dengan akurasi yang lebih tinggi. Sesuaikan dengan mudah hanya dengan 5-10 dokumen untuk mendapatkan performa yang lebih baik.

Jika Anda ingin melatih model sendiri, beri label otomatis pada set data dengan model dasar untuk mempercepat waktu produksi.

Anda juga dapat memilih untuk menggunakan pemroses khusus terlatih—lihat daftar lengkap pemroses.

Petunjuk

Mendapatkan insight dari dokumen yang beragam dengan Document AI

Dengan dukungan model dasar, Document AI Custom Extractor dapat mengekstrak teks dan data dari dokumen generik dan khusus domain, secara lebih cepat dan dengan akurasi yang lebih tinggi. Sesuaikan dengan mudah hanya dengan 5-10 dokumen untuk mendapatkan performa yang lebih baik.

Jika Anda ingin melatih model sendiri, beri label otomatis pada set data dengan model dasar untuk mempercepat waktu produksi.

Anda juga dapat memilih untuk menggunakan pemroses khusus terlatih—lihat daftar lengkap pemroses.

Harga

Mekanisme penetapan harga Vision AI	Setiap penawaran visi memiliki serangkaian fitur atau prosesor, yang memiliki harga berbeda. Lihat halaman rincian harga untuk mengetahui detailnya.
Paket gratis	Produk/Layanan	Harga diskon	Detail
Vision API	1.000 unit pertama setiap bulan gratis	5.000.001+ unit per bulan	Halaman harga mendetail
Document AI	T/A Harga bergantung pada prosesor.	5.000.001+ halaman per bulan untuk Pemroses Enterprise Document OCR	Halaman harga mendetail
Video Intelligence API	1.000 menit pertama per bulan gratis	100.000+ menit per bulan	Halaman harga mendetail
Imagen—embedding multimodal			US$0,0001 per input gambar
Imagen—visual captioning			US$0,0015 per gambar
Gemini Pro Vision			Halaman harga mendetail

Mekanisme penetapan harga Vision AI

Setiap penawaran visi memiliki serangkaian fitur atau prosesor, yang memiliki harga berbeda. Lihat halaman rincian harga untuk mengetahui detailnya.

Vision API

Produk/Layanan

1.000 unit pertama

setiap bulan gratis

Harga diskon

5.000.001+ unit

per bulan

Detail

Halaman harga mendetail

Document AI

Produk/Layanan

T/A

Harga bergantung pada prosesor.

Harga diskon

5.000.001+ halaman

per bulan untuk Pemroses Enterprise Document OCR

Detail

Halaman harga mendetail

Video Intelligence API

Produk/Layanan

1.000 menit pertama

per bulan gratis

Harga diskon

100.000+ menit

per bulan

Detail

Halaman harga mendetail

Imagen—embedding multimodal

Produk/Layanan

Harga diskon

Detail

US$0,0001

per input gambar

Imagen—visual captioning

Produk/Layanan

Harga diskon

Detail

US$0,0015

per gambar

Gemini Pro Vision

Produk/Layanan

Harga diskon

Detail

Halaman harga mendetail

KALKULATOR HARGA

Perkirakan biaya project Anda dengan mengumpulkan semua alat yang Anda perlukan di satu tempat.

PENAWARAN HARGA KUSTOM

Hubungi tim penjualan kami untuk mendapatkan penawaran harga khusus yang sesuai dengan kebutuhan unik organisasi Anda.

Vision AI

Ekstrak insight dari gambar, dokumen, dan video

Sorotan

Apa itu computer vision?

AI generatif multimodal canggih

AI generatif yang berfokus pada Vision

Vision AI yang Siap Digunakan

Pemahaman dokumen AI generatif

Vision AI yang siap digunakan untuk video

Privasi dan keamanan data

Melihat cara kerja computer vision dengan file yang Anda miliki

Mendeteksi teks dalam file mentah dan membuat ringkasan secara otomatis

Meringkas dokumen besar dengan AI generatif

Petunjuk

Meringkas dokumen besar dengan AI generatif

Membangun pipeline pemrosesan gambar

Pemrosesan gambar yang skalabel pada arsitektur serverless

Petunjuk

Pemrosesan gambar yang skalabel pada arsitektur serverless

Mendapatkan deskripsi gambar otomatis dengan AI generatif

Petunjuk

Mengekstrak teks dan insight dari dokumen dengan AI generatif

Mendapatkan insight dari dokumen yang beragam dengan Document AI

Petunjuk

Mendapatkan insight dari dokumen yang beragam dengan Document AI

KALKULATOR HARGA

PENAWARAN HARGA KUSTOM

Mulai bukti konsep Anda

Pelanggan baru akan mendapatkan kredit gratis senilai hingga $300 untuk mencoba Vision AI dan produk Google Cloud lainnya

Gratis 1.000 halaman setiap bulan dengan Document OCR

Pelajari cara melakukan streaming video live dengan Video Intelligence API

Pelajari cara membangun aplikasi detektor objek di Gemini Enterprise Agent Platform

Dapatkan contoh kode untuk Vision API