Optical Character Recognition (OCR) is a foundational technology behind the conversion of typed, handwritten or printed text from images into machine-encoded text.

What types of OCR does Google Cloud offer?

Google Cloud offers two types of OCR: OCR for documents and OCR for images and videos. Document AI is a document understanding platform optimized for document processing (powered by GenAI). Cloud Vision is commonly used to detect text, handwriting, and a wide range of objects from images and videos.

How does OCR work at Google Cloud?

Google Cloud powers OCR with best-in-class AI. It goes beyond traditional text recognition by understanding, organizing, and enriching data to generate business-ready insights. You can use the tools as a unified suite (e.g., Document AI) or call relevant APIs directly.

How Google Cloud AI and OCR work together?

All OCR solutions give you access to pre-trained ML models that you can deploy immediately or uptrain for specific needs. You can also train custom models using AutoML without needing machine learning expertise.

Which OCR solution is right for me?

If you want to analyze a document or build a processing pipeline, use Document AI. If you want to analyze and process images, use Cloud Vision. Both APIs are free to try with a Google Cloud account.

Coba Gemini 3, model terbaik kami untuk penalaran, coding, dan pemahaman multimodal di Gemini Enterprise Agent Platform

OCR (Pengenalan Karakter Optik)

OCR (Pengenalan Karakter Optik) dengan Google Cloud AI kelas dunia

Ekstrak teks dan data dari gambar dan dokumen, ubah konten tidak terstruktur menjadi data terstruktur yang siap untuk penggunaan bisnis, serta dapatkan insight berharga.

Integrasikan fungsionalitas OCR ke dalam aplikasi Anda melalui API.

Pelanggan baru mendapatkan kredit gratis senilai $300 saat mendaftar untuk digunakan pada solusi OCR peringkasan dokumen.

Ringkasan

Apa itu OCR?

Pengenalan Karakter Optik (OCR) adalah teknologi dasar yang melandasi konversi teks ketik, tulisan tangan, atau cetak dari gambar menjadi teks yang dienkode mesin.

Jenis OCR apa saja yang ditawarkan Google Cloud?

Google Cloud menawarkan dua jenis OCR: OCR untuk dokumen dan OCR untuk gambar dan video.

Meskipun mereka menggunakan teknologi dasar yang sama, Document AI adalah platform pemahaman dokumen yang dioptimalkan untuk pemrosesan dokumen. Ekstraktor Kustomnya didukung oleh GenAI yang memproses dokumen umum dan khusus domain dengan akurasi yang lebih tinggi dan lebih cepat, tanpa perlu memilih pemroses khusus.

Cloud Vision, biasanya digunakan untuk mendeteksi teks, tulisan tangan, dan berbagai objek dari gambar dan video.

Bagaimana cara kerja OCR di Google Cloud?

Google Cloud mendukung OCR dengan AI terbaik di kelasnya. Alih-alih sekadar mengenali teks, teknologi ini memahami, mengatur, dan memperkaya data sehingga menghasilkan insight yang siap untuk penggunaan bisnis.

Anda memiliki fleksibilitas untuk memilih antara menggunakan alat-alat OCR sebagai suite terpadu untuk memperoleh efisiensi yang disederhanakan (misalnya Document AI), atau memanggil API relevan yang tersedia langsung di konsol Google Cloud untuk mengintegrasikan fungsionalitas OCR ke dalam aplikasi Anda.

gambar yang menunjukkan fungsionalitas document ai

VIDEO

Apa itu Document AI?

4:36

Bagaimana Google Cloud AI dan OCR bekerja sama?

Semua solusi OCR yang disebutkan di atas memberi Anda akses ke model ML terlatih yang dapat langsung di-deploy melalui API atau di-uptrain untuk meningkatkan akurasinya demi kebutuhan spesifik Anda.

Anda juga dapat melatih model kustom dengan AutoML, tanpa perlu keahlian machine learning.

Baca dokumentasi AutoML tentang cara membangun model ML kustom.

VIDEO

Kapan dan bagaimana membangun serta melatih model ML dengan AutoML

2:11

Solusi OCR manakah yang cocok untuk saya?

Jika Anda ingin menganalisis dokumen atau membangun pipeline pemrosesan dokumen otomatis, gunakan Document AI. Solusi ini menangani seluruh alur kerja, mulai dari memahami dokumen hingga menelusuri, menyimpan, menata, dan mengelola dokumen bersama dengan data yang telah diekstrak, semuanya di satu tempat.

Jika Anda ingin menganalisis dan memproses gambar, gunakan Cloud Vision bersama produk Google Cloud lainnya untuk mendapatkan hasil terbaik. Lihat bagian Penggunaan Umum untuk membaca detail dan panduan memulainya.

Kedua API di atas dapat dicoba secara gratis dengan akun Google Cloud.

Membandingkan penawaran OCR

Penawaran OCR		Ideal untuk	Fitur utama
Cloud Vision API		Kasus penggunaan ekstraksi teks umum yang memerlukan latensi rendah dan kapasitas tinggi.	Fitur bawaan seperti pelabelan gambar, deteksi wajah & tempat terkenal, OCR, penelusuran aman.
Document AI	Enterprise Document OCR	Mendigitalkan teks dari dokumen (PDF, dokumen yang dipindai sebagai gambar, atau file Microsoft DocX).	Mengekstrak teks dalam 200+ bahasa dan 50 bahasa tulis tangan. Add-on untuk mengenali formula matematika, gaya, dll.
	Workbench Document AI	Mengekstrak, mengklasifikasikan, dan memisahkan dokumen apa pun dengan AI generatif (model dasar)	Pengekstrak Kustom: menggunakan model dasar untuk membuat parser dengan cepat tanpa pelatihan atau pelabelan data yang ekstensif. Pengklasifikasi kustom dan pemisah dokumen untuk pemrosesan yang efisien.
	Model terlatih	Ekstraksi teks dan kolom dari dokumen khusus domain.	Ekstraksi teks dan digitalisasi di berbagai dokumen pengadaan, pinjaman, identitas dan kontrak.

Cloud Vision API

Ideal untuk

Kasus penggunaan ekstraksi teks umum yang memerlukan latensi rendah dan kapasitas tinggi.

Fitur utama

Fitur bawaan seperti pelabelan gambar, deteksi wajah & tempat terkenal, OCR, penelusuran aman.

Document AI

Enterprise Document OCR

Ideal untuk

Mendigitalkan teks dari dokumen (PDF, dokumen yang dipindai sebagai gambar, atau file Microsoft DocX).

Fitur utama

Mengekstrak teks dalam 200+ bahasa dan 50 bahasa tulis tangan.

Add-on untuk mengenali formula matematika, gaya, dll.

Workbench Document AI

Ideal untuk

Mengekstrak, mengklasifikasikan, dan memisahkan dokumen apa pun dengan AI generatif (model dasar)

Fitur utama

Pengekstrak Kustom: menggunakan model dasar untuk membuat parser dengan cepat tanpa pelatihan atau pelabelan data yang ekstensif.

Pengklasifikasi kustom dan pemisah dokumen untuk pemrosesan yang efisien.

Model terlatih

Ideal untuk

Ekstraksi teks dan kolom dari dokumen khusus domain.

Fitur utama

Ekstraksi teks dan digitalisasi di berbagai dokumen pengadaan, pinjaman, identitas dan kontrak.

Cara Kerjanya

Untuk memahami dan memproses dokumen, gunakan Document AI.
Untuk gambar, kami merekomendasikan Cloud Vision.
Keduanya memberi Anda akses ke model ML terlatih yang dapat di-deploy apa adanya melalui API atau di-uptrain. Anda juga dapat melatih model kustom dari awal dengan AutoML, tanpa perlu keahlian ML.
Gratis 1.000 unit pertama setiap bulan bagi pengguna Cloud Vision atau Document OCR. Cobalah dengan panggilan API sederhana.

gambar yang menunjukkan produk-produk cloud bekerja sama

Cara Cloud Vision mengenali dan mengklasifikasi gambar

Demo

Lihat penggunaan Document OCR dengan dokumen Anda sendiri

Coba Document AI API cukup dengan menarik lalu melepas.

Penggunaan Umum

Mengekstrak teks dari dokumen dengan AI generatif

Mendapatkan insight dari dokumen yang beragam dengan Document AI

Dengan dukungan model dasar, Document AI Custom Extractor dapat mengekstrak teks dan data dari dokumen, generik dan khusus domain, secara lebih cepat dan dengan akurasi yang lebih tinggi. Sesuaikan dengan mudah hanya dengan 5-10 dokumen untuk mendapatkan performa yang lebih baik.

Jika Anda ingin melatih model sendiri, beri label otomatis pada set data dengan model dasar untuk mempercepat waktu produksi.

Anda juga dapat memilih untuk menggunakan pemroses khusus terlatih - lihat daftar lengkap pemroses.

Dua pembicara di samping nama acara: cara OCR dan AI Generatif dapat meningkatkan bisnis Anda

25:47

Petunjuk

Mendapatkan insight dari dokumen yang beragam dengan Document AI

Dengan dukungan model dasar, Document AI Custom Extractor dapat mengekstrak teks dan data dari dokumen, generik dan khusus domain, secara lebih cepat dan dengan akurasi yang lebih tinggi. Sesuaikan dengan mudah hanya dengan 5-10 dokumen untuk mendapatkan performa yang lebih baik.

Jika Anda ingin melatih model sendiri, beri label otomatis pada set data dengan model dasar untuk mempercepat waktu produksi.

Anda juga dapat memilih untuk menggunakan pemroses khusus terlatih - lihat daftar lengkap pemroses.

25:47

Membuat solusi dokumen menyeluruh

Membangun pipeline pemahaman dan pemrosesan dokumen

Dengan dukungan AI Generatif, Document AI memberikan akurasi tinggi dalam mengekstrak data dari dokumen dengan berbagai tata letak dan kualitas. Anda dapat menghubungkannya dengan Cloud Storage agar dokumen tidak terstruktur mematuhi persyaratan tingkat perusahaan. BigQuery membantu memproses batch dan menganalisis data yang diekstrak dengan cara apa pun yang Anda inginkan. Dengan Looker, Anda dapat dengan mudah membuat visualisasi berdasarkan tabel BigQuery. Agent Search di Gemini Enterprise Agent Platform memungkinkan Anda membuat kueri dan menelusuri dokumen di Cloud Storage, baik secara percakapan maupun tradisional.

Arsitektur referensi dari solusi dokumen menyeluruh dengan beberapa produk Google Cloud

Lab Interaktif: Membangun Pipeline Pengambilan Data Secara End-to-End menggunakan Document AI dan Cloud Functions

Diperlukan waktu 60-90 menit untuk menyiapkan seluruh pipeline seperti yang terlihat, sedangkan bagian Document AI memerlukan waktu 10 menit.

Petunjuk

Membangun pipeline pemahaman dan pemrosesan dokumen

Dengan dukungan AI Generatif, Document AI memberikan akurasi tinggi dalam mengekstrak data dari dokumen dengan berbagai tata letak dan kualitas. Anda dapat menghubungkannya dengan Cloud Storage agar dokumen tidak terstruktur mematuhi persyaratan tingkat perusahaan. BigQuery membantu memproses batch dan menganalisis data yang diekstrak dengan cara apa pun yang Anda inginkan. Dengan Looker, Anda dapat dengan mudah membuat visualisasi berdasarkan tabel BigQuery. Agent Search di Gemini Enterprise Agent Platform memungkinkan Anda membuat kueri dan menelusuri dokumen di Cloud Storage, baik secara percakapan maupun tradisional.

Lab Interaktif: Membangun Pipeline Pengambilan Data Secara End-to-End menggunakan Document AI dan Cloud Functions

Diperlukan waktu 60-90 menit untuk menyiapkan seluruh pipeline seperti yang terlihat, sedangkan bagian Document AI memerlukan waktu 10 menit.

Pemrosesan, penelusuran, dan pemberian tag pada gambar

Menggunakan Cloud Vision API dan AutoML untuk memberi tag dan memproses gambar

Pemberian tag pada gambar disebut juga pelabelan gambar.

Cloud Vision API dapat mengidentifikasi dan melabeli objek umum, tempat terkenal, lokasi, logo, aktivitas, spesies hewan, produk, dan sebagainya yang ada dalam gambar. Setelah gambar diberi tag dengan label yang terdeteksi, penelusuran, pemrosesan, dan pengelolaan gambar akan diotomatiskan dan menjadi lebih mudah.

Jika Anda memerlukan label khusus yang tertarget, gunakan Cloud AutoML untuk melatih model ML kustom.

Untuk menggunakan teknologi OCR Google di lingkungan lokal, gunakan OCR On-Prem yang tersedia di Cloud Marketplace.

diagram arsitektur yang menunjukkan autoML dan Cloud Vision AI bekerja sama dengan produk Google Cloud lain untuk menganalisis gambar

Petunjuk

Menggunakan Cloud Vision API dan AutoML untuk memberi tag dan memproses gambar

Pemberian tag pada gambar disebut juga pelabelan gambar.

Cloud Vision API dapat mengidentifikasi dan melabeli objek umum, tempat terkenal, lokasi, logo, aktivitas, spesies hewan, produk, dan sebagainya yang ada dalam gambar. Setelah gambar diberi tag dengan label yang terdeteksi, penelusuran, pemrosesan, dan pengelolaan gambar akan diotomatiskan dan menjadi lebih mudah.

Jika Anda memerlukan label khusus yang tertarget, gunakan Cloud AutoML untuk melatih model ML kustom.

Untuk menggunakan teknologi OCR Google di lingkungan lokal, gunakan OCR On-Prem yang tersedia di Cloud Marketplace.

Referensi tambahan

Contoh penghitungan harga

Untuk menjalankan pipeline pemrosesan gambar dasar yang mendeteksi label seperti ditunjukkan di sebelah kanan, biaya bulanan Anda adalah $27,36.

Anda dapat memeriksa asumsi penggunaan yang dibuat untuk memperoleh angka ini di kalkulator harga.

Gratis 1.000 unit pertama setiap bulan.

arsitektur referensi Pemrosesan, penelusuran, dan pemberian tag pada gambar

Mengekstrak teks dari gambar

Mengekstrak teks dari gambar dengan Cloud Vision API

Melalui Cloud Vision API, Anda dapat mendeteksi serta mengekstrak teks dan tulisan tangan dari gambar apa pun dalam bermacam bahasa. Produk ini juga memiliki dukungan multi-region sehingga Anda dapat menentukan pemrosesan OCR dan penyimpanan data di tingkat benua.

Anda dapat memilih antara memperoleh hasil segera untuk sejumlah kecil gambar (hingga 16 gambar per permintaan) dan memperoleh hasil belakangan dengan melakukan batch processing terhadap sejumlah besar gambar (hingga 2.000 gambar per permintaan) secara asinkron.

Petunjuk

Mengekstrak teks dari gambar dengan Cloud Vision API

Melalui Cloud Vision API, Anda dapat mendeteksi serta mengekstrak teks dan tulisan tangan dari gambar apa pun dalam bermacam bahasa. Produk ini juga memiliki dukungan multi-region sehingga Anda dapat menentukan pemrosesan OCR dan penyimpanan data di tingkat benua.

Anda dapat memilih antara memperoleh hasil segera untuk sejumlah kecil gambar (hingga 16 gambar per permintaan) dan memperoleh hasil belakangan dengan melakukan batch processing terhadap sejumlah besar gambar (hingga 2.000 gambar per permintaan) secara asinkron.

Referensi tambahan

Contoh penghitungan harga

Untuk menjalankan pipeline pemrosesan dasar yang mengekstrak teks dari gambar seperti ditunjukkan di sebelah kanan, biaya bulanan Anda adalah $27,36.

Anda dapat memeriksa asumsi penggunaan yang dibuat untuk memperoleh angka ini di kalkulator harga.

Gratis 1.000 unit pertama setiap bulan.

Harga

Berapa biaya untuk kasus penggunaan saya?	Pahami biaya bulanan Anda untuk menyelesaikan sebuah kasus penggunaan, beserta produk yang diperlukan dan asumsi penggunaan utama.
Kasus penggunaan	Produk yang digunakan	Asumsi penggunaan	Estimasi biaya bulanan (USD)
Pemrosesan, penelusuran, dan pemberian tag pada gambar	Cloud Vision Cloud Storage Pub/Sub Cloud Run	1. 15.000 panggilan API deteksi label Cloud Vision setiap bulan 2. 100 GiB penyimpanan bulanan 3. Satu CPU 1,25 GiB 4. Empat GiB dipublikasikan setiap hari melalui Pub/Sub Lihat detail penghitungan di kalkulator	$27,36
Mengekstrak teks dan insight dari dokumen	Document AI Cloud Storage BigQuery Cloud Functions	1. 1.000 panggilan API form parser Document AI setiap bulan 2. 100 GiB penyimpanan bulanan 3. 1 TiB kueri bulanan 4. RAM: 512 MB, CPU: 800 MHz Lihat detail penghitungan di kalkulator	$71,87
Mengekstrak teks dari gambar	Cloud Vision Cloud Storage Pub/Sub Cloud Run	1. 15.000 panggilan API OCR Cloud Vision setiap bulan 2. 100 GiB penyimpanan bulanan 3. Satu CPU 1,25 GiB 4. Empat GiB dipublikasikan setiap hari melalui Pub/Sub Lihat detail penghitungan di kalkulator	$27,36

Lihat detail lengkap penghitungan harga unit untuk Document AI, Vision API, dan AutoML.

Berapa biaya untuk kasus penggunaan saya?

Pahami biaya bulanan Anda untuk menyelesaikan sebuah kasus penggunaan, beserta produk yang diperlukan dan asumsi penggunaan utama.

Pemrosesan, penelusuran, dan pemberian tag pada gambar

Produk yang digunakan

Cloud Vision

Cloud Storage

Pub/Sub

Cloud Run

Asumsi penggunaan

1. 15.000 panggilan API deteksi label Cloud Vision setiap bulan

2. 100 GiB penyimpanan bulanan

3. Satu CPU 1,25 GiB

4. Empat GiB dipublikasikan setiap hari melalui Pub/Sub

Lihat detail penghitungan di kalkulator

Estimasi biaya bulanan (USD)

$27,36

Mengekstrak teks dan insight dari dokumen

Produk yang digunakan

Document AI

Cloud Storage

BigQuery

Cloud Functions

Asumsi penggunaan

1. 1.000 panggilan API form parser Document AI setiap bulan

2. 100 GiB penyimpanan bulanan

3. 1 TiB kueri bulanan

4. RAM: 512 MB, CPU: 800 MHz

Lihat detail penghitungan di kalkulator

Estimasi biaya bulanan (USD)

$71,87

Mengekstrak teks dari gambar

Produk yang digunakan

Cloud Vision

Cloud Storage

Pub/Sub

Cloud Run

Asumsi penggunaan

1. 15.000 panggilan API OCR Cloud Vision setiap bulan

2. 100 GiB penyimpanan bulanan

3. Satu CPU 1,25 GiB

4. Empat GiB dipublikasikan setiap hari melalui Pub/Sub

Lihat detail penghitungan di kalkulator

Estimasi biaya bulanan (USD)

$27,36

Lihat detail lengkap penghitungan harga unit untuk Document AI, Vision API, dan AutoML.

Kalkulator Harga

Perkirakan biaya project Anda dengan mengumpulkan semua alat yang Anda perlukan di satu tempat.

Penawaran Harga Khusus

Hubungi tim penjualan kami untuk mendapatkan penawaran harga khusus yang sesuai dengan kebutuhan unik organisasi Anda.

OCR (Pengenalan Karakter Optik)

OCR (Pengenalan Karakter Optik) dengan Google Cloud AI kelas dunia

Sorotan OCR

Apa itu OCR?

Jenis OCR apa saja yang ditawarkan Google Cloud?

Bagaimana cara kerja OCR di Google Cloud?

Bagaimana Google Cloud AI dan OCR bekerja sama?

Solusi OCR manakah yang cocok untuk saya?

Lihat penggunaan Document OCR dengan dokumen Anda sendiri

Mengekstrak teks dari dokumen dengan AI generatif

Mendapatkan insight dari dokumen yang beragam dengan Document AI

Petunjuk

Mendapatkan insight dari dokumen yang beragam dengan Document AI

Membuat solusi dokumen menyeluruh

Membangun pipeline pemahaman dan pemrosesan dokumen

Petunjuk

Membangun pipeline pemahaman dan pemrosesan dokumen

Pemrosesan, penelusuran, dan pemberian tag pada gambar

Menggunakan Cloud Vision API dan AutoML untuk memberi tag dan memproses gambar

Contoh penghitungan harga

Petunjuk

Menggunakan Cloud Vision API dan AutoML untuk memberi tag dan memproses gambar

Referensi tambahan

Contoh penghitungan harga

Mengekstrak teks dari gambar

Mengekstrak teks dari gambar dengan Cloud Vision API

Contoh penghitungan harga

Petunjuk

Mengekstrak teks dari gambar dengan Cloud Vision API

Referensi tambahan

Contoh penghitungan harga

Kalkulator Harga

Penawaran Harga Khusus

Mulai bukti konsep Anda

Pelanggan baru akan mendapatkan kredit gratis senilai hingga $300 untuk mencoba produk Google Cloud

Punya project besar?

Melihat contoh kode untuk solusi dan kasus penggunaan OCR

Pelajari cara mendeteksi label dengan Cloud Vision API

Pelajari cara mengotomatiskan pipeline pemrosesan dokumen dengan Google AI