Optical Character Recognition (OCR) is a foundational technology behind the conversion of typed, handwritten or printed text from images into machine-encoded text.

What types of OCR does Google Cloud offer?

Google Cloud offers two types of OCR: OCR for documents and OCR for images and videos. Document AI is a document understanding platform optimized for document processing (powered by GenAI). Cloud Vision is commonly used to detect text, handwriting, and a wide range of objects from images and videos.

How does OCR work at Google Cloud?

Google Cloud powers OCR with best-in-class AI. It goes beyond traditional text recognition by understanding, organizing, and enriching data to generate business-ready insights. You can use the tools as a unified suite (e.g., Document AI) or call relevant APIs directly.

How Google Cloud AI and OCR work together?

All OCR solutions give you access to pre-trained ML models that you can deploy immediately or uptrain for specific needs. You can also train custom models using AutoML without needing machine learning expertise.

Which OCR solution is right for me?

If you want to analyze a document or build a processing pipeline, use Document AI. If you want to analyze and process images, use Cloud Vision. Both APIs are free to try with a Google Cloud account.

Prova Gemini 3, il nostro modello migliore per ragionamento, programmazione e comprensione multimodale in Gemini Enterprise Agent Platform

OCR (riconoscimento ottico dei caratteri)

OCR (riconoscimento ottico dei caratteri) con l'AI Google Cloud di altissimo livello

Estrai testo e dati da immagini e documenti, trasforma contenuti non strutturati in dati strutturati pronti per l'uso aziendale e accedi a insight preziosi.

Integra le funzionalità OCR nelle tue applicazioni tramite API.

I nuovi clienti ricevono 300 $ di crediti senza costi al momento della registrazione da usare sulle soluzioni OCR per il riepilogo di documenti.

Panoramica

Che cos'è l'OCR?

Il riconoscimento ottico dei caratteri (OCR) è una tecnologia fondamentale alla base della conversione del testo digitato, scritto a mano libera o stampato dalle immagini in testo codificato automaticamente.

Quali tipi di OCR offre Google Cloud?

Google Cloud offre due tipi di OCR: OCR per i documenti e OCR per immagini e video.

Sebbene condividano la stessa tecnologia di base, Document AI è una piattaforma di comprensione dei documenti ottimizzata per l'elaborazione. Il suo Custom Extractor si basa su GenAI, in grado di elaborare documenti generici e specifici del dominio con maggiore accuratezza e in modo più rapido, senza la necessità di scegliere un processore specializzato.

Cloud Vision viene comunemente utilizzato per rilevare testo, scrittura a mano libera e una vasta gamma di oggetti da immagini e video.

Come funziona l'OCR in Google Cloud

Google Cloud supporta la tecnologia OCR con l'AI migliore del settore. Va ben oltre il riconoscimento di testo tradizionale, in quanto comprende, organizza e arricchisce i dati, generando infine insight pronti per l'uso aziendale.

Offre la flessibilità di utilizzare gli strumenti OCR come suite unificata per una maggiore efficienza (ad es.Document AI) o semplicemente di chiamare le API pertinenti direttamente nella console Google Cloud per integrare le funzionalità di OCR nelle tue applicazioni.

immagine che mostra le funzionalità di Document AI

VIDEO

Che cos'è Document AI?

4:36

Come interagiscono OCR e l'AI Google Cloud?

Tutte le soluzioni OCR menzionate sopra ti permettono di accedere a modelli di machine learning preaddestrati di cui puoi eseguire il deployment immediatamente tramite un'API o di cui puoi ottimizzare l'addestramento per migliorare l'accuratezza in base alle tue esigenze specifiche.

Puoi anche addestrare i tuoi modelli personalizzati con AutoML, senza bisogno di competenze nel machine learning.

Consulta la documentazione di AutoML per la creazione di modelli di machine learning personalizzati.

VIDEO

Quando e come creare e addestrare modelli di ML con AutoML

2:11

Qual è la soluzione OCR giusta per me?

Se vuoi analizzare un documento o creare una pipeline di elaborazione automatica dei documenti, utilizza Document AI. Si occupa dell'intero workflow in un'unica posizione, dalla comprensione dei documenti alla ricerca, all'archiviazione, all'organizzazione e alla gestione dei documenti insieme ai dati estratti.

Se vuoi analizzare ed elaborare le immagini, usa Cloud Vision insieme ad altri prodotti Google Cloud per ottenere risultati ottimali. Per informazioni dettagliate e per le guide rapide, consulta la sezione Utilizzi comuni.

Entrambe le API si possono provare senza costi con un account Google Cloud.

Confronta le offerte di OCR

Offerta OCR		Ideale per	Funzionalità principali
API Cloud Vision		Casi d'uso generici per l'estrazione del testo che richiedono bassa latenza e capacità elevata.	Funzionalità predefinite come etichettatura delle immagini, rilevamento di volti e punti di riferimento, OCR, ricerca sicura.
Document AI	Enterprise Document OCR	Digitalizza il testo dei documenti (PDF, documenti scansionati come immagini o file Microsoft DocX).	Estrai testo in oltre 200 lingue e 50 lingue scritte a mano. Componenti aggiuntivi per il riconoscimento di formule matematiche, stili e così via.
	Document AI Workbench	Estrarre, classificare e suddividere qualsiasi documento con l'IA generativa (modelli di base)	Custom Extractor: utilizza modelli di base per creare rapidamente parser senza etichettare o addestrare i dati in modo esaustivo. Classificatore personalizzato e divisione documenti per un'elaborazione efficiente.
	Modelli preaddestrati	Estrazione di testo e campi da documenti specifici del dominio.	Estrazione e digitalizzazione del testo su una vasta gamma di documenti relativi all'approvvigionamento, ai mutui, documenti di identità e documenti contrattuali.

API Cloud Vision

Ideale per

Casi d'uso generici per l'estrazione del testo che richiedono bassa latenza e capacità elevata.

Funzionalità principali

Funzionalità predefinite come etichettatura delle immagini, rilevamento di volti e punti di riferimento, OCR, ricerca sicura.

Document AI

Enterprise Document OCR

Ideale per

Digitalizza il testo dei documenti (PDF, documenti scansionati come immagini o file Microsoft DocX).

Funzionalità principali

Estrai testo in oltre 200 lingue e 50 lingue scritte a mano.

Componenti aggiuntivi per il riconoscimento di formule matematiche, stili e così via.

Document AI Workbench

Ideale per

Estrarre, classificare e suddividere qualsiasi documento con l'IA generativa (modelli di base)

Funzionalità principali

Custom Extractor: utilizza modelli di base per creare rapidamente parser senza etichettare o addestrare i dati in modo esaustivo.

Classificatore personalizzato e divisione documenti per un'elaborazione efficiente.

Modelli preaddestrati

Ideale per

Estrazione di testo e campi da documenti specifici del dominio.

Funzionalità principali

Estrazione e digitalizzazione del testo su una vasta gamma di documenti relativi all'approvvigionamento, ai mutui, documenti di identità e documenti contrattuali.

Come funziona

Per comprendere ed elaborare i documenti, utilizza Document AI.
Per le immagini, ti consigliamo di utilizzare Cloud Vision.
Entrambe offrono l'accesso a modelli di machine learning preaddestrati di cui è possibile eseguire il deployment tramite API o ottimizzare l'addestramento. Puoi anche addestrare i tuoi modelli personalizzati da zero con AutoML, senza bisogno di competenze nel machine learning.
Le prime 1000 unità al mese sono senza costi quando utilizzi Cloud Vision o Document OCR: prova con una semplice chiamata API.

immagine che mostra i prodotti Cloud che interagiscono

In che modo Cloud Vision riconosce e classifica le immagini

Demo

Guarda l'OCR di documenti in azione con i tuoi documenti

Prova l'API Document AI con un semplice trascinamento.

Utilizzi comuni

Estrai testo dai documenti con l'AI generativa

Estrai insight da documenti articolati con Document AI

Basato su un modello di base, Document AI Custom Extractor estrae testo e dati dai documenti, generici e specifici per il dominio, più velocemente e con maggiore accuratezza. Facile ottimizzazione con soli 5-10 documenti per prestazioni ancora migliori.

Se vuoi addestrare un modello personalizzato, etichetta automaticamente i set di dati con il modello di base per velocizzare i tempi di produzione.

Oppure puoi scegliere di utilizzare processori specializzati preaddestrati: consulta l'elenco completo dei processori.

Due relatori accanto al nome dell'evento: come le tecnologie di riconoscimento ottico dei caratteri (OCR) e IA generativa possono potenziare la tua attività

25:47

Procedure

Estrai insight da documenti articolati con Document AI

Basato su un modello di base, Document AI Custom Extractor estrae testo e dati dai documenti, generici e specifici per il dominio, più velocemente e con maggiore accuratezza. Facile ottimizzazione con soli 5-10 documenti per prestazioni ancora migliori.

Se vuoi addestrare un modello personalizzato, etichetta automaticamente i set di dati con il modello di base per velocizzare i tempi di produzione.

Oppure puoi scegliere di utilizzare processori specializzati preaddestrati: consulta l'elenco completo dei processori.

25:47

Crea una soluzione end-to-end per i documenti

Crea una pipeline di elaborazione e comprensione dei documenti

Basato su GenAI, Document AI offre un'elevata accuratezza nell'estrazione dei dati da documenti con layout e qualità diversi. Puoi collegarlo a Cloud Storage in modo che i tuoi documenti non strutturati siano conformi a livello aziendale. BigQuery aiuta a elaborare e analizzare in batch i dati estratti come preferisci. Con Looker puoi creare facilmente visualizzazioni basate sulle tue tabelle BigQuery. Agent Search su Gemini Enterprise Agent Platform consente di eseguire query sui documenti e cercarli in Cloud Storage, in modo conversazionale o tradizionale.

Architettura di riferimento di una soluzione end-to-end per i documenti con più prodotti Google Cloud

Lab pratico: creazione di una pipeline di acquisizione dati end-to-end utilizzando Document AI e Cloud Functions

La configurazione dell'intera pipeline come visto richiede 60-90 minuti, mentre la parte di Document AI richiede 10 minuti.

Procedure

Crea una pipeline di elaborazione e comprensione dei documenti

Basato su GenAI, Document AI offre un'elevata accuratezza nell'estrazione dei dati da documenti con layout e qualità diversi. Puoi collegarlo a Cloud Storage in modo che i tuoi documenti non strutturati siano conformi a livello aziendale. BigQuery aiuta a elaborare e analizzare in batch i dati estratti come preferisci. Con Looker puoi creare facilmente visualizzazioni basate sulle tue tabelle BigQuery. Agent Search su Gemini Enterprise Agent Platform consente di eseguire query sui documenti e cercarli in Cloud Storage, in modo conversazionale o tradizionale.

Lab pratico: creazione di una pipeline di acquisizione dati end-to-end utilizzando Document AI e Cloud Functions

La configurazione dell'intera pipeline come visto richiede 60-90 minuti, mentre la parte di Document AI richiede 10 minuti.

Tagging, elaborazione e ricerca delle immagini

Utilizza l'API Cloud Vision e AutoML per taggare ed elaborare le immagini

Il tagging delle immagini è noto anche come etichettatura delle immagini.

L'API Cloud Vision può identificare ed etichettare oggetti generici, punti di riferimento, località, loghi, attività, specie animali, prodotti e altro ancora all'interno di un'immagine. Una volta che le immagini vengono taggate con le etichette rilevate, la ricerca, l'elaborazione e la gestione delle immagini diventano automatizzate e più facili.

Se hai bisogno di etichette personalizzate mirate, utilizza Cloud AutoML per addestrare un modello di machine learning personalizzato.

Per utilizzare le tecnologie Google OCR on-premise, utilizza OCR On-Prem, disponibile su Cloud Marketplace.

diagramma dell'architettura che mostra il funzionamento di autoML e Cloud Vision AI con altri prodotti Google Cloud per analizzare le immagini

Procedure

Utilizza l'API Cloud Vision e AutoML per taggare ed elaborare le immagini

Il tagging delle immagini è noto anche come etichettatura delle immagini.

L'API Cloud Vision può identificare ed etichettare oggetti generici, punti di riferimento, località, loghi, attività, specie animali, prodotti e altro ancora all'interno di un'immagine. Una volta che le immagini vengono taggate con le etichette rilevate, la ricerca, l'elaborazione e la gestione delle immagini diventano automatizzate e più facili.

Se hai bisogno di etichette personalizzate mirate, utilizza Cloud AutoML per addestrare un modello di machine learning personalizzato.

Per utilizzare le tecnologie Google OCR on-premise, utilizza OCR On-Prem, disponibile su Cloud Marketplace.

Risorse aggiuntive

Esempio di prezzi

Per eseguire una pipeline di elaborazione delle immagini di base che rileva le etichette come mostrato a destra, il costo mensile sarà di 27,36 $.

Puoi verificare le ipotesi di utilizzo effettuate per arrivare a questo numero nel Calcolatore prezzi.

Le prime 1000 unità al mese non prevedono costi aggiuntivi.

Architettura di tagging, elaborazione e ricerca dei riferimenti delle immagini

Estrai testo dalle immagini

Estrai testo dalle immagini con l'API Cloud Vision

Tramite l'API Cloud Vision, puoi rilevare ed estrarre testo e scrittura a mano libera da qualsiasi immagine in lingue diverse. Inoltre è disponibile il supporto multiregionale per il quale è possibile specificare l'archiviazione dei dati a livello di continente e l'elaborazione OCR.

Puoi scegliere di ottenere risultati immediati per un numero ridotto di immagini (fino a 16 per richiesta) o di elaborare in batch un numero maggiore di immagini (fino a 2000 per richiesta) in modo asincrono per ottenere un risultato in un secondo momento.

architettura di riferimento dell'API Cloud Vision

Procedure

Estrai testo dalle immagini con l'API Cloud Vision

Tramite l'API Cloud Vision, puoi rilevare ed estrarre testo e scrittura a mano libera da qualsiasi immagine in lingue diverse. Inoltre è disponibile il supporto multiregionale per il quale è possibile specificare l'archiviazione dei dati a livello di continente e l'elaborazione OCR.

Puoi scegliere di ottenere risultati immediati per un numero ridotto di immagini (fino a 16 per richiesta) o di elaborare in batch un numero maggiore di immagini (fino a 2000 per richiesta) in modo asincrono per ottenere un risultato in un secondo momento.

Risorse aggiuntive

Esempio di prezzi

Per eseguire una pipeline di elaborazione di base che estrae il testo dalle immagini come mostrato a destra, il costo mensile è di 27,36 $.

Puoi verificare le ipotesi di utilizzo effettuate per arrivare a questo numero nel Calcolatore prezzi.

Le prime 1000 unità al mese non prevedono costi aggiuntivi.

Prezzi

Quanto costa il mio caso d'uso?	Comprendi il costo mensile per la risoluzione di un caso d'uso, tenendo traccia dei prodotti che ti servono e formulando le principali ipotesi sull'utilizzo.
Caso d'uso	Prodotti utilizzati	Ipotesi di utilizzo	Costo mensile stimato ($)
Tagging, elaborazione e ricerca delle immagini	Cloud Vision Cloud Storage Pub/Sub Cloud Run	1. 15.000 chiamate API di rilevamento etichette Cloud Vision al mese 2. 100 GiB di spazio di archiviazione al mese 3. Una CPU da 1,25 GiB 4. Quattro GiB pubblicati ogni giorno tramite Pub/Sub Visualizza i dettagli del calcolo nel calcolatore	27,36 $
Estrazione di testi e insight dai documenti	Document AI Cloud Storage BigQuery Cloud Functions	1. 1000 chiamate API di analizzatore sintattico di moduli Document AI al mese 2. 100 GiB di spazio di archiviazione al mese 3. 1 TiB di query al mese 4. RAM: 512 MB, CPU: 800 MHz Visualizza i dettagli del calcolo nel calcolatore	71,87 $
Estrai testo dalle immagini	Cloud Vision Cloud Storage Pub/Sub Cloud Run	1. 15.000 chiamate API di OCR Cloud Vision al mese 2. 100 GiB di spazio di archiviazione al mese 3. Una CPU da 1,25 GiB 4. Quattro GiB pubblicati ogni giorno tramite Pub/Sub Visualizza i dettagli del calcolo nel calcolatore	27,36 $

Visualizza i dettagli completi dei prezzi delle unità per Document AI, API Vision e AutoML.

Quanto costa il mio caso d'uso?

Comprendi il costo mensile per la risoluzione di un caso d'uso, tenendo traccia dei prodotti che ti servono e formulando le principali ipotesi sull'utilizzo.

Tagging, elaborazione e ricerca delle immagini

Prodotti utilizzati

Cloud Vision

Cloud Storage

Pub/Sub

Cloud Run

Ipotesi di utilizzo

1. 15.000 chiamate API di rilevamento etichette Cloud Vision al mese

2. 100 GiB di spazio di archiviazione al mese

3. Una CPU da 1,25 GiB

4. Quattro GiB pubblicati ogni giorno tramite Pub/Sub

Visualizza i dettagli del calcolo nel calcolatore

Costo mensile stimato ($)

27,36 $

Estrazione di testi e insight dai documenti

Prodotti utilizzati

Document AI

Cloud Storage

BigQuery

Cloud Functions

Ipotesi di utilizzo

1. 1000 chiamate API di analizzatore sintattico di moduli Document AI al mese

2. 100 GiB di spazio di archiviazione al mese

3. 1 TiB di query al mese

4. RAM: 512 MB, CPU: 800 MHz

Visualizza i dettagli del calcolo nel calcolatore

Costo mensile stimato ($)

71,87 $

Estrai testo dalle immagini

Prodotti utilizzati

Cloud Vision

Cloud Storage

Pub/Sub

Cloud Run

Ipotesi di utilizzo

1. 15.000 chiamate API di OCR Cloud Vision al mese

2. 100 GiB di spazio di archiviazione al mese

3. Una CPU da 1,25 GiB

4. Quattro GiB pubblicati ogni giorno tramite Pub/Sub

Visualizza i dettagli del calcolo nel calcolatore

Costo mensile stimato ($)

27,36 $

Visualizza i dettagli completi dei prezzi delle unità per Document AI, API Vision e AutoML.

Calcolatore prezzi

Stima il costo del tuo progetto inserendo tutti gli strumenti che ti servono in un unico posto.

Preventivo personalizzato

Contatta il nostro team di vendita per ricevere un preventivo personalizzato per le esigenze specifiche della tua organizzazione.

OCR (riconoscimento ottico dei caratteri)

OCR (riconoscimento ottico dei caratteri) con l'AI Google Cloud di altissimo livello

Contenuti in evidenza su OCR

Che cos'è l'OCR?

Quali tipi di OCR offre Google Cloud?

Come funziona l'OCR in Google Cloud

Come interagiscono OCR e l'AI Google Cloud?

Qual è la soluzione OCR giusta per me?

Guarda l'OCR di documenti in azione con i tuoi documenti

Estrai testo dai documenti con l'AI generativa

Estrai insight da documenti articolati con Document AI

Procedure

Estrai insight da documenti articolati con Document AI

Crea una soluzione end-to-end per i documenti

Crea una pipeline di elaborazione e comprensione dei documenti

Procedure

Crea una pipeline di elaborazione e comprensione dei documenti

Tagging, elaborazione e ricerca delle immagini

Utilizza l'API Cloud Vision e AutoML per taggare ed elaborare le immagini

Esempio di prezzi

Procedure

Utilizza l'API Cloud Vision e AutoML per taggare ed elaborare le immagini

Risorse aggiuntive

Esempio di prezzi

Estrai testo dalle immagini

Estrai testo dalle immagini con l'API Cloud Vision

Esempio di prezzi

Procedure

Estrai testo dalle immagini con l'API Cloud Vision

Risorse aggiuntive

Esempio di prezzi

Calcolatore prezzi

Preventivo personalizzato

Inizia la tua proof of concept

I nuovi clienti ricevono fino a 300 $ di crediti senza costi per provare i prodotti Google Cloud

Hai un progetto di grandi dimensioni?

Visualizza esempi di codice per soluzioni e casi d'uso di OCR

Scopri come rilevare le etichette con l'API Cloud Vision

Scopri come automatizzare una pipeline di elaborazione di documenti con Google AI