Optical Character Recognition (OCR) is a foundational technology behind the conversion of typed, handwritten or printed text from images into machine-encoded text.

What types of OCR does Google Cloud offer?

Google Cloud offers two types of OCR: OCR for documents and OCR for images and videos. Document AI is a document understanding platform optimized for document processing (powered by GenAI). Cloud Vision is commonly used to detect text, handwriting, and a wide range of objects from images and videos.

How does OCR work at Google Cloud?

Google Cloud powers OCR with best-in-class AI. It goes beyond traditional text recognition by understanding, organizing, and enriching data to generate business-ready insights. You can use the tools as a unified suite (e.g., Document AI) or call relevant APIs directly.

How Google Cloud AI and OCR work together?

All OCR solutions give you access to pre-trained ML models that you can deploy immediately or uptrain for specific needs. You can also train custom models using AutoML without needing machine learning expertise.

Which OCR solution is right for me?

If you want to analyze a document or build a processing pipeline, use Document AI. If you want to analyze and process images, use Cloud Vision. Both APIs are free to try with a Google Cloud account.

Prueba Gemini 3, nuestro mejor modelo de razonamiento, programación y comprensión multimodal en Gemini Enterprise Agent Platform

OCR (reconocimiento óptico de caracteres)

Reconocimiento óptico de caracteres (OCR) con la IA de Google Cloud de primera categoría

Extrae texto y datos de imágenes y documentos, convierte contenido sin estructurar en datos estructurados de tu empresa y accede a información valiosa.

Integra las funciones de OCR en tus aplicaciones a través de APIs.

Los nuevos clientes reciben 300 USD en crédito sin coste al registrarse para solicitar un documento que resuma las soluciones de OCR.

Información general

¿Qué es el OCR?

El reconocimiento óptico de caracteres (OCR) es una tecnología básica que permite convertir texto escrito a máquina, a mano o impreso a partir de imágenes en texto codificado automáticamente.

¿Qué tipos de OCR ofrece Google Cloud?

Google Cloud ofrece dos tipos de OCRs: OCR para documentos y OCR para las imágenes y los vídeos.

Aunque comparten una tecnología fundamental, Document AI es una plataforma de comprensión de documentos optimizada para el procesamiento de documentos. Su Extractor personalizado utiliza la tecnología de IA generativa, que procesa documentos genéricos y específicos de un dominio con mayor precisión y de forma más rápida, sin necesidad de elegir un procesador especializado.

Cloud Vision sirve para detectar texto, escritura a mano y una amplia variedad de objetos a partir de imágenes y vídeos.

¿Cómo funciona el OCR en Google Cloud?

Google Cloud potencia el OCR con una IA de primera categoría. Van más allá del reconocimiento de texto tradicional al entender, organizar y enriquecer los datos y, en última instancia, generar información valiosa para la empresa.

Te ofrece la flexibilidad de usar las herramientas de OCR como un paquete unificado para mejorar la eficiencia optimizada (por ejemplo, Document AI) o simplemente para llamar a las APIs disponibles directamente en la consola de Google Cloud para integrar las funciones de OCR en tus aplicaciones.

imagen que muestra las funciones de Document AI

VÍDEO

¿Qué es Document AI?

4:36

¿Cómo funciona la IA de Google Cloud junto con el OCR?

Todas las soluciones de OCR mencionadas anteriormente te permiten acceder a modelos de aprendizaje automático preentrenados que puedes desplegar directamente a través de una API, o bien mejorar la precisión para satisfacer tus necesidades específicas.

También puedes entrenar tus propios modelos personalizados con AutoML, sin necesidad de conocimientos avanzados en la materia.

Consulta la documentación de AutoML sobre cómo crear modelos personalizados de aprendizaje automático.

VÍDEO

Cuándo y cómo crear y entrenar modelos de aprendizaje automático con AutoML

2:11

¿Qué solución de OCR es adecuada para mí?

Si quieres analizar un documento o crear un flujo de procesamiento de documentos automatizado, utiliza Document AI. Además, se ocupa de todo el flujo de trabajo en un solo lugar, desde comprender los documentos hasta buscar, almacenar, gobernar y gestionar los documentos, junto con los datos extraídos.

Si quieres analizar y procesar imágenes, utiliza Cloud Vision junto con otros productos de Google Cloud para obtener los mejores resultados posibles. Consulta la sección Usos comunes para obtener más información y guías de inicio rápido.

Ambas APIs se pueden probar con una cuenta de Google Cloud sin coste económico.

Comparar las ofertas de OCR

oferta de OCR		Dispositivos admitidos	Características principales
API de Cloud Vision		Casos prácticos generales de extracción de textos que requieren una latencia baja y una gran capacidad.	Funciones predefinidas como etiquetado de imágenes, detección de caras y puntos de referencia, OCR y búsqueda segura.
Document AI	Enterprise Document OCR	Digitaliza texto de documentos (PDF, documentos escaneados como imágenes o archivos de Microsoft DocX).	Extrae texto en más de 200 idiomas y 50 idiomas escritos a mano. Complementos para reconocer fórmulas matemáticas, estilos, etc.
	Workbench de Document AI	Extrae, clasifica y divide cualquier documento con la IA generativa (modelos básicos)	Extractor personalizado: usa modelos básicos para crear analizadores rápidamente sin un etiquetado ni entrenamiento de datos exhaustivos. Clasificador personalizado y divisor de documentos para un procesamiento eficiente.
	Modelos entrenados previamente	Extracción de texto y campos de documentos específicos de cada dominio.	Extracción de texto y digitalización de varios documentos de aprovisionamiento, préstamos, identidad y contratos.

API de Cloud Vision

Dispositivos admitidos

Casos prácticos generales de extracción de textos que requieren una latencia baja y una gran capacidad.

Características principales

Funciones predefinidas como etiquetado de imágenes, detección de caras y puntos de referencia, OCR y búsqueda segura.

Document AI

Enterprise Document OCR

Dispositivos admitidos

Digitaliza texto de documentos (PDF, documentos escaneados como imágenes o archivos de Microsoft DocX).

Características principales

Extrae texto en más de 200 idiomas y 50 idiomas escritos a mano.

Complementos para reconocer fórmulas matemáticas, estilos, etc.

Workbench de Document AI

Dispositivos admitidos

Extrae, clasifica y divide cualquier documento con la IA generativa (modelos básicos)

Características principales

Extractor personalizado: usa modelos básicos para crear analizadores rápidamente sin un etiquetado ni entrenamiento de datos exhaustivos.

Clasificador personalizado y divisor de documentos para un procesamiento eficiente.

Modelos entrenados previamente

Dispositivos admitidos

Extracción de texto y campos de documentos específicos de cada dominio.

Características principales

Extracción de texto y digitalización de varios documentos de aprovisionamiento, préstamos, identidad y contratos.

Cómo funciona

Para comprender y procesar documentos, usa Document AI.
Para las imágenes, recomendamos utilizar Cloud Vision.
Ambos modelos te permiten acceder a modelos de aprendizaje automático preentrenados que puedes desplegar tal cual a través de APIs o de procesos de actualización. También puedes entrenar tus propios modelos personalizados desde cero con AutoML, sin necesidad de conocimientos de aprendizaje automático.
Las primeras 1000 unidades del mes no tienen coste económico cuando usas Cloud Vision o el OCR de documentos. Pruébalo con una simple llamada a la API.

imagen que muestra los productos en la nube que unen

Cómo reconoce y clasifica Cloud Vision

Demo

Observa el OCR de documentos en acción con tus propios documentos

Prueba la API de Document AI con solo arrastrar y soltar.

Usos habituales

Extrae texto de documentos con la IA generativa

Descubre información valiosa a partir de documentos específicos con Document AI

El extractor personalizado de Document AI se basa en un modelo básico que extrae texto y datos de documentos genéricos y específicos de un dominio, de forma más rápida y precisa. Ajusta fácilmente entre 5 y 10 documentos para mejorar el rendimiento.

Si quieres entrenar tu propio modelo, etiqueta automáticamente tus conjuntos de datos con el modelo básico para agilizar la producción.

También puedes utilizar procesadores especializados entrenados previamente. Consulta la lista completa de procesadores.

Dos ponentes junto al nombre del evento: cómo pueden impulsar tu empresa el OCR y la IA generativa

25:47

Instrucciones

Descubre información valiosa a partir de documentos específicos con Document AI

El extractor personalizado de Document AI se basa en un modelo básico que extrae texto y datos de documentos genéricos y específicos de un dominio, de forma más rápida y precisa. Ajusta fácilmente entre 5 y 10 documentos para mejorar el rendimiento.

Si quieres entrenar tu propio modelo, etiqueta automáticamente tus conjuntos de datos con el modelo básico para agilizar la producción.

También puedes utilizar procesadores especializados entrenados previamente. Consulta la lista completa de procesadores.

25:47

Crea una solución integral para documentos

Crea un flujo de procesamiento para interpretar y procesar documentos

Con la tecnología de GenAI, Document AI puede extraer datos con precisión de documentos con diferentes diseños y niveles de calidad. Puedes conectarlo con Cloud Storage para que los documentos no estructurados cumplan las normativas empresariales. BigQuery permite procesar y analizar los datos extraídos por lotes de la forma que quieras. Con Looker, puedes crear fácilmente visualizaciones basadas en tus tablas de BigQuery. Agent Search en Gemini Enterprise Agent Platform te permite consultar y buscar tus documentos en Cloud Storage de forma conversacional o tradicional.

Arquitectura de referencia de una solución de documentos integral con múltiples productos de Google Cloud

Experimento práctico: crear un flujo de procesamiento de captura de datos integral con Document AI y Cloud Functions

Configurar todo el flujo de procesamiento tal y como se indica lleva entre 60 y 90 minutos, mientras que la parte de Document AI tarda 10 minutos.

Instrucciones

Crea un flujo de procesamiento para interpretar y procesar documentos

Con la tecnología de GenAI, Document AI puede extraer datos con precisión de documentos con diferentes diseños y niveles de calidad. Puedes conectarlo con Cloud Storage para que los documentos no estructurados cumplan las normativas empresariales. BigQuery permite procesar y analizar los datos extraídos por lotes de la forma que quieras. Con Looker, puedes crear fácilmente visualizaciones basadas en tus tablas de BigQuery. Agent Search en Gemini Enterprise Agent Platform te permite consultar y buscar tus documentos en Cloud Storage de forma conversacional o tradicional.

Experimento práctico: crear un flujo de procesamiento de captura de datos integral con Document AI y Cloud Functions

Configurar todo el flujo de procesamiento tal y como se indica lleva entre 60 y 90 minutos, mientras que la parte de Document AI tarda 10 minutos.

Etiquetado, procesamiento y búsqueda de imágenes

Usa la API de Cloud Vision y AutoML para etiquetar y procesar imágenes

Este proceso también se denomina "etiquetado de imágenes".

La API de Cloud Vision puede identificar y etiquetar en una imagen objetos generales, puntos de referencia, ubicaciones, logotipos, actividades, especies de animales, productos y mucho más. Una vez que las imágenes están etiquetadas con las etiquetas detectadas, la búsqueda, el procesamiento y la gestión de imágenes son automáticos y más sencillos.

Si necesitas etiquetas personalizadas de segmentación, usa Cloud AutoML para entrenar un modelo de aprendizaje automático personalizado.

Para utilizar las tecnologías de OCR de Google on-premise, utiliza OCR On-Prem, disponible en Cloud Marketplace.

Diagrama de la arquitectura que muestra cómo AutoML y Cloud Vision AI trabajan con otros productos de Google Cloud para analizar imágenes

Instrucciones

Usa la API de Cloud Vision y AutoML para etiquetar y procesar imágenes

Este proceso también se denomina "etiquetado de imágenes".

La API de Cloud Vision puede identificar y etiquetar en una imagen objetos generales, puntos de referencia, ubicaciones, logotipos, actividades, especies de animales, productos y mucho más. Una vez que las imágenes están etiquetadas con las etiquetas detectadas, la búsqueda, el procesamiento y la gestión de imágenes son automáticos y más sencillos.

Si necesitas etiquetas personalizadas de segmentación, usa Cloud AutoML para entrenar un modelo de aprendizaje automático personalizado.

Para utilizar las tecnologías de OCR de Google on-premise, utiliza OCR On-Prem, disponible en Cloud Marketplace.

Otros recursos

Ejemplo de precios

Para ejecutar un flujo de procesamiento básico de imágenes que detecte etiquetas, tal y como se muestra a la derecha, el coste mensual sería de 27,36 USD.

Puedes consultar las suposiciones de uso que se han hecho para llegar a esta cifra con la calculadora de precios.

Las primeras 1000 unidades del mes no tienen coste.

Arquitectura de etiquetado de imágenes, procesamiento y referencias de búsqueda

Extraer texto de imágenes

Extrae texto de imágenes con la API de Cloud Vision

La API de Cloud Vision permite detectar y extraer texto y escritura a mano de imágenes en diferentes idiomas. Además, es compatible con varias regiones, para las que puedes especificar el almacenamiento de datos y el procesamiento OCR a nivel continental.

Puedes obtener resultados inmediatos de un número reducido de imágenes (hasta 16 por solicitud) o procesar por lotes un número mayor de imágenes (hasta a 2000 por solicitud) de forma asíncrona para un resultado posterior.

Arquitectura de referencia de la API Cloud Vision

Instrucciones

Extrae texto de imágenes con la API de Cloud Vision

La API de Cloud Vision permite detectar y extraer texto y escritura a mano de imágenes en diferentes idiomas. Además, es compatible con varias regiones, para las que puedes especificar el almacenamiento de datos y el procesamiento OCR a nivel continental.

Puedes obtener resultados inmediatos de un número reducido de imágenes (hasta 16 por solicitud) o procesar por lotes un número mayor de imágenes (hasta a 2000 por solicitud) de forma asíncrona para un resultado posterior.

Otros recursos

Ejemplo de precios

Para ejecutar un flujo de procesamiento básico que extraiga texto de imágenes como se muestra a la derecha, el coste mensual sería de 27,36 USD.

Puedes consultar las suposiciones de uso que se han hecho para llegar a esta cifra con la calculadora de precios.

Las primeras 1000 unidades del mes no tienen coste.

Precios

¿Cuánto cuesta mi caso práctico?	Conoce el coste mensual que debes pagar para cubrir un caso práctico, con los productos que necesitas y las suposiciones clave sobre el uso.
Caso práctico	Productos usados	Suposiciones sobre el uso	Coste mensual estimado (USD)
Etiquetado, procesamiento y búsqueda de imágenes	Cloud Vision Cloud Storage Pub/Sub Cloud Run	1. 15.000 llamadas a la API de detección de etiquetas de Cloud Vision al mes 2. 100 GiB de almacenamiento mensual 3. Una CPU de 1,25 GiB 4. Cuatro GiB publicados diariamente a través de Pub/Sub Consulta los detalles de cálculo en la calculadora	27,36 $
Extraer texto e información valiosa de documentos	Document AI Cloud Storage BigQuery Cloud Functions	1. 1000 llamadas a la API del analizador de formularios de Document AI al mes 2. 100 GiB de almacenamiento mensual 3. 1 TiB de consultas mensuales 4.RAM: 512 MB, CPU: 800 MHz Consulta los detalles de cálculo en la calculadora	71,87 $
Extraer texto de imágenes	Cloud Vision Cloud Storage Pub/Sub Cloud Run	1. 15.000 llamadas mensuales a la API OCR de Cloud Vision 2. 100 GiB de almacenamiento mensual 3. Una CPU de 1,25 GiB 4. Cuatro GiB publicados diariamente a través de Pub/Sub Consulta los detalles de cálculo en la calculadora	27,36 $

Consulta todos los detalles del precio por unidad de Document AI, la API de Vision y AutoML.

¿Cuánto cuesta mi caso práctico?

Conoce el coste mensual que debes pagar para cubrir un caso práctico, con los productos que necesitas y las suposiciones clave sobre el uso.

Etiquetado, procesamiento y búsqueda de imágenes

Productos usados

Cloud Vision

Cloud Storage

Pub/Sub

Cloud Run

Suposiciones sobre el uso

1. 15.000 llamadas a la API de detección de etiquetas de Cloud Vision al mes

2. 100 GiB de almacenamiento mensual

3. Una CPU de 1,25 GiB

4. Cuatro GiB publicados diariamente a través de Pub/Sub

Consulta los detalles de cálculo en la calculadora

Coste mensual estimado (USD)

27,36 $

Extraer texto e información valiosa de documentos

Productos usados

Document AI

Cloud Storage

BigQuery

Cloud Functions

Suposiciones sobre el uso

1. 1000 llamadas a la API del analizador de formularios de Document AI al mes

2. 100 GiB de almacenamiento mensual

3. 1 TiB de consultas mensuales

4.RAM: 512 MB, CPU: 800 MHz

Consulta los detalles de cálculo en la calculadora

Coste mensual estimado (USD)

71,87 $

Extraer texto de imágenes

Productos usados

Cloud Vision

Cloud Storage

Pub/Sub

Cloud Run

Suposiciones sobre el uso

1. 15.000 llamadas mensuales a la API OCR de Cloud Vision

2. 100 GiB de almacenamiento mensual

3. Una CPU de 1,25 GiB

4. Cuatro GiB publicados diariamente a través de Pub/Sub

Consulta los detalles de cálculo en la calculadora

Coste mensual estimado (USD)

27,36 $

Consulta todos los detalles del precio por unidad de Document AI, la API de Vision y AutoML.

Calculadora de precios

Calcula el coste de tu proyecto con todas las herramientas que necesitas en un solo lugar.

Presupuesto personalizado

Ponte en contacto con nuestro equipo de Ventas para obtener un presupuesto personalizado según las necesidades únicas de tu empresa.

OCR (reconocimiento óptico de caracteres)

Reconocimiento óptico de caracteres (OCR) con la IA de Google Cloud de primera categoría

Aspectos destacados del OCR

¿Qué es el OCR?

¿Qué tipos de OCR ofrece Google Cloud?

¿Cómo funciona el OCR en Google Cloud?

¿Cómo funciona la IA de Google Cloud junto con el OCR?

¿Qué solución de OCR es adecuada para mí?

Observa el OCR de documentos en acción con tus propios documentos

Extrae texto de documentos con la IA generativa

Descubre información valiosa a partir de documentos específicos con Document AI

Instrucciones

Descubre información valiosa a partir de documentos específicos con Document AI

Crea una solución integral para documentos

Crea un flujo de procesamiento para interpretar y procesar documentos

Instrucciones

Crea un flujo de procesamiento para interpretar y procesar documentos

Etiquetado, procesamiento y búsqueda de imágenes

Usa la API de Cloud Vision y AutoML para etiquetar y procesar imágenes

Ejemplo de precios

Instrucciones

Usa la API de Cloud Vision y AutoML para etiquetar y procesar imágenes

Otros recursos

Ejemplo de precios

Extraer texto de imágenes

Extrae texto de imágenes con la API de Cloud Vision

Ejemplo de precios

Instrucciones

Extrae texto de imágenes con la API de Cloud Vision

Otros recursos

Ejemplo de precios

Calculadora de precios

Presupuesto personalizado

Empieza tu prueba de concepto

Los nuevos clientes reciben hasta 300 USD en crédito sin coste para probar los productos de IA de Google Cloud

¿Tienes un proyecto de gran envergadura?

Consulta códigos de ejemplo para soluciones de OCR y casos prácticos

Aprende a detectar etiquetas con la API de Cloud Vision

Aprende a automatizar el flujo de procesamiento de documentos con la IA de Google