Optical Character Recognition (OCR) is a foundational technology behind the conversion of typed, handwritten or printed text from images into machine-encoded text.

What types of OCR does Google Cloud offer?

Google Cloud offers two types of OCR: OCR for documents and OCR for images and videos. Document AI is a document understanding platform optimized for document processing (powered by GenAI). Cloud Vision is commonly used to detect text, handwriting, and a wide range of objects from images and videos.

How does OCR work at Google Cloud?

Google Cloud powers OCR with best-in-class AI. It goes beyond traditional text recognition by understanding, organizing, and enriching data to generate business-ready insights. You can use the tools as a unified suite (e.g., Document AI) or call relevant APIs directly.

How Google Cloud AI and OCR work together?

All OCR solutions give you access to pre-trained ML models that you can deploy immediately or uptrain for specific needs. You can also train custom models using AutoML without needing machine learning expertise.

Which OCR solution is right for me?

If you want to analyze a document or build a processing pipeline, use Document AI. If you want to analyze and process images, use Cloud Vision. Both APIs are free to try with a Google Cloud account.

Prueba Gemini 3, nuestro mejor modelo para el razonamiento, la programación y la comprensión multimodal en Gemini Enterprise Agent Platform

OCR (reconocimiento óptico de caracteres)

OCR (reconocimiento óptico de caracteres) con IA de Google Cloud de primer nivel

Extrae texto y datos de imágenes y documentos, convierte contenido no estructurado en datos estructurados para empresas y obtén estadísticas valiosas.

Integra las funciones de OCR en tus aplicaciones a través de APIs.

Los clientes nuevos obtienen $300 en créditos gratuitos cuando se registran para aplicar a las soluciones de OCR que resumen documentos.

Descripción general

¿Qué es OCR?

El reconocimiento óptico de caracteres (OCR) es una tecnología fundamental para la conversión de texto escrito, escrito a mano o impreso de imágenes en texto codificado para máquina.

¿Qué tipos de OCR ofrece Google Cloud?

Google Cloud ofrece dos tipos de OCR: OCR para documentos, y OCR para imágenes y videos.

Si bien comparten una tecnología básica, Document AI es una plataforma de comprensión de documentos optimizada para su procesamiento. Su Extractor personalizado funciona con IA generativa, que procesa documentos genéricos y específicos del dominio con mayor precisión y rapidez, sin necesidad de elegir un procesador especializado.

Cloud Vision se usa comúnmente para detectar texto, escritura a mano y una amplia variedad de objetos a partir de imágenes y videos.

¿Cómo funciona OCR en Google Cloud?

Google Cloud potencia OCR con la mejor IA de su clase. Va más allá del reconocimiento de texto tradicional, ya que comprende, organiza y enriquece los datos y, en última instancia, genera estadísticas listas para la empresa.

Te brinda la flexibilidad de usar las herramientas de OCR como un paquete unificado para lograr una eficiencia optimizada (p. ej., Document AI) o simplemente llamar a las APIs directamente disponibles en la consola de Google Cloud para integrar las funciones de OCR en tus aplicaciones

imagen que muestra las funciones de document ai

VIDEO

¿Qué es Document AI?

4:36

¿Cómo funcionan en conjunto la IA de Google Cloud y el OCR?

Todas las soluciones de OCR que se mencionaron antes te permiten acceder a modelos de AA previamente entrenados que puedes implementar de inmediato a través de una API, o entrenar para mejorar la precisión de tus necesidades específicas.

También puedes entrenar tus propios modelos personalizados con AutoML, sin necesidad de tener experiencia en el aprendizaje automático.

Consulta la documentación de AutoML para crear modelos de AA personalizados.

VIDEO

Cuándo y cómo crear y entrenar modelos de AA con AutoML

2:11

¿Qué solución de OCR es adecuada para mí?

Si quieres analizar un documento o crear una canalización automatizada de procesamiento de documentos, usa Document AI. Esta solución se encarga de todo el flujo de trabajo en un solo lugar, desde la comprensión de documentos hasta la búsqueda, el almacenamiento, la administración y la gestión de los documentos, además de los datos extraídos.

Si quieres analizar y procesar imágenes, usa Cloud Vision junto con otros productos de Google Cloud para obtener mejores resultados. Consulta la sección de usos comunes para obtener detalles y guías de inicio rápido.

Ambas APIs se pueden probar de forma gratuita con una cuenta de Google Cloud.

Compara las ofertas de OCR

Oferta de OCR		Ideal para	Características clave
API de Cloud Vision		Casos de uso generales de extracción de texto que requieren baja latencia y alta capacidad.	Funciones prediseñadas como etiquetado de imágenes, detección de rostros y puntos de referencia, OCR y búsqueda segura.
Document AI	Enterprise Document OCR	Digitaliza texto de documentos (PDF, documentos escaneados como imágenes o archivos DocX de Microsoft).	Extrae texto en más de 200 idiomas (50 idiomas de escritura a mano). Complementos para reconocer fórmulas matemáticas, estilos, etcétera.
	Document AI Workbench	Extrae, clasifica y divide documentos con la IA generativa (modelos de base)	Extractor personalizado: Usa modelos de base para crear analizadores con rapidez sin necesidad de etiquetar ni entrenar datos extensos. Clasificador personalizado y divisor de documentos para lograr un procesamiento eficiente.
	Modelos previamente entrenados	Extracción de texto y campos a partir de documentos específicos del dominio.	Extracción y digitalización de textos en una variedad de documentos de adquisiciones, préstamos, identidad y contratos.

API de Cloud Vision

Ideal para

Casos de uso generales de extracción de texto que requieren baja latencia y alta capacidad.

Características clave

Funciones prediseñadas como etiquetado de imágenes, detección de rostros y puntos de referencia, OCR y búsqueda segura.

Document AI

Enterprise Document OCR

Ideal para

Digitaliza texto de documentos (PDF, documentos escaneados como imágenes o archivos DocX de Microsoft).

Características clave

Extrae texto en más de 200 idiomas (50 idiomas de escritura a mano).

Complementos para reconocer fórmulas matemáticas, estilos, etcétera.

Document AI Workbench

Ideal para

Extrae, clasifica y divide documentos con la IA generativa (modelos de base)

Características clave

Extractor personalizado: Usa modelos de base para crear analizadores con rapidez sin necesidad de etiquetar ni entrenar datos extensos.

Clasificador personalizado y divisor de documentos para lograr un procesamiento eficiente.

Modelos previamente entrenados

Ideal para

Extracción de texto y campos a partir de documentos específicos del dominio.

Características clave

Extracción y digitalización de textos en una variedad de documentos de adquisiciones, préstamos, identidad y contratos.

Cómo funciona

Para comprender y procesar documentos, usa Document AI.
Para las imágenes, recomendamos usar Cloud Vision.
Ambos te brindan acceso a los modelos de AA previamente entrenados, que puedes implementar sin modificaciones a través de las APIs o de los modelos de entrenamiento. También puedes entrenar tus propios modelos personalizados desde cero con AutoML, sin necesidad de experiencia en AA.
Las primeras 1,000 unidades al mes son gratuitas cuando usas Cloud Vision o el OCR de documentos. Puedes probarlo con una simple llamada a la API.

Imagen que muestra productos de la nube trabajando juntos

Cómo reconoce y clasifica imágenes Cloud Vision

Demostración

Observa el OCR de documentos en acción con tus propios documentos.

Prueba la API de Document AI con la función de arrastrar y soltar.

Usos comunes

Extrae texto de documentos con la IA generativa

Obtén estadísticas de documentos específicos con Document AI

Con la tecnología de un modelo de base, el extractor personalizado de Document AI extrae texto y datos de documentos genéricos y específicos de dominios, de forma más rápida y con mayor precisión. Configúralos fácilmente con solo 5 a 10 documentos para lograr un rendimiento aún mejor.

Si quieres entrenar tu propio modelo, etiqueta automáticamente tus conjuntos de datos con el modelo de base para acelerar el tiempo de salida.

También puedes optar por usar procesadores especializados previamente entrenados. Consulta la lista completa de procesadores.

Dos oradores junto al nombre del evento: Cómo el OCR y la IA generativa pueden potenciar tu empresa

25:47

Instructivos

Obtén estadísticas de documentos específicos con Document AI

Con la tecnología de un modelo de base, el extractor personalizado de Document AI extrae texto y datos de documentos genéricos y específicos de dominios, de forma más rápida y con mayor precisión. Configúralos fácilmente con solo 5 a 10 documentos para lograr un rendimiento aún mejor.

Si quieres entrenar tu propio modelo, etiqueta automáticamente tus conjuntos de datos con el modelo de base para acelerar el tiempo de salida.

También puedes optar por usar procesadores especializados previamente entrenados. Consulta la lista completa de procesadores.

25:47

Crea una solución de documentos de extremo a extremo

Compila una canalización de procesamiento y comprensión de documentos

Document AI cuenta con la tecnología de GenAI y ofrece una gran precisión en la extracción de datos de documentos de diferentes diseños y calidad. Puedes conectarlo con Cloud Storage para que tus documentos no estructurados cumplan con las normas de nivel empresarial. BigQuery ayuda a procesar por lotes y analizar los datos extraídos de la forma que quieras. Con Looker, puedes crear fácilmente visualizaciones basadas en tus tablas de BigQuery. Búsqueda de agentes en Agent Platform de Gemini Enterprise te permite consultar y buscar tus documentos en Cloud Storage de manera conversacional o tradicional.

Arquitectura de referencia de una solución de documentos de extremo a extremo con varios productos de Google Cloud

Lab práctico: Crea una canalización de captura de datos de extremo a extremo con Document AI y Cloud Functions

Configurar la canalización completa como se ve demora de 60 a 90 minutos; la parte de Document AI tarda 10 minutos.

Instructivos

Compila una canalización de procesamiento y comprensión de documentos

Document AI cuenta con la tecnología de GenAI y ofrece una gran precisión en la extracción de datos de documentos de diferentes diseños y calidad. Puedes conectarlo con Cloud Storage para que tus documentos no estructurados cumplan con las normas de nivel empresarial. BigQuery ayuda a procesar por lotes y analizar los datos extraídos de la forma que quieras. Con Looker, puedes crear fácilmente visualizaciones basadas en tus tablas de BigQuery. Búsqueda de agentes en Agent Platform de Gemini Enterprise te permite consultar y buscar tus documentos en Cloud Storage de manera conversacional o tradicional.

Lab práctico: Crea una canalización de captura de datos de extremo a extremo con Document AI y Cloud Functions

Configurar la canalización completa como se ve demora de 60 a 90 minutos; la parte de Document AI tarda 10 minutos.

Búsqueda, etiquetado y procesamiento de imágenes

Usa la API de Cloud Vision y AutoML para etiquetar y procesar imágenes

El etiquetado de imágenes también se conoce como etiquetado de recursos de imágenes.

La API de Cloud Vision puede identificar y etiquetar objetos generales, puntos de referencia, ubicaciones, logotipos, actividades, especies de animales, productos y mucho más en una imagen. Una vez que las imágenes están etiquetadas con las etiquetas detectadas, la búsqueda, el procesamiento y la administración de imágenes se automatizan y son más fáciles.

Si necesitas etiquetas personalizadas orientadas, usa Cloud AutoML para entrenar un modelo de AA personalizado.

Para usar las tecnologías de OCR de Googlelocal, usa OCR local, disponible en Cloud Marketplace.

diagrama de arquitectura que muestra cómo funcionan AutoML y Cloud Vision AI con otros productos de Google Cloud para analizar imágenes

Instructivos

Usa la API de Cloud Vision y AutoML para etiquetar y procesar imágenes

El etiquetado de imágenes también se conoce como etiquetado de recursos de imágenes.

La API de Cloud Vision puede identificar y etiquetar objetos generales, puntos de referencia, ubicaciones, logotipos, actividades, especies de animales, productos y mucho más en una imagen. Una vez que las imágenes están etiquetadas con las etiquetas detectadas, la búsqueda, el procesamiento y la administración de imágenes se automatizan y son más fáciles.

Si necesitas etiquetas personalizadas orientadas, usa Cloud AutoML para entrenar un modelo de AA personalizado.

Para usar las tecnologías de OCR de Googlelocal, usa OCR local, disponible en Cloud Marketplace.

Recursos adicionales

Ejemplo de precios

Para ejecutar una canalización de procesamiento de imágenes básica que detecta etiquetas como se muestra a la derecha, tu costo mensual sería USD 27.36.

Puedes verificar los supuestos sobre el uso que se hicieron para llegar a esta cifra en la calculadora de precios.

Las primeras 1,000 unidades por mes son gratuitas.

Arquitectura de referencia de etiquetado, procesamiento y búsqueda de imágenes

Extrae texto de imágenes

Extrae texto de imágenes con la API de Cloud Vision

Mediante la API de Cloud Vision, puedes detectar y extraer texto y escritura a mano de cualquier imagen en diferentes idiomas. También tiene compatibilidad multirregional para la que puedes especificar el almacenamiento de datos a nivel de continente y el procesamiento de OCR.

Puedes obtener resultados inmediatos para una pequeña cantidad de imágenes (hasta 16 por solicitud) o procesar por lotes una mayor cantidad de imágenes (hasta a 2,000 por solicitud) de forma asíncrona para obtener un resultado más adelante.

Arquitectura de referencia de la API de Cloud Vision

Instructivos

Extrae texto de imágenes con la API de Cloud Vision

Mediante la API de Cloud Vision, puedes detectar y extraer texto y escritura a mano de cualquier imagen en diferentes idiomas. También tiene compatibilidad multirregional para la que puedes especificar el almacenamiento de datos a nivel de continente y el procesamiento de OCR.

Puedes obtener resultados inmediatos para una pequeña cantidad de imágenes (hasta 16 por solicitud) o procesar por lotes una mayor cantidad de imágenes (hasta a 2,000 por solicitud) de forma asíncrona para obtener un resultado más adelante.

Recursos adicionales

Ejemplo de precios

Para ejecutar una canalización de procesamiento básica que extrae texto de las imágenes como se muestra a la derecha, tu costo mensual sería USD 27.36.

Puedes verificar los supuestos sobre el uso que se hicieron para llegar a esta cifra en la calculadora de precios.

Las primeras 1,000 unidades por mes son gratuitas.

Precios

¿Cuánto cuesta mi caso de uso?	Obtén información sobre el costo mensual de la solución para un caso de uso, con los productos que necesitas y las suposiciones clave sobre el uso.
Caso de uso	Productos usados	Supuestos sobre el uso	Costo mensual estimado (USD)
Búsqueda, etiquetado y procesamiento de imágenes	Cloud Vision Cloud Storage Pub/Sub Cloud Run	1. 15,000 llamadas a la API de detección de etiquetas de Cloud Vision al mes 2. 100 GiB de almacenamiento mensual 3. Una CPU de 1.25 GiB 4. Cuatro GiB publicados a diario a través de Pub/Sub Consulta los detalles del cálculo en la calculadora	$27.36
Extrae texto y estadísticas de documentos	Document AI Cloud Storage BigQuery Cloud Functions	1. 1,000 llamadas a la API del analizador de formularios de Document AI al mes 2. 100 GiB de almacenamiento mensual 3. 1 TiB de consultas mensuales 4. RAM: 512 MB, CPU: 800 MHz Consulta los detalles del cálculo en la calculadora	$71.87
Extrae texto de imágenes	Cloud Vision Cloud Storage Pub/Sub Cloud Run	1. 15,000 llamadas mensuales a la API de OCR de Cloud Vision 2. 100 GiB de almacenamiento mensual 3. Una CPU de 1.25 GiB 4. Cuatro GiB publicados a diario a través de Pub/Sub Consulta los detalles del cálculo en la calculadora	$27.36

Consulta todos los detalles del precio de unidad para Document AI, la API de Vision y AutoML.

¿Cuánto cuesta mi caso de uso?

Obtén información sobre el costo mensual de la solución para un caso de uso, con los productos que necesitas y las suposiciones clave sobre el uso.

Búsqueda, etiquetado y procesamiento de imágenes

Productos usados

Cloud Vision

Cloud Storage

Pub/Sub

Cloud Run

Supuestos sobre el uso

1. 15,000 llamadas a la API de detección de etiquetas de Cloud Vision al mes

2. 100 GiB de almacenamiento mensual

3. Una CPU de 1.25 GiB

4. Cuatro GiB publicados a diario a través de Pub/Sub

Consulta los detalles del cálculo en la calculadora

Costo mensual estimado (USD)

$27.36

Extrae texto y estadísticas de documentos

Productos usados

Document AI

Cloud Storage

BigQuery

Cloud Functions

Supuestos sobre el uso

1. 1,000 llamadas a la API del analizador de formularios de Document AI al mes

2. 100 GiB de almacenamiento mensual

3. 1 TiB de consultas mensuales

4. RAM: 512 MB, CPU: 800 MHz

Consulta los detalles del cálculo en la calculadora

Costo mensual estimado (USD)

$71.87

Extrae texto de imágenes

Productos usados

Cloud Vision

Cloud Storage

Pub/Sub

Cloud Run

Supuestos sobre el uso

1. 15,000 llamadas mensuales a la API de OCR de Cloud Vision

2. 100 GiB de almacenamiento mensual

3. Una CPU de 1.25 GiB

4. Cuatro GiB publicados a diario a través de Pub/Sub

Consulta los detalles del cálculo en la calculadora

Costo mensual estimado (USD)

$27.36

Consulta todos los detalles del precio de unidad para Document AI, la API de Vision y AutoML.

Calculadora de precios

Obtén todas las herramientas que necesitas en un solo lugar para estimar el costo de tu proyecto.

Cotización personalizada

Comunícate con nuestro equipo de Ventas a fin de obtener una cotización personalizada para las necesidades únicas de tu organización.

OCR (reconocimiento óptico de caracteres)

OCR (reconocimiento óptico de caracteres) con IA de Google Cloud de primer nivel

Contenido destacado de OCR

¿Qué es OCR?

¿Qué tipos de OCR ofrece Google Cloud?

¿Cómo funciona OCR en Google Cloud?

¿Cómo funcionan en conjunto la IA de Google Cloud y el OCR?

¿Qué solución de OCR es adecuada para mí?

Observa el OCR de documentos en acción con tus propios documentos.

Extrae texto de documentos con la IA generativa

Obtén estadísticas de documentos específicos con Document AI

Instructivos

Obtén estadísticas de documentos específicos con Document AI

Crea una solución de documentos de extremo a extremo

Compila una canalización de procesamiento y comprensión de documentos

Instructivos

Compila una canalización de procesamiento y comprensión de documentos

Búsqueda, etiquetado y procesamiento de imágenes

Usa la API de Cloud Vision y AutoML para etiquetar y procesar imágenes

Ejemplo de precios

Instructivos

Usa la API de Cloud Vision y AutoML para etiquetar y procesar imágenes

Recursos adicionales

Ejemplo de precios

Extrae texto de imágenes

Extrae texto de imágenes con la API de Cloud Vision

Ejemplo de precios

Instructivos

Extrae texto de imágenes con la API de Cloud Vision

Recursos adicionales

Ejemplo de precios

Calculadora de precios

Cotización personalizada

Comienza tu prueba de concepto

Los clientes nuevos obtienen hasta $300 en créditos gratuitos para probar los productos de Google Cloud.

¿Tienes un proyecto grande?

Consulta las muestras de código para conocer las soluciones y los casos de uso de OCR

Aprende a detectar etiquetas con la API de Cloud Vision

Aprende a automatizar una canalización de procesamiento de documentos con la IA de Google