Extrae texto y datos de imágenes y documentos, convierte contenido no estructurado en datos estructurados para empresas y obtén estadísticas valiosas.
Integra las funciones de OCR en tus aplicaciones a través de APIs.
Los clientes nuevos obtienen $300 en créditos gratuitos cuando se registran para aplicar a las soluciones de OCR que resumen documentos.
Descripción general
Google Cloud ofrece dos tipos de OCR: OCR para documentos, y OCR para imágenes y videos.
Si bien comparten una tecnología básica, Document AI es una plataforma de comprensión de documentos optimizada para su procesamiento. Su Extractor personalizado funciona con IA generativa , que procesa documentos genéricos y específicos del dominio con mayor precisión y rapidez, sin necesidad de elegir un procesador especializado.
Cloud Vision se usa comúnmente para detectar texto, escritura a mano y una amplia variedad de objetos a partir de imágenes y videos.
Google Cloud potencia OCR con la mejor IA de su clase. Va más allá del reconocimiento de texto tradicional, ya que comprende, organiza y enriquece los datos y, en última instancia, genera estadísticas listas para la empresa.
Te brinda la flexibilidad de usar las herramientas de OCR como un paquete unificado para lograr una eficiencia optimizada (p. ej., Document AI) o simplemente llamar a las APIs directamente disponibles en la consola de Google Cloud para integrar las funciones de OCR en tus aplicaciones
Todas las soluciones de OCR que se mencionaron antes te permiten acceder a modelos de AA previamente entrenados que puedes implementar de inmediato a través de una API, o entrenar para mejorar la precisión de tus necesidades específicas.
También puedes entrenar tus propios modelos personalizados con AutoML, sin necesidad de tener experiencia en el aprendizaje automático.
Consulta la documentación de AutoML para crear modelos de AA personalizados.
Si quieres analizar un documento o crear una canalización automatizada de procesamiento de documentos, usa Document AI. Esta solución se encarga de todo el flujo de trabajo en un solo lugar, desde la comprensión de documentos hasta la búsqueda, el almacenamiento, la administración y la gestión de los documentos, además de los datos extraídos.
Si quieres analizar y procesar imágenes, usa Cloud Vision junto con otros productos de Google Cloud para obtener mejores resultados. Consulta la sección de usos comunes para obtener detalles y guías de inicio rápido.
Ambas APIs se pueden probar de forma gratuita con una cuenta de Google Cloud.
Compara las ofertas de OCR
Oferta de OCR | Ideal para | Características clave | |
---|---|---|---|
| Casos de uso generales de extracción de texto que requieren baja latencia y alta capacidad. | Funciones prediseñadas como etiquetado de imágenes, detección de rostros y puntos de referencia, OCR y búsqueda segura. | |
Enterprise Document OCR | Digitaliza texto de documentos (PDF, documentos escaneados como imágenes o archivos DocX de Microsoft). | Extrae texto en más de 200 idiomas (50 idiomas de escritura a mano). Complementos para reconocer fórmulas matemáticas, estilos, etcétera. | |
| Document AI Workbench | Extrae, clasifica y divide documentos con la IA generativa (modelos de base) | Extractor personalizado: Usa modelos de base para crear analizadores con rapidez sin necesidad de etiquetar ni entrenar datos extensos. Clasificador personalizado y divisor de documentos para lograr un procesamiento eficiente. |
| Modelos previamente entrenados | Extracción de texto y campos a partir de documentos específicos del dominio. | Extracción y digitalización de textos en una variedad de documentos de adquisiciones, préstamos, identidad y contratos. |
Casos de uso generales de extracción de texto que requieren baja latencia y alta capacidad.
Funciones prediseñadas como etiquetado de imágenes, detección de rostros y puntos de referencia, OCR y búsqueda segura.
Enterprise Document OCR
Digitaliza texto de documentos (PDF, documentos escaneados como imágenes o archivos DocX de Microsoft).
Extrae texto en más de 200 idiomas (50 idiomas de escritura a mano).
Complementos para reconocer fórmulas matemáticas, estilos, etcétera.
Document AI Workbench
Extrae, clasifica y divide documentos con la IA generativa (modelos de base)
Extractor personalizado: Usa modelos de base para crear analizadores con rapidez sin necesidad de etiquetar ni entrenar datos extensos.
Clasificador personalizado y divisor de documentos para lograr un procesamiento eficiente.
Modelos previamente entrenados
Extracción de texto y campos a partir de documentos específicos del dominio.
Extracción y digitalización de textos en una variedad de documentos de adquisiciones, préstamos, identidad y contratos.
Cómo funciona
Para comprender y procesar documentos, usa Document AI.
Para las imágenes, recomendamos usar Cloud Vision.
Ambos te brindan acceso a los modelos de AA previamente entrenados, que puedes implementar sin modificaciones a través de las APIs o de los modelos de entrenamiento. También puedes entrenar tus propios modelos personalizados desde cero con AutoML, sin necesidad de experiencia en AA.
Las primeras 1,000 unidades al mes son gratuitas cuando usas Cloud Vision o el OCR de documentos. Puedes probarlo con una simple llamada a la API.
Demostración
Prueba la API de Document AI con la función de arrastrar y soltar.
Usos comunes
Con la tecnología de un modelo de base, el extractor personalizado de Document AI extrae texto y datos de documentos genéricos y específicos de dominios, de forma más rápida y con mayor precisión. Configúralos fácilmente con solo 5 a 10 documentos para lograr un rendimiento aún mejor.
Si quieres entrenar tu propio modelo, etiqueta automáticamente tus conjuntos de datos con el modelo de base para acelerar el tiempo de salida.
También puedes optar por usar procesadores especializados previamente entrenados. Consulta la lista completa de procesadores.
Con la tecnología de un modelo de base, el extractor personalizado de Document AI extrae texto y datos de documentos genéricos y específicos de dominios, de forma más rápida y con mayor precisión. Configúralos fácilmente con solo 5 a 10 documentos para lograr un rendimiento aún mejor.
Si quieres entrenar tu propio modelo, etiqueta automáticamente tus conjuntos de datos con el modelo de base para acelerar el tiempo de salida.
También puedes optar por usar procesadores especializados previamente entrenados. Consulta la lista completa de procesadores.
Document AI cuenta con la tecnología de GenAI y ofrece una gran precisión en la extracción de datos de documentos de diferentes diseños y calidad. Puedes conectarlo con Cloud Storage para que tus documentos no estructurados cumplan con las normas de nivel empresarial. BigQuery ayuda a procesar por lotes y analizar los datos extraídos de la forma que quieras. Con Looker, puedes crear fácilmente visualizaciones basadas en tus tablas de BigQuery. Vertex AI Search te permite consultar y buscar tus documentos en Cloud Storage de manera conversacional o tradicional.
Configurar la canalización completa como se ve demora de 60 a 90 minutos; la parte de Document AI tarda 10 minutos.
Document AI cuenta con la tecnología de GenAI y ofrece una gran precisión en la extracción de datos de documentos de diferentes diseños y calidad. Puedes conectarlo con Cloud Storage para que tus documentos no estructurados cumplan con las normas de nivel empresarial. BigQuery ayuda a procesar por lotes y analizar los datos extraídos de la forma que quieras. Con Looker, puedes crear fácilmente visualizaciones basadas en tus tablas de BigQuery. Vertex AI Search te permite consultar y buscar tus documentos en Cloud Storage de manera conversacional o tradicional.
Configurar la canalización completa como se ve demora de 60 a 90 minutos; la parte de Document AI tarda 10 minutos.
El etiquetado de imágenes también se conoce como etiquetado de recursos de imágenes.
La API de Cloud Vision puede identificar y etiquetar objetos generales, puntos de referencia, ubicaciones, logotipos, actividades, especies de animales, productos y mucho más en una imagen. Una vez que las imágenes están etiquetadas con las etiquetas detectadas, la búsqueda, el procesamiento y la administración de imágenes se automatizan y son más fáciles.
Si necesitas etiquetas personalizadas orientadas, usa Cloud AutoML para entrenar un modelo de AA personalizado.
Para usar las tecnologías de OCR de Googlelocal, usa OCR local, disponible en Cloud Marketplace.
Para ejecutar una canalización de procesamiento de imágenes básica que detecta etiquetas como se muestra a la derecha, tu costo mensual sería USD 27.36.
Puedes verificar los supuestos sobre el uso que se hicieron para llegar a esta cifra en la calculadora de precios.
Las primeras 1,000 unidades por mes son gratuitas.
El etiquetado de imágenes también se conoce como etiquetado de recursos de imágenes.
La API de Cloud Vision puede identificar y etiquetar objetos generales, puntos de referencia, ubicaciones, logotipos, actividades, especies de animales, productos y mucho más en una imagen. Una vez que las imágenes están etiquetadas con las etiquetas detectadas, la búsqueda, el procesamiento y la administración de imágenes se automatizan y son más fáciles.
Si necesitas etiquetas personalizadas orientadas, usa Cloud AutoML para entrenar un modelo de AA personalizado.
Para usar las tecnologías de OCR de Googlelocal, usa OCR local, disponible en Cloud Marketplace.
Para ejecutar una canalización de procesamiento de imágenes básica que detecta etiquetas como se muestra a la derecha, tu costo mensual sería USD 27.36.
Puedes verificar los supuestos sobre el uso que se hicieron para llegar a esta cifra en la calculadora de precios.
Las primeras 1,000 unidades por mes son gratuitas.
Mediante la API de Cloud Vision, puedes detectar y extraer texto y escritura a mano de cualquier imagen en diferentes idiomas. También tiene compatibilidad multirregional para la que puedes especificar el almacenamiento de datos a nivel de continente y el procesamiento de OCR.
Puedes obtener resultados inmediatos para una pequeña cantidad de imágenes (hasta 16 por solicitud) o procesar por lotes una mayor cantidad de imágenes (hasta a 2,000 por solicitud) de forma asíncrona para obtener un resultado más adelante.
Para ejecutar una canalización de procesamiento básica que extrae texto de las imágenes como se muestra a la derecha, tu costo mensual sería USD 27.36.
Puedes verificar los supuestos sobre el uso que se hicieron para llegar a esta cifra en la calculadora de precios.
Las primeras 1,000 unidades por mes son gratuitas.
Mediante la API de Cloud Vision, puedes detectar y extraer texto y escritura a mano de cualquier imagen en diferentes idiomas. También tiene compatibilidad multirregional para la que puedes especificar el almacenamiento de datos a nivel de continente y el procesamiento de OCR.
Puedes obtener resultados inmediatos para una pequeña cantidad de imágenes (hasta 16 por solicitud) o procesar por lotes una mayor cantidad de imágenes (hasta a 2,000 por solicitud) de forma asíncrona para obtener un resultado más adelante.
Para ejecutar una canalización de procesamiento básica que extrae texto de las imágenes como se muestra a la derecha, tu costo mensual sería USD 27.36.
Puedes verificar los supuestos sobre el uso que se hicieron para llegar a esta cifra en la calculadora de precios.
Las primeras 1,000 unidades por mes son gratuitas.
Precios
¿Cuánto cuesta mi caso de uso? | Obtén información sobre el costo mensual de la solución para un caso de uso, con los productos que necesitas y las suposiciones clave sobre el uso. | ||
---|---|---|---|
Caso de uso | Productos usados | Supuestos sobre el uso | Costo mensual estimado (USD) |
Búsqueda, etiquetado y procesamiento de imágenes | Cloud Vision Cloud Storage Pub/Sub Cloud Run | 1. 15,000 llamadas a la API de detección de etiquetas de Cloud Vision al mes 2. 100 GiB de almacenamiento mensual 3. Una CPU de 1.25 GiB 4. Cuatro GiB publicados a diario a través de Pub/Sub | $27.36 |
Extrae texto y estadísticas de documentos | Document AI Cloud Storage BigQuery Cloud Functions | 1. 1,000 llamadas a la API del analizador de formularios de Document AI al mes 2. 100 GiB de almacenamiento mensual 3. 1 TiB de consultas mensuales 4. RAM: 512 MB, CPU: 800 MHz | $71.87 |
Extrae texto de imágenes | Cloud Vision Cloud Storage Pub/Sub Cloud Run | 1. 15,000 llamadas mensuales a la API de OCR de Cloud Vision 2. 100 GiB de almacenamiento mensual 3. Una CPU de 1.25 GiB 4. Cuatro GiB publicados a diario a través de Pub/Sub | $27.36 |
Consulta todos los detalles del precio de unidad para Document AI, la API de Vision y AutoML.
¿Cuánto cuesta mi caso de uso?
Obtén información sobre el costo mensual de la solución para un caso de uso, con los productos que necesitas y las suposiciones clave sobre el uso.
Cloud Vision
Cloud Storage
Pub/Sub
Cloud Run
1. 15,000 llamadas a la API de detección de etiquetas de Cloud Vision al mes
2. 100 GiB de almacenamiento mensual
3. Una CPU de 1.25 GiB
4. Cuatro GiB publicados a diario a través de Pub/Sub
$27.36
Document AI
Cloud Storage
BigQuery
Cloud Functions
1. 1,000 llamadas a la API del analizador de formularios de Document AI al mes
2. 100 GiB de almacenamiento mensual
3. 1 TiB de consultas mensuales
4. RAM: 512 MB, CPU: 800 MHz
$71.87
Cloud Vision
Cloud Storage
Pub/Sub
Cloud Run
1. 15,000 llamadas mensuales a la API de OCR de Cloud Vision
2. 100 GiB de almacenamiento mensual
3. Una CPU de 1.25 GiB
4. Cuatro GiB publicados a diario a través de Pub/Sub
$27.36
Consulta todos los detalles del precio de unidad para Document AI, la API de Vision y AutoML.