Procesa documentos con el Analizador de formularios
El analizador de formularios extrae pares clave-valor (KVP), tablas, marcas de selección (como casillas de verificación), campos genéricos y texto para mejorar y automatizar el procesamiento de documentos.
El analizador de formularios se puede considerar en lugar de los otros analizadores cuando el caso de uso incluye lo siguiente:
- Manejar formularios estructurados: se destaca en la extracción de KVP de formularios bien definidos que se ven como formularios convencionales con espacios en blanco etiquetados para completar, como
name: __
. El modelo previamente entrenado de Form Parser ofrece una alta precisión para campos comunes, como nombres, fechas y direcciones. - Se necesita una extracción de tablas flexible: el analizador de formularios extrae de tablas simples (sin celdas que abarquen filas o columnas) que parecen tablas. No se necesita (ni es posible) capacitación. Para la extracción de tablas entrenadas, el extractor personalizado se puede usar con un campo superior que contiene campos secundarios de columna (celda).
- Necesidad de eficiencia: Evita compilar y mantener analizadores de extracción, en especial para tareas de extracción variadas y de gran volumen.
Funciones de extracción de datos
Las funciones del Analizador de formularios incluyen las siguientes:
KVP: Son conjuntos de dos elementos dentro de un documento: una etiqueta o clave y sus datos correspondientes (un valor). Puedes usar directamente los KVP (si las claves son coherentes) o compilar una lógica personalizada para resolver varias claves en información estructurada coherente.
Entidades genéricas: Analiza 11 campos diferentes de los documentos de forma predeterminada. Estos incluyen los siguientes:
email
phone
url
date_time
address
person
organization
quantity
price
id
page_number
Texto y diseño: Usa nuestro motor de OCR más reciente para extraer información de texto y diseño. Esto incluye el texto incorporado de archivos PDF digitales (solo la versión 2.1) o el texto de las imágenes.
Tablas: Detecta y extrae tablas de imágenes y archivos PDF.
Casillas de verificación: Es un detector de marcas de selección de alta calidad que extrae casillas de verificación de imágenes y salidas de PDF como KVP, con el texto más cercano a la casilla de verificación, con un
valueType
que indica si está completa o no.
Idiomas y regiones
- Form Parser 2.0 admite más de 200 idiomas. Obtén más información.
- Ofrecemos asistencia para las funciones en ocho regiones. Obtén más información.
Versiones del modelo
Las siguientes versiones de procesadores son compatibles con esta función. Para obtener más información, consulta Administra versiones de procesadores.
Limitaciones
No se admiten las compresiones JPEG anteriores para TIFF. Es el tipo de encapsulamiento de JPEG definido por la especificación de la versión 6.0 de TIFF.
El modelo de casilla de verificación no admite el análisis de botones de selección. Es posible que algunas casillas de verificación detectadas no tengan las claves correspondientes.
El modelo no analiza de forma confiable un KVP con un valor sin completar, como un formulario en blanco.
Es posible que el análisis de KVP en documentos de ciertos idiomas tenga una calidad inferior a la de los idiomas latinos.
Procesa documentos con el Analizador de formularios
En esta guía de inicio rápido, se presenta la función Analizador de formularios en Document AI. En esta guía de inicio rápido, debes usar la consola de Google Cloud para configurar tu proyecto y autorización de Google Cloud, crear un analizador de formularios y, luego, solicitar a Document AI que procese un formulario en PDF.
Aprenderás a realizar estas tareas:
Habilita Document AI en un Google Cloud proyecto.
Crear un procesador de analizador de formularios, que puede identificar y extraer texto, pares clave-valor, tablas y entidades genéricas de muchos tipos de documentos.
Usar el procesador para anotar un documento de muestra.
Para seguir la guía paso a paso sobre esta tarea de forma directa en la consola de Google Cloud, haz clic en Guiarme:
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Document AI API.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Document AI API.
Crea un procesador de analizador de formularios
Usa la consola de Google Cloud para crear un procesador de analizador de formularios. Consulta Crea y administra procesadores para obtener más información.
En el menú de navegación de la consola de Google Cloud, haz clic en Document AI y selecciona Galería del procesador.
En la Galería de procesadores,
busca Analizador de formularios y selecciona Crear.En la ventana lateral, ingresa un Nombre del procesador, como
quickstart-form-processor
.Selecciona la región más cercana a ti.
Haz clic en el botón Crear (Create).
Se te redireccionará a la página Detalles del procesador del nuevo procesador de analizador de formularios.
Procesador de prueba
Después de crear tu procesador, puedes enviarle solicitudes de anotación.
Descargar el documento de muestra.
Es un archivo PDF que contiene una muestra de un formulario de admisión médica escrito a mano. Este documento se almacena en un bucket de Cloud Storage de acceso público.
Haz clic en el botón
Subir documento de prueba y selecciona el documento que acabas de descargar.Ahora, debes estar en la página Análisis del analizador de formularios. Puedes ver el texto detectado por OCR, los pares clave-valor, las tablas y las entidades genéricas extraídos del documento.
Limpia
Para evitar Google Cloud cargos innecesarios, usa la consola de Google Cloud para borrar tu procesador y proyecto si no los necesitas.
¿Qué sigue?
- Revisa la lista de procesadores.