Descripción general de la extracción
Document AI ofrece varios productos para extraer información de documentos para diferentes casos de uso:
- Analizador de formularios
Extractor personalizado, que ofrece tres tipos de modelado diferentes:
- Modelo de base
- Basado en modelos personalizados
- Basado en una plantilla personalizada
Analizador de formularios
El analizador de formularios extrae pares clave-valor (KVK), tablas, marcas de selección (casillas de verificación) y campos genéricos para mejorar y automatizar la extracción. Puede extraer hasta 11 entidades genéricas y casillas de verificación de forma predeterminada. No especificas los campos (esquema) que quieres extraer con el analizador de formularios. El modelo detecta y muestra entidades de interés de cada página de los documentos.
Extractor personalizado
El extractor personalizado extrae las entidades que defines en el esquema y ofrece tres opciones de modelado: basado en el modelo de base, basado en el modelo personalizado y basado en la plantilla personalizada. Dado que los modelos de base con pocos datos de entrenamiento o sin ellos generan resultados prometedores, te recomendamos que comiences con el modelo de base como primera opción y pruebes otras opciones según sea necesario. Los modelos de base realizan predicciones de cero a pocas imágenes, según hasta 5 documentos etiquetados en el conjunto de datos, y una predicción ajustada con más de 10 documentos etiquetados en el conjunto de datos.
Método de entrenamiento | Ejemplos de documentos | Variación del diseño de documentos | Texto o párrafos de formato libre | Cantidad de documentos de capacitación para obtener una calidad lista para la producción, según la variabilidad | |
---|---|---|---|---|---|
Ajusta el modelo de base (IA generativa). | Contrato, condiciones del servicio, factura, estado de cuenta, conocimiento de embarque o comprobantes de pago | De mayor a menor (opción preferida). | Alto. | Medio: Entre 0 y más de 50 documentos. | |
Modelo personalizado | Modelo. | Formularios similares con variaciones de diseño entre años o proveedores (por ejemplo, W9) | De bajo a medio. | Bajo. | Alto: Entre 10 y más de 100 documentos. |
Plantilla. | Formularios fiscales con un diseño fijo (por ejemplo, los formularios 941 y 709) | Ninguno | Bajo. | Bajo (3 documentos) |
Dado que los modelos de base suelen requerir menos documentos de entrenamiento, se recomiendan como primera opción para todos los diseños de variables.
Analizador de diseño
El analizador de diseño transforma documentos en varios formatos en representaciones estructuradas, lo que permite acceder a contenido como párrafos, tablas, listas y elementos estructurales, como encabezados, pies de página y encabezados de página, y crea fragmentos conscientes del contexto que facilitan la recuperación de información en una variedad de apps de IA generativa y de descubrimiento.