Descripción general de la extracción

Document AI ofrece varios productos para extraer información de documentos en diferentes casos de uso:

Analizador de formularios

El Analizador de formularios extrae pares clave-valor (KVP), tablas, marcas de selección (casillas de verificación) y campos genéricos para aumentar y automatizar la extracción. Puede extraer hasta 11 entidades genéricas y casillas de verificación listas para usar. No especificas los campos (esquema) que deseas extraer con el Analizador de formularios. El modelo detecta y devuelve entidades de interés de cada página de los documentos.

Extractor personalizado

El extractor personalizado extrae entidades que defines en el esquema y ofrece tres opciones de modelado: modelo base, modelo personalizado basado en datos y modelo personalizado basado en plantillas. Dado que los modelos de base arrojan resultados prometedores con pocos datos de entrenamiento o sin ellos, te recomendamos que comiences con el modelo de base como primera opción y pruebes otras opciones según sea necesario. Los modelos de base realizan predicciones con pocos o ningún ejemplo, según hasta 5 documentos etiquetados en el conjunto de datos, y predicciones ajustadas con más de 10 documentos etiquetados en el conjunto de datos.

Método de entrenamiento Ejemplos de documentos Variación del diseño del documento Texto o párrafos de formato libre Cantidad de documentos de entrenamiento para una calidad lista para la producción, según la variabilidad
Modelo de ajuste y de base (IA generativa) Contrato, condiciones del servicio, factura, estado de cuenta, conocimiento de embarque o comprobantes de pago De mayor a menor (opción preferida) Alto. Mediana: De 0 a más de 50 documentos
Modelo personalizado. Modelo. Formularios similares con variación de diseño entre años o proveedores (por ejemplo, el W9) De baja a media. Baja. Alta: De 10 a más de 100 documentos
Plantilla. Formularios fiscales con un diseño fijo (por ejemplo, los formularios 941 y 709) Ninguno Baja. Baja (3 documentos).

Dado que los modelos de base suelen requerir menos documentos de entrenamiento, se recomiendan como la primera opción para todos los diseños de variables.

Analizador de diseño

El analizador de diseño transforma documentos en varios formatos en representaciones estructuradas, lo que hace que el contenido, como párrafos, tablas, listas y elementos estructurales, como encabezados, encabezados de página y pies de página, sea accesible, y crea fragmentos contextuales que facilitan la recuperación de información en una variedad de apps de IA generativa y descubrimiento.