Descripción general del extractor personalizado
El extractor personalizado extrae entidades de documentos de un tipo particular. Por ejemplo, puede extraer los elementos de un menú o el nombre y la información de contacto de un currículum.
Descripción general
El objetivo del extractor personalizado es permitir que los usuarios de Document AI creen soluciones de extracción de entidades personalizadas para tipos de documentos nuevos para los que no hay procesadores previamente entrenados disponibles. El extractor personalizado incluye una combinación de modelos de aprendizaje profundo que reconocen el diseño (para IA generativa y modelos personalizados) y modelos basados en plantillas.
¿Qué método de entrenamiento debo usar?
El extractor personalizado admite una amplia variedad de casos de uso con tres modos diferentes.
Método de entrenamiento | Ejemplos de documentos | Variación del diseño de documentos | Texto o párrafos de formato libre | Cantidad de documentos de capacitación para obtener una calidad lista para la producción, según la variabilidad | |
---|---|---|---|---|---|
Ajusta el modelo de base (IA generativa). | Contrato, condiciones del servicio, factura, estado de cuenta, conocimiento de embarque o comprobantes de pago | De mayor a menor (opción preferida). | Alto. | Medio: Entre 0 y más de 50 documentos. | |
Modelo personalizado | Modelo. | Formularios similares con variaciones de diseño entre años o proveedores (por ejemplo, W9) | De bajo a medio. | Bajo. | Alto: Entre 10 y más de 100 documentos. |
Plantilla. | Formularios fiscales con un diseño fijo (por ejemplo, los formularios 941 y 709) | Ninguno | Bajo. | Bajo (3 documentos) |
Dado que los modelos de base suelen requerir menos documentos de entrenamiento, se recomiendan como primera opción para todos los diseños de variables.
Puntuación de confianza
La puntuación de confianza comunica cuán fuerte tu modelo asocia cada entidad con el valor previsto. El valor está entre cero y uno. Cuanto más cerca esté de uno, mayor será la confianza del modelo en que el valor corresponde a la entidad. Esto permite a los usuarios establecer activadores para la revisión manual de entidades individuales cuando el valor es bajo. Por ejemplo, determinar si el texto de una entidad es "Hello, world!" o "HeIIo vvorld!"
Los beneficios de este enfoque permiten detectar entidades individuales con baja confianza, establecer umbrales para los que se usan las predicciones, seleccionar el umbral de confianza óptimo y desarrollar estrategias nuevas para entrenar modelos con mayor precisión y puntuaciones de confianza.
Para obtener más información sobre los conceptos y las métricas de evaluación, consulta Evaluar el rendimiento.