Extracción basada en plantillas

Puedes entrenar un modelo de alto rendimiento con tan solo tres documentos de entrenamiento y tres de prueba para casos de uso de diseño fijo. Acelera el desarrollo y reduce el tiempo de producción de tipos de documentos basados en plantillas, como W9, 1040, ACORD, encuestas y cuestionarios.

Configuración del conjunto de datos

Se requiere un conjunto de datos de documentos para entrenar, enriquecer o evaluar una versión del procesador. Los procesadores de Document AI aprenden de ejemplos, al igual que los humanos. El conjunto de datos alimenta la estabilidad del procesador en términos de rendimiento.

Conjunto de datos de entrenamiento

Para mejorar el modelo y su precisión, entrena un conjunto de datos en tus documentos. El modelo se compone de documentos con verdad fundamental. Necesitas un mínimo de tres documentos para entrenar un modelo nuevo.

Conjunto de datos de prueba

El conjunto de datos de prueba es el que usa el modelo para generar una puntuación F1 (precisión). Se compone de documentos con verdad fundamental. Para ver con qué frecuencia el modelo acierta, se usa la verdad fundamental para comparar las predicciones del modelo (campos extraídos del modelo) con las respuestas correctas. El conjunto de datos de prueba debe tener al menos tres documentos.

Antes de comenzar

Si aún no lo hiciste, habilita lo siguiente:

Prácticas recomendadas para el etiquetado en modo de plantilla

El etiquetado adecuado es uno de los pasos más importantes para lograr una alta precisión. El modo de plantilla tiene una metodología de etiquetado única que difiere de otros modos de entrenamiento:

  • Dibuja cuadros de límite alrededor de toda el área en la que esperas que haya datos (por etiqueta) dentro de un documento, incluso si la etiqueta está vacía en el documento de entrenamiento que estás etiquetando.
  • Puedes etiquetar campos vacíos para el entrenamiento basado en plantillas. No etiquetes los campos vacíos para el entrenamiento basado en modelos.

Compila y evalúa un extractor personalizado con el modo de plantilla

  1. Crea un extractor personalizado. Crea un procesador y define los campos que deseas extraer siguiendo las prácticas recomendadas, lo cual es importante porque afecta la calidad de la extracción.

  2. Establece la ubicación del conjunto de datos. Selecciona la carpeta de opciones predeterminada (administrada por Google). Esto podría hacerse automáticamente poco después de crear el procesador.

  3. Navega a la pestaña Compilación y selecciona Importar documentos con el etiquetado automático habilitado. Por lo general, agregar más documentos que el mínimo de tres necesarios no mejora la calidad del entrenamiento basado en plantillas. En lugar de agregar más, enfócate en etiquetar un conjunto pequeño con mucha precisión.

  4. Extender los cuadros de límite Estas casillas para el modo de plantilla deberían verse como los ejemplos anteriores. Extiende los cuadros delimitadores siguiendo las prácticas recomendadas para obtener el mejor resultado.

  5. Entrenamiento de modelos

    1. Selecciona Entrenar versión nueva.
    2. Asigna un nombre a la versión del procesador.
    3. Ve a Mostrar opciones avanzadas y selecciona el enfoque del modelo basado en plantillas.

    template-based-extraction-3

  6. Evaluación.

    1. Ve a Evalúa y prueba.
    2. Selecciona la versión que acabas de entrenar y, luego, Ver evaluación completa.

    template-based-extraction-4

    Ahora verás métricas como la puntuación F1, la precisión y la recuperación para todo el documento y cada campo. 1. Decide si el rendimiento cumple con tus objetivos de producción y, si no es así, vuelve a evaluar los conjuntos de entrenamiento y prueba.

  7. Establece una versión nueva como predeterminada.

    1. Navega a Administrar versiones.
    2. Selecciona para ver el menú de configuración y, luego, marca Establecer como predeterminado.

    template-based-extraction-5

    Tu modelo ahora está implementado y los documentos que se envían a este procesador usan tu versión personalizada. Quieres evaluar el rendimiento del modelo (más detalles sobre cómo hacerlo) para verificar si requiere más entrenamiento.

Referencia de evaluación

El motor de evaluación puede realizar coincidencias exactas o coincidencias aproximadas. Para una coincidencia exacta, el valor extraído debe coincidir exactamente con la verdad fundamental o se cuenta como un error.

Las extracciones de coincidencias aproximadas que tenían pequeñas diferencias, como diferencias en el uso de mayúsculas, aún se consideran coincidencias. Esto se puede cambiar en la pantalla Evaluación.

template-based-extraction-6

Etiquetado automático con el modelo fundamental

El modelo de base puede extraer campos con exactitud para una variedad de tipos de documentos, pero también puedes proporcionar datos de entrenamiento adicionales para mejorar la precisión del modelo para estructuras de documentos específicas.

Document AI usa los nombres de etiquetas que defines y las anotaciones anteriores para que sea más rápido y fácil etiquetar documentos a gran escala con el etiquetado automático.

  1. Después de crear un procesador personalizado, ve a la pestaña Comenzar.
  2. Selecciona Crear campo nuevo.

    template-based-extraction-7

  3. Navega a la pestaña Compilación y, luego, selecciona Importar documentos.

    template-based-extraction-8

  4. Selecciona la ruta de los documentos y el conjunto al que se deben importar. Marca la casilla de verificación de etiquetado automático y selecciona el modelo de base.

  5. En la pestaña Compilación, selecciona Administrar conjunto de datos. Deberías ver los documentos que importaste. Selecciona uno de tus documentos.

    template-based-extraction-9

  6. Verás las predicciones del modelo destacadas en color púrpura. Debes revisar cada etiqueta predicha por el modelo y asegurarte de que sea correcta. Si faltan campos, también debes agregarlos.

    template-based-extraction-10

  7. Una vez que se haya revisado el documento, selecciona Marcar como etiquetado.

  8. El documento ya está listo para que lo use el modelo. Asegúrate de que el documento esté en el conjunto de prueba o entrenamiento.