Enriquece un procesador previamente entrenado

Con el Analizador de facturas, puedes enriquecer un procesador previamente entrenado para mejorar la precisión. Empiezas con un modelo prediseñado, lo entrenas con tus datos y agregas campos personalizados. Los formatos de las facturas son diversos, y el enriquecimiento de un analizador de facturas genérico con tus datos puede mejorar la exactitud en formatos específicos y permitir que el analizador extraiga campos que no son compatibles con el modelo previamente entrenado. Se proporcionan datos de muestra, pero puedes seguir los mismos procedimientos con tus propios datos.


Para seguir la guía paso a paso en esta tarea directamente en la consola de Google Cloud, haz clic en Guiarme:

GUIARME


Antes de comenzar

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Enable the Document AI, Cloud Storage APIs.

    Enable the APIs

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Make sure that billing is enabled for your Google Cloud project.

  7. Enable the Document AI, Cloud Storage APIs.

    Enable the APIs

Crea un procesador

  1. En el menú de navegación de la consola de Google Cloud, selecciona Document AI y selecciona Galería del procesador.

    Galería de procesadores

  2. En la Galería de procesadores, busca Analizador de facturas y selecciona Crear.

    uptrain-a-legacy-processor-1

  3. Ingresa un Nombre del procesador, como invoice-parser-for-uptraining.

  4. Selecciona la región más cercana a ti.

  5. Selecciona Crear. Aparecerá la pestaña Processor Details.

    uptrain-a-legacy-processor-2

Crea un bucket de Cloud Storage para el conjunto de datos

Para entrenar este procesador nuevo, debes crear un conjunto de datos con datos de entrenamiento y prueba a fin de ayudar al procesador a identificar las entidades que deseas extraer.

Este conjunto de datos requiere un nuevo bucket de Cloud Storage. No uses el mismo bucket en el que se almacenan tus documentos.

  1. Ve a la pestaña Entrenar del procesador.

  2. Selecciona Establecer la ubicación del conjunto de datos. Se te pedirá que selecciones o crees un bucket o una carpeta de Cloud Storage vacíos.

    uptrain-a-legacy-processor-3

  3. Selecciona Explorar para abrir Seleccionar carpeta.

  4. Selecciona Crear un bucket nuevo y sigue las indicaciones para crear uno nuevo. Si deseas obtener más información para crear un bucket de Cloud Storage, consulta Buckets de Cloud Storage.

    Nota: Un bucket es la entidad de almacenamiento de nivel superior, en la que puedes anidar carpetas. En lugar de crear y seleccionar un bucket, también puedes crear y seleccionar una carpeta vacía dentro de un bucket existente, si así lo prefieres. Consulta Carpetas simuladas.

    Después de crear el bucket, aparecerá la página Seleccionar carpeta.

  5. En la página Seleccionar carpeta de tu bucket, elige la opción Seleccionar en la parte inferior del diálogo.

    uptrain-a-legacy-processor-4

  6. Asegúrate de que la ruta de destino se propague con el nombre del bucket que seleccionaste. Selecciona Crear conjunto de datos. La creación del conjunto de datos puede tardar varios minutos.

    uptrain-a-legacy-processor-5

Importa un documento de muestra para el etiquetado manual

A continuación, importa un archivo PDF de factura de muestra a tu conjunto de datos. Etiqueta los campos de este documento para ayudar en el proceso de enriquecimiento posterior.

En esta guía, se te proporcionará un archivo representativo para que sea el documento de muestra.

  1. En la pestaña Entrenar, selecciona Importar documentos.

    uptrain-a-legacy-processor-6

  2. Para este ejemplo, ingresa el nombre de este bucket en Ruta de origen. Esta vincula directamente a un documento.

    cloud-samples-data/documentai/codelabs/uptraining/pdfs
    
  3. En División de datos, selecciona Sin asignar. El documento de esta carpeta no está asignado al conjunto de prueba ni de entrenamiento. Deja desmarcada la opción Importar con etiquetado automático.

  4. Selecciona Importar. Document AI lee los documentos del bucket en el conjunto de datos. No modifica el bucket de importación ni lee desde el bucket una vez que se completa la importación.

Cuando importas documentos, puedes asignarlos de forma opcional al conjunto de Entrenamiento o Prueba cuando se importan, o esperar para asignarlos más tarde.

Si deseas borrar uno o más documentos que importaste, selecciónalos en la pestaña Entrenar y selecciona Borrar.

Si deseas obtener más información sobre cómo preparar tus datos para importar, consulta la Guía de preparación de datos.

Define el esquema del procesador

Es posible que tu conjunto de datos no contenga todas las etiquetas que admite el analizador de facturas. Si es así, debes marcar las etiquetas que no se usan como Inactive antes de comenzar el entrenamiento. También puedes agregar una o más etiquetas personalizadas antes de comenzar el enriquecimiento.

  1. En la pestaña Entrenar, selecciona Editar esquema en la parte inferior izquierda. Se abrirá la página Administrar etiquetas.

  2. Para inhabilitar las etiquetas que no se utilizan, selecciona las casillas de verificación para los campos que no estén en la siguiente lista y, a continuación, selecciona en Inhabilitar. Los siguientes campos deben permanecer habilitados:

    invoice_date
    line_item
      amount
      description
    receiver_address
    receiver_name
    supplier_address
    supplier_name
    total_amount
    

    Nota: No se pueden borrar las etiquetas. En cambio, puedes inhabilitar las etiquetas que no quieras usar.

  3. Selecciona Guardar cuando las etiquetas estén completas.

    uptrain-a-legacy-processor-7

  4. Haz clic en la flecha hacia atrás para volver a la página Entrenar.

Etiqueta un documento

El proceso de seleccionar texto en un documento y aplicar etiquetas se conoce como anotación.

  1. Regresa a la pestaña Entrenar y selecciona un documento para abrir la consola de Administración de etiquetas.

  2. A continuación, selecciona la etiqueta de esquema en el panel izquierdo que corresponde al valor que deseas anotar y aplica la etiqueta.

  3. De forma predeterminada, usa la herramienta Cuadro delimitador o la herramienta Seleccionar texto para varios valores de línea, para seleccionar el contenido y aplicar la etiqueta.

    Por ejemplo, en esta factura, al texto “McWilliam Piping International Piping Company” se le debe asignar la etiqueta supplier_name. Puedes usar el filtro de texto para buscar nombres de etiquetas.

    Nota: La herramienta Seleccionar texto no funciona con todos los valores de texto, por lo que debes usar el cuadro delimitador si corresponde. También puedes seleccionar campos que no sean de texto, como casillas de verificación, mediante la herramienta Cuadro delimitador.

  4. Revisa los valores de texto detectados para asegurarte de que reflejen el texto correcto del documento.

    • Cuando selecciones texto que corresponda a una etiqueta, asegúrate de incluir únicamente el texto relevante. Por ejemplo, para una etiqueta invoice_id, no incluyas caracteres como # que a menudo preceden al valor numérico. No incluyas símbolos de moneda, como $, para el dinero.

      • Asegúrate de anotar todas las instancias de una entidad. Por ejemplo, supplier_name o invoice_id pueden ocurrir varias veces en el documento, y cada instancia debe anotarse.
  5. Repite el proceso para cada campo que desees etiquetar.

Este es un ejemplo del conjunto completo de etiquetas con el texto correspondiente.

Nombre de la etiqueta Texto
supplier_name McWilliam Piping International Piping Company
supplier_address 14368 Pipeline Ave Chino, CA 91710
invoice_id 10001
due_date 2020-01-02
line_item/description Knuckle Couplers
line_item/quantity 9
line_item/unit_price 74.43
line_item/amount 669.87
line_item/description PVC Pipe 12 Inch
line_item/quantity 7
line_item/unit_price 15.90
line_item/amount 111.30
line_item/description Copper Pipe
line_item/quantity 7
line_item/unit_price 91.20
line_item/amount 638.40
net_amount 1,419.57
total_tax_amount 113.57
total_amount 1,533.14
currency $
  1. Selecciona Marcar como etiquetado cuando termines de anotar el documento.

    En la pestaña Entrenar, el panel izquierdo muestra que se etiquetó 1 documento.

Asigna el documento anotado en el conjunto de entrenamiento

Ahora que etiquetaste este documento de ejemplo, puedes asignarlo al conjunto de entrenamiento.

  1. En la pestaña Entrenar, selecciona la casilla de verificación Seleccionar todo.

  2. En la lista Asignar al conjunto, selecciona Entrenamiento.

En el panel izquierdo, puedes ver que se asignó 1 documento al conjunto de entrenamiento.

Importa datos etiquetados previamente a los conjuntos de entrenamiento y prueba

El enriquecimiento de Document AI requiere un mínimo de 10 documentos en los conjuntos de entrenamiento y de prueba, junto con 10 instancias de cada etiqueta en cada conjunto.

Se recomienda tener al menos 50 documentos en cada conjunto, con 50 instancias de cada etiqueta, para obtener un mejor rendimiento. Por lo general, con más datos de entrenamiento se consiguen resultados más precisos.

En esta guía, se proporcionan datos etiquetados previamente. Si trabajas en tu propio proyecto, deberás determinar cómo etiquetar tus datos. Consulta Opciones de etiquetado.

  1. Selecciona Importar documentos.

  2. Ingresa la siguiente ruta en Ruta de acceso del origen. Este bucket contiene documentos etiquetados previamente en el formato Documento JSON.

    cloud-samples-data/documentai/Custom/Invoices/JSON
    
  3. En la lista División de datos, selecciona División automática. Esto divide automáticamente los documentos para tener un 80% en el conjunto de entrenamiento y un 20% en el conjunto de prueba. Deje desmarcada la opción Importar con etiquetado automático.

  4. Selecciona Importar. La importación puede tardar varios minutos. Luego, encontrarás los documentos en la pestaña Entrenar.

Etiqueta de forma automática los documentos importados recientemente (opcional)

Cuando importas documentos sin etiquetar para un procesador con una versión de procesador implementada existente, puedes usar el etiquetado automático a fin de ahorrar tiempo.

  1. En la página Entrenar, Importar documentos.

  2. Copia y pega la siguiente ruta de Cloud Storage. Este directorio contiene cinco PDFs de facturas sin etiquetar. En la lista desplegable División de datos, selecciona Entrenamiento.

    cloud-samples-data/documentai/Custom/Invoices/PDF_Unlabeled
    
  3. En la sección Etiquetado automático, selecciona la casilla de verificación Importar con etiquetado automático.

  4. Selecciona una versión del procesador existente para etiquetar los documentos.

    • Por ejemplo: pretrained-invoice-v1.3-2022-07-15.
  5. Selecciona Importar y espera a que los documentos se importen. Puedes cerrar esta página y volver más tarde.

    • Cuando se completa la importación, los documentos aparecen en la página Entrenar en la sección Etiquetado automáticamente.
  6. No puedes usar documentos etiquetados automáticamente para entrenamiento o pruebas sin marcarlos como etiquetados. Ve a la sección Etiquetado automático para ver los documentos etiquetados automáticamente.

  7. Selecciona el primer documento para ingresar a la consola de etiquetado.

  8. Verifica la etiqueta para asegurarte de que sea correcta. Realiza los ajustes necesarios.

  9. Cuando termines, selecciona Marcar como etiquetado.

  10. Repite la verificación de etiquetas para cada documento etiquetado automáticamente y, luego, vuelve a la página Entrenar para usar los datos del entrenamiento.

Entrena el procesador

Ahora que importaste los datos de entrenamiento y prueba, puedes entrenar el procesador. Dado que el entrenamiento puede tardar varias horas, asegúrate de haber configurado el procesador con los datos y las etiquetas correspondientes antes de comenzar el entrenamiento.

  1. Selecciona Enriquecer versión nueva.

  2. En el campo Nombre de la versión, ingresa un nombre para esta versión del procesador, como invoice-uptrain-1.

  3. (Opcional) Selecciona Ver estadísticas de etiquetas para buscar información sobre las etiquetas de documentos. Esto puede ayudarte a determinar tu cobertura. Selecciona Cerrar para volver a la configuración de entrenamiento.

  4. Selecciona Comenzar entrenamiento. Puedes verificar el estado en el panel derecho.

    Se abrirá la página Administración de conjuntos de datos. Puedes ver el estado del entrenamiento en el lado derecho. Es probable que el entrenamiento tarde algunas horas, según el tamaño de tu conjunto de datos. Puedes salir de esta página y volver más tarde.

Implementa la versión del procesador

  1. Una vez finalizado el entrenamiento, navega a la pestaña Administrar versiones. Puedes ver detalles sobre la versión que acabas de entrenar.

  2. Selecciona los tres puntos verticales a la derecha de la versión que deseas implementar y selecciona Implementar versión.

  3. Selecciona Implementar en la ventana emergente.

    La implementación tarda unos minutos en completarse.

Evalúa y prueba el procesador

  1. Una vez finalizada la implementación, navega a la pestaña Evaluar y probar.

    En esta página, puedes ver las métricas de evaluación, incluidas la puntuación F1, la precisión y recuperación del documento completo, y las etiquetas individuales. Para obtener más información sobre la evaluación y las estadísticas, consulta Evalúa el procesador.

  2. Descarga un documento que no haya participado en pruebas ni entrenamientos anteriores para que puedas usarlo a fin de evaluar la versión del procesador. Si usas tus propios datos, debes usar un documento que se reserve para ello.

    Descargar PDF

  3. Selecciona Subir documento de prueba y selecciona el documento que acabas de descargar.

    Se abrirá la página Análisis del analizador de facturas. El resultado de la pantalla muestra qué tan bien se clasificó el documento.

    También puedes volver a ejecutar la evaluación en un conjunto de prueba diferente o en una versión del procesador.

Usar el procesador

Creaste y enriqueciste correctamente un procesador del Analizador de facturas.

Puedes administrar tus versiones de procesador con entrenamiento personalizado como cualquier otra versión de procesador, por ejemplo, cuando migras a un procesador más reciente cuando uno deja de estar disponible. Para obtener más información, consulta Administra versiones de procesadores.

Puedes enviar una solicitud de procesamiento a tu procesador personalizado, y la respuesta puede manejarse de la misma manera que otros procesadores de extracción de entidades.

Limpia

Sigue estos pasos para evitar que se apliquen cargos a tu cuenta de Google Cloud por los recursos que usaste en esta página.

Para evitar cargos innecesarios de Google Cloud , usa la consola de Google Cloud para borrar el procesador y el proyecto si no los necesitas.

Si creaste un proyecto nuevo para aprender sobre Document AI y ya no lo necesitas, [bórralo][delete-project].

Si usaste un proyecto existente de Google Cloud , borra los recursos que creaste para evitar que se generen cargos en tu cuenta:

  1. En el menú de navegación de la consola de Google Cloud, selecciona Document AI y, luego, Mis procesadores.

  2. Selecciona Más accionesen la misma fila del procesador que quieres borrar.

  3. Selecciona Borrar procesador, escribe el nombre del procesador y, luego, vuelve a seleccionar Borrar para confirmar.

¿Qué sigue?