Enriquece un procesador previamente entrenado
Con el Analizador de facturas, puedes enriquecer un procesador previamente entrenado para mejorar la precisión. Empiezas con un modelo prediseñado, lo entrenas con tus datos y agregas campos personalizados. Los formatos de las facturas son diversos, y el enriquecimiento de un analizador de facturas genérico con tus datos puede mejorar la exactitud en formatos específicos y permitir que el analizador extraiga campos que no son compatibles con el modelo previamente entrenado. Se proporcionan datos de muestra, pero puedes seguir los mismos procedimientos con tus propios datos.
Para seguir la guía paso a paso en esta tarea directamente en la consola de Google Cloud, haz clic en Guiarme:
Antes de comenzar
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Document AI, Cloud Storage APIs.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Document AI, Cloud Storage APIs.
Crea un procesador
En el menú de navegación de la consola de Google Cloud, selecciona Document AI y selecciona Galería del procesador.
En la Galería de procesadores,
busca Analizador de facturas y selecciona Crear.Ingresa un Nombre del procesador, como
invoice-parser-for-uptraining
.Selecciona la región más cercana a ti.
Selecciona Crear. Aparecerá la pestaña Processor Details.
Crea un bucket de Cloud Storage para el conjunto de datos
Para entrenar este procesador nuevo, debes crear un conjunto de datos con datos de entrenamiento y prueba a fin de ayudar al procesador a identificar las entidades que deseas extraer.
Este conjunto de datos requiere un nuevo bucket de Cloud Storage. No uses el mismo bucket en el que se almacenan tus documentos.
Ve a la pestaña
Entrenar del procesador.Selecciona
Establecer la ubicación del conjunto de datos . Se te pedirá que selecciones o crees un bucket o una carpeta de Cloud Storage vacíos.Selecciona
Explorar para abrir Seleccionar carpeta.Selecciona
Crear un bucket nuevo y sigue las indicaciones para crear uno nuevo. Si deseas obtener más información para crear un bucket de Cloud Storage, consulta Buckets de Cloud Storage.Nota: Un bucket es la entidad de almacenamiento de nivel superior, en la que puedes anidar carpetas. En lugar de crear y seleccionar un bucket, también puedes crear y seleccionar una carpeta vacía dentro de un bucket existente, si así lo prefieres. Consulta Carpetas simuladas.
Después de crear el bucket, aparecerá la página Seleccionar carpeta.
En la página Seleccionar carpeta de tu bucket, elige la opción
Seleccionar en la parte inferior del diálogo.Asegúrate de que la ruta de destino se propague con el nombre del bucket que seleccionaste. Selecciona
Crear conjunto de datos . La creación del conjunto de datos puede tardar varios minutos.
Ir directamente al entrenamiento avanzado: Ve a importar datos etiquetados previamente. En lugar de importar un documento de muestra, usa herramientas para etiquetar los campos de forma manual y agrega el documento a los datos de entrenamiento.
Etiqueta y agrega documentos al conjunto de entrenamiento de forma manual: Antes de continuar con el entrenamiento avanzado, ve a Importa un documento de muestra para etiquetarlo de forma manual y completa las instrucciones que se indican allí.
Importa un documento de muestra para el etiquetado manual
A continuación, importa un archivo PDF de factura de muestra a tu conjunto de datos. Etiqueta los campos de este documento para ayudar en el proceso de enriquecimiento posterior.
En esta guía, se te proporcionará un archivo representativo para que sea el documento de muestra.
En la pestaña Entrenar, selecciona
Importar documentos .Para este ejemplo, ingresa el nombre de este bucket en
Ruta de origen . Esta vincula directamente a un documento.cloud-samples-data/documentai/codelabs/uptraining/pdfs
En División de datos, selecciona Sin asignar. El documento de esta carpeta no está asignado al conjunto de prueba ni de entrenamiento. Deja desmarcada la opción Importar con etiquetado automático.
Selecciona Importar. Document AI lee los documentos del bucket en el conjunto de datos. No modifica el bucket de importación ni lee desde el bucket una vez que se completa la importación.
Cuando importas documentos, puedes asignarlos de forma opcional al conjunto de Entrenamiento o Prueba cuando se importan, o esperar para asignarlos más tarde.
Si deseas borrar uno o más documentos que importaste, selecciónalos en la pestaña Entrenar y selecciona Borrar.
Si deseas obtener más información sobre cómo preparar tus datos para importar, consulta la Guía de preparación de datos.
Define el esquema del procesador
Es posible que tu conjunto de datos no contenga todas las etiquetas que admite el analizador de facturas.
Si es así, debes marcar las etiquetas que no se usan como Inactive
antes de
comenzar el entrenamiento. También puedes agregar una o más etiquetas personalizadas antes de comenzar el enriquecimiento.
En la pestaña Entrenar, selecciona
Editar esquema en la parte inferior izquierda. Se abrirá la página Administrar etiquetas.Para inhabilitar las etiquetas que no se utilizan, selecciona las
casillas de verificación para los campos que no estén en la siguiente lista y, a continuación, selecciona en Inhabilitar. Los siguientes campos deben permanecer habilitados:invoice_date line_item amount description receiver_address receiver_name supplier_address supplier_name total_amount
Nota: No se pueden borrar las etiquetas. En cambio, puedes inhabilitar las etiquetas que no quieras usar.
Selecciona
Guardar cuando las etiquetas estén completas.Haz clic en la
flecha hacia atrás para volver a la página Entrenar.
Etiqueta un documento
El proceso de seleccionar texto en un documento y aplicar etiquetas se conoce como anotación.
Regresa a la pestaña Entrenar y selecciona
un documento para abrir la consola de Administración de etiquetas.A continuación, selecciona la etiqueta de esquema en el panel izquierdo que corresponde al valor que deseas anotar y aplica la etiqueta.
De forma predeterminada, usa la herramienta
Cuadro delimitador o la herramientaSeleccionar texto para varios valores de línea, para seleccionar el contenido y aplicar la etiqueta.Por ejemplo, en esta factura, al texto “McWilliam Piping International Piping Company” se le debe asignar la etiqueta
supplier_name
. Puedes usar el filtro de texto para buscar nombres de etiquetas.Nota: La herramienta Seleccionar texto no funciona con todos los valores de texto, por lo que debes usar el cuadro delimitador si corresponde. También puedes seleccionar campos que no sean de texto, como casillas de verificación, mediante la herramienta Cuadro delimitador.
Revisa los valores de texto detectados para asegurarte de que reflejen el texto correcto del documento.
Cuando selecciones texto que corresponda a una etiqueta, asegúrate de incluir únicamente el texto relevante. Por ejemplo, para una etiqueta
invoice_id
, no incluyas caracteres como#
que a menudo preceden al valor numérico. No incluyas símbolos de moneda, como$
, para el dinero.- Asegúrate de anotar todas las instancias de una entidad. Por ejemplo,
supplier_name
oinvoice_id
pueden ocurrir varias veces en el documento, y cada instancia debe anotarse.
- Asegúrate de anotar todas las instancias de una entidad. Por ejemplo,
Repite el proceso para cada campo que desees etiquetar.
Este es un ejemplo del conjunto completo de etiquetas con el texto correspondiente.
Nombre de la etiqueta | Texto |
---|---|
supplier_name |
McWilliam Piping International Piping Company |
supplier_address |
14368 Pipeline Ave Chino, CA 91710 |
invoice_id |
10001 |
due_date |
2020-01-02 |
line_item/description |
Knuckle Couplers |
line_item/quantity |
9 |
line_item/unit_price |
74.43 |
line_item/amount |
669.87 |
line_item/description |
PVC Pipe 12 Inch |
line_item/quantity |
7 |
line_item/unit_price |
15.90 |
line_item/amount |
111.30 |
line_item/description |
Copper Pipe |
line_item/quantity |
7 |
line_item/unit_price |
91.20 |
line_item/amount |
638.40 |
net_amount |
1,419.57 |
total_tax_amount |
113.57 |
total_amount |
1,533.14 |
currency |
$ |
Selecciona
Marcar como etiquetado cuando termines de anotar el documento.En la pestaña Entrenar, el panel izquierdo muestra que se etiquetó 1 documento.
Asigna el documento anotado en el conjunto de entrenamiento
Ahora que etiquetaste este documento de ejemplo, puedes asignarlo al conjunto de entrenamiento.
En la pestaña Entrenar, selecciona la casilla de verificación
Seleccionar todo .En la lista
Asignar al conjunto , selecciona Entrenamiento.
En el panel izquierdo, puedes ver que se asignó 1 documento al conjunto de entrenamiento.
Importa datos etiquetados previamente a los conjuntos de entrenamiento y prueba
El enriquecimiento de Document AI requiere un mínimo de 10 documentos en los conjuntos de entrenamiento y de prueba, junto con 10 instancias de cada etiqueta en cada conjunto.
Se recomienda tener al menos 50 documentos en cada conjunto, con 50 instancias de cada etiqueta, para obtener un mejor rendimiento. Por lo general, con más datos de entrenamiento se consiguen resultados más precisos.
En esta guía, se proporcionan datos etiquetados previamente. Si trabajas en tu propio proyecto, deberás determinar cómo etiquetar tus datos. Consulta Opciones de etiquetado.
Selecciona
Importar documentos .Ingresa la siguiente ruta en
Ruta de acceso del origen . Este bucket contiene documentos etiquetados previamente en el formato Documento JSON.cloud-samples-data/documentai/Custom/Invoices/JSON
En la lista División de datos, selecciona División automática. Esto divide automáticamente los documentos para tener un 80% en el conjunto de entrenamiento y un 20% en el conjunto de prueba. Deje desmarcada la opción Importar con etiquetado automático.
Selecciona Importar. La importación puede tardar varios minutos. Luego, encontrarás los documentos en la pestaña Entrenar.
Etiqueta de forma automática los documentos importados recientemente (opcional)
Cuando importas documentos sin etiquetar para un procesador con una versión de procesador implementada existente, puedes usar el etiquetado automático a fin de ahorrar tiempo.
En la página Entrenar,
Importar documentos .Copia y pega la siguiente ruta de Cloud Storage. Este directorio contiene cinco PDFs de facturas sin etiquetar. En la lista desplegable División de datos, selecciona Entrenamiento.
cloud-samples-data/documentai/Custom/Invoices/PDF_Unlabeled
En la sección Etiquetado automático, selecciona la casilla de verificación
Importar con etiquetado automático .Selecciona una versión del procesador existente para etiquetar los documentos.
- Por ejemplo:
pretrained-invoice-v1.3-2022-07-15
.
- Por ejemplo:
Selecciona Importar y espera a que los documentos se importen. Puedes cerrar esta página y volver más tarde.
- Cuando se completa la importación, los documentos aparecen en la página Entrenar en la sección Etiquetado automáticamente.
No puedes usar documentos etiquetados automáticamente para entrenamiento o pruebas sin marcarlos como etiquetados. Ve a la sección
Etiquetado automático para ver los documentos etiquetados automáticamente.Selecciona el primer documento para ingresar a la consola de etiquetado.
Verifica la etiqueta para asegurarte de que sea correcta. Realiza los ajustes necesarios.
Cuando termines, selecciona
Marcar como etiquetado .Repite la verificación de etiquetas para cada documento etiquetado automáticamente y, luego, vuelve a la página Entrenar para usar los datos del entrenamiento.
Entrena el procesador
Ahora que importaste los datos de entrenamiento y prueba, puedes entrenar el procesador. Dado que el entrenamiento puede tardar varias horas, asegúrate de haber configurado el procesador con los datos y las etiquetas correspondientes antes de comenzar el entrenamiento.
Selecciona
Enriquecer versión nueva .En el campo
Nombre de la versión , ingresa un nombre para esta versión del procesador, comoinvoice-uptrain-1
.(Opcional) Selecciona Ver estadísticas de etiquetas para buscar información sobre las etiquetas de documentos. Esto puede ayudarte a determinar tu cobertura. Selecciona Cerrar para volver a la configuración de entrenamiento.
Selecciona
Comenzar entrenamiento . Puedes verificar el estado en el panel derecho.Se abrirá la página Administración de conjuntos de datos. Puedes ver el estado del entrenamiento en el lado derecho. Es probable que el entrenamiento tarde algunas horas, según el tamaño de tu conjunto de datos. Puedes salir de esta página y volver más tarde.
Implementa la versión del procesador
Una vez finalizado el entrenamiento, navega a la pestaña
Administrar versiones . Puedes ver detalles sobre la versión que acabas de entrenar.Selecciona los
tres puntos verticales a la derecha de la versión que deseas implementar y selecciona Implementar versión.Selecciona
Implementar en la ventana emergente.La implementación tarda unos minutos en completarse.
Evalúa y prueba el procesador
Una vez finalizada la implementación, navega a la pestaña
Evaluar y probar .En esta página, puedes ver las métricas de evaluación, incluidas la puntuación F1, la precisión y recuperación del documento completo, y las etiquetas individuales. Para obtener más información sobre la evaluación y las estadísticas, consulta Evalúa el procesador.
Descarga un documento que no haya participado en pruebas ni entrenamientos anteriores para que puedas usarlo a fin de evaluar la versión del procesador. Si usas tus propios datos, debes usar un documento que se reserve para ello.
Selecciona
Subir documento de prueba y selecciona el documento que acabas de descargar.Se abrirá la página Análisis del analizador de facturas. El resultado de la pantalla muestra qué tan bien se clasificó el documento.
También puedes volver a ejecutar la evaluación en un conjunto de prueba diferente o en una versión del procesador.
Usar el procesador
Creaste y enriqueciste correctamente un procesador del Analizador de facturas.
Puedes administrar tus versiones de procesador con entrenamiento personalizado como cualquier otra versión de procesador, por ejemplo, cuando migras a un procesador más reciente cuando uno deja de estar disponible. Para obtener más información, consulta Administra versiones de procesadores.
Puedes enviar una solicitud de procesamiento a tu procesador personalizado, y la respuesta puede manejarse de la misma manera que otros procesadores de extracción de entidades.
Limpia
Sigue estos pasos para evitar que se apliquen cargos a tu cuenta de Google Cloud por los recursos que usaste en esta página.
Para evitar cargos innecesarios de Google Cloud , usa la consola de Google Cloud para borrar el procesador y el proyecto si no los necesitas.
Si creaste un proyecto nuevo para aprender sobre Document AI y ya no lo necesitas, [bórralo][delete-project].
Si usaste un proyecto existente de Google Cloud , borra los recursos que creaste para evitar que se generen cargos en tu cuenta:
En el menú de navegación de la consola de Google Cloud, selecciona Document AI y, luego, Mis procesadores.
Selecciona
Más acciones en la misma fila del procesador que quieres borrar.Selecciona Borrar procesador, escribe el nombre del procesador y, luego, vuelve a seleccionar Borrar para confirmar.