Crea un clasificador de documentos personalizado en la consola de Google Cloud
El clasificador personalizado está diseñado para clasificar documentos. Se compila desde cero con tus propios documentos y clases personalizadas.
Crea un clasificador personalizado en la consola de Google Cloud
Puedes crear clasificadores personalizados que se adaptan específicamente a tus documentos, entrenados y evaluados con tus datos. Este procesador identifica las clases de documentos de un conjunto de clases definido por el usuario. Luego, puedes este procesador entrenado en documentos adicionales. Por lo general, se usa un clasificador personalizado en documentos de distintos tipos y, luego, se usa la identificación para pasar los documentos a un procesador de extracción para extraer las entidades.
El siguiente es un flujo de trabajo típico para crear y usar un clasificador personalizado:
- Crear un clasificador personalizado en Document AI.
- Crear un conjunto de datos con un bucket de Cloud Storage vacío.
- Importar documentos.
- Anotar los documentos de forma manual en Document AI Workbench o con tareas de etiquetado.
- Asignar documentos a los conjuntos de entrenamiento y pruebas.
- Entrenar el procesador.
- Evaluar el procesador.
- Implementar el procesador.
- Probar el procesador.
- Usar el procesador en tus documentos.
Puedes realizar tus propias opciones de configuración que se adapten a tu flujo de trabajo.
Para seguir la guía paso a paso en esta tarea directamente en la consola de Google Cloud, haz clic en Guiarme:
Antes de comenzar
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Document AI, Cloud Storage APIs.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Document AI, Cloud Storage APIs.
Crea un procesador
1. Ve a la consola de Google Cloud y, luego, selecciona lo siguiente: WorkbenchEn Clasificador de documentos personalizado, selecciona
Crear procesador .En el menú Crear procesador, ingresa un nombre para tu procesador, como
my-custom-document-classifier
.Selecciona la región más cercana a ti.
Selecciona Crear. Aparecerá la pestaña Processor Details.
Configura el conjunto de datos
Para entrenar este nuevo procesador, debes crear un conjunto de datos con datos de entrenamiento y de prueba a fin de ayudar al procesador a identificar los documentos que deseas dividir y clasificar.
Este conjunto de datos requiere una ubicación nueva. Puede ser un bucket de Cloud Storage vacío o una carpeta, o puedes permitir una ubicación administrada de forma interna.
Después de que aparezca la pestaña Detalles del procesador, podrás hacer lo siguiente:
- Seleccionar Almacenamiento administrado por Google en caso de que quieras usar Cloud Storage.
- Selecciona Especificaré mi propia ubicación de almacenamiento si deseas usar tu propio almacenamiento para usar claves de encriptación administradas por el cliente (CMEK) y sigue el procedimiento posterior.
Crea un bucket de Cloud Storage para el conjunto de datos
Elige la pestaña
Entrenar del procesador.Selecciona
Establecer la ubicación del conjunto de datos . Se te pedirá que selecciones o crees un bucket o una carpeta de Cloud Storage vacíos.Selecciona
Explorar para abrir Seleccionar carpeta.Selecciona el ícono
Crear un bucket nuevo y sigue las instrucciones para crear un bucket nuevo. Para obtener más información sobre cómo crear un bucket de Cloud Storage, consulta Buckets de Cloud Storage.Nota: Un bucket es la entidad de almacenamiento de nivel superior, en la que puedes anidar carpetas. En lugar de crear y seleccionar un bucket, también puedes crear y seleccionar una carpeta vacía dentro de un bucket existente. Para obtener más información, consulta Carpetas simuladas de Cloud Storage.
Después de crear el bucket, aparecerá la página Seleccionar carpeta.
En la página Seleccionar carpeta de tu bucket, selecciona el botón
Seleccionar en la parte inferior del cuadro de diálogo.Asegúrese de que la ruta de destino se propague con el nombre del bucket que seleccionó. Selecciona
Crear conjunto de datos . La creación del conjunto de datos puede tardar varios minutos.
Importar documentos a un conjunto de datos
A continuación, importarás tus documentos al conjunto de datos.
En la pestaña Entrenar, selecciona
Importar documentos .Para este ejemplo, ingresa el nombre de este bucket en
Ruta de origen . Esta vincula directamente a un documento.cloud-samples-data/documentai/Custom/Patents/PDF/computer_vision_20.pdf
En División de datos, selecciona Sin asignar. El documento de esta carpeta no está asignado al conjunto de prueba ni de entrenamiento. Deje desmarcada la opción Importar con etiquetado automático.
Selecciona Importar. Document AI lee los documentos del bucket en el conjunto de datos. No modifica el bucket de importación ni lee desde el bucket una vez que se completa la importación.
Cuando importas documentos, puedes asignarlos de forma opcional al conjunto de Entrenamiento o Prueba cuando se importan, o esperar para asignarlos más tarde.
Si deseas borrar uno o más documentos que importaste, selecciónalos en la pestaña Entrenar y selecciona Borrar.
Si deseas obtener más información para preparar tus datos para importar, consulta la Guía de preparación de datos.
Define el esquema del procesador
Puedes crear el esquema del procesador antes o después de importar documentos a tu conjunto de datos. El esquema proporciona etiquetas que utilizas para anotar documentos.
En la pestaña Entrenar, selecciona
Editar esquema en la parte inferior izquierda. Se abrirá la página Administrar etiquetas.Selecciona
Crear etiqueta .Ingresa el nombre de la etiqueta. Selecciona el Tipo de datos. Selecciona Crear. Consulta Define el procesador del esquema para obtener instrucciones detalladas para crear y editar un esquema.
Crea cada una de las siguientes etiquetas para el esquema del procesador.
Nombre Tipo de datos computer_vision
Tipo de documento crypto
Tipo de documento med_tech
Tipo de documento other
Tipo de documento Selecciona
Guardar cuando las etiquetas estén completas.
Etiqueta un documento
El proceso de seleccionar texto en un documento y aplicar etiquetas se conoce como anotación.
Regresa a la pestaña Entrenar y selecciona
un documento para abrir la consola de Administración de etiquetas.En el menú desplegable
Tipo de documento , selecciona la etiqueta adecuada para el documento.Si usas el documento de muestra proporcionado, selecciona
computer_vision
.El documento etiquetado debería verse de la siguiente manera cuando se complete:
Selecciona
Marcar como etiquetado cuando termines de anotar el documento.En la pestaña Entrenar, el panel izquierdo muestra que se etiquetó 1 documento.
Asigna el documento anotado en el conjunto de entrenamiento
Ahora que etiquetaste este documento de ejemplo, puedes asignarlo al conjunto de entrenamiento.
En la pestaña Entrenar, selecciona la casilla de verificación
Seleccionar todo .En la lista
Asignar al conjunto , selecciona Entrenamiento.
En el panel izquierdo, puedes ver que se asignó 1 documento al conjunto de entrenamiento.
Importa datos etiquetados previamente a los conjuntos de entrenamiento y prueba
En esta guía, se proporcionan datos etiquetados previamente.
Si trabajas en tu propio proyecto, deberás determinar cómo etiquetar tus datos. Consulta Opciones de etiquetado. Los procesadores personalizados de Document AI requieren un mínimo de 10 documentos en los conjuntos de entrenamiento y de prueba, junto con 10 instancias de cada etiqueta en cada conjunto. Te recomendamos que tengas, al menos, 50 documentos en cada conjunto, con 50 instancias de cada etiqueta para obtener un mejor rendimiento. En general, una mayor cantidad de datos de entrenamiento produce una mayor exactitud.
Selecciona
Importar documentos .Ingresa la siguiente ruta en
Ruta de acceso del origen . Este bucket contiene documentos etiquetados previamente en el formato Documento JSON.cloud-samples-data/documentai/Custom/Patents/JSON/Classification-InventionType
En la lista División de datos, selecciona División automática. Esto divide automáticamente los documentos para tener un 80 % en el conjunto de entrenamiento y un 20 % en el conjunto de prueba. Ignora la sección Aplicar etiquetas.
Selecciona Importar. La importación puede tardar varios minutos en completarse.
Cuando finalices la importación, verás los documentos en la pestaña Entrenar.
Opcional: Etiquetas por lotes de documentos en la importación
Después de configurar el esquema, puedes etiquetar todos los documentos que se encuentran en un directorio en particular en la importación para ahorrar tiempo con el etiquetado.
Selecciona
Importar documentos .Ingresa la siguiente ruta en
Ruta de acceso del origen . Este bucket contiene documentos sin etiquetar en formato PDF.cloud-samples-data/documentai/Custom/Patents/PDF-CDC-BatchLabel
En la lista División de datos, selecciona División automática. Esto divide automáticamente los documentos para tener un 80 % en el conjunto de entrenamiento y un 20 % en el conjunto de prueba.
En la sección Aplicar etiquetas, selecciona Elegir etiqueta.
Para estos documentos de muestra, selecciona
other
.Selecciona Importar y espera a que finalice el proceso. Puedes salir de esta página y volver más tarde. Cuando termines, encontrarás los documentos en la pestaña Entrenar con la etiqueta aplicada.
Entrena el procesador
Ahora que importaste los datos de entrenamiento y prueba, puedes entrenar el procesador. Dado que el entrenamiento puede tardar varias horas, asegúrese de haber configurado el procesador con los datos y las etiquetas correspondientes antes de comenzar el entrenamiento.
Selecciona
Entrenar una versión nueva .En el campo
Nombre de la versión , ingresa un nombre para esta versión del procesador, comomy-cdc-version-1
.(Opcional) Selecciona Ver estadísticas de etiquetas para buscar información sobre las etiquetas de documentos. Esto puede ayudarte a determinar tu cobertura. Selecciona Cerrar para volver a la configuración de entrenamiento.
Selecciona
Comenzar entrenamiento . Puedes verificar el estado en el panel derecho.
Implementa la versión del procesador
Una vez finalizado el entrenamiento, navega a la pestaña
Administrar versiones . Puedes ver detalles sobre la versión que acabas de entrenar.Selecciona los
tres puntos verticales a la derecha de la versión que deseas implementar y selecciona Implementar versión.Selecciona
Implementar en la ventana emergente.La implementación tarda unos minutos en completarse.
Evalúa y prueba el procesador
Una vez finalizada la implementación, navega a la pestaña
Evaluar y probar .En esta página, puedes ver las métricas de evaluación, incluidas la puntuación F1, la precisión y recuperación del documento completo, y las etiquetas individuales. Para obtener más información sobre la evaluación y las estadísticas, consulta Evalúa el procesador.
Descarga un documento que no haya participado en pruebas ni entrenamientos anteriores para que puedas usarlo a fin de evaluar la versión del procesador. Si usas tus propios datos, debes usar un documento que se reserve para ello.
Selecciona
Subir documento de prueba y selecciona el documento que acabas de descargar.Se abrirá la página Análisis de clasificadores personalizados de documentos. El resultado demuestra qué tan bien se clasificó el documento.
También puedes volver a ejecutar la evaluación en un conjunto de prueba diferente o en una versión del procesador.
Opcional: Etiquetar de forma automática los documentos importados recientemente
Después de implementar una versión de procesador entrenado, puedes usar el etiquetado automático a fin de ahorrar tiempo en el etiquetado cuando importas documentos nuevos.
En la página Entrenar,
Importar documentos .Copia y pega la siguiente ruta de Cloud Storage. Este directorio contiene 5 PDFs de patentes sin etiquetar. En la lista desplegable División de datos, selecciona Entrenamiento.
cloud-samples-data/documentai/Custom/Patents/PDF-CDC-AutoLabel
En la sección Aplicar etiquetas, selecciona Etiquetado automático.
Selecciona una versión del procesador existente para etiquetar los documentos.
- Por ejemplo:
2af620b2fd4d1fcf
.
- Por ejemplo:
Selecciona Importar y espera a que finalice el proceso. Puedes salir de esta página y volver más tarde. Cuando se complete el proceso, los documentos aparecerán en la sección Etiquetado automático de la página Entrenar.
No puedes usar documentos etiquetados automáticamente para entrenamiento ni pruebas sin marcarlos como etiquetados. Ve a la sección
Etiquetado automático para ver los documentos etiquetados automáticamente.Selecciona el primer documento para ingresar a la consola de etiquetado.
Verifica la etiqueta para asegurarte de que sea correcta. Realiza los ajustes necesarios.
Cuando termines, selecciona
Marcar como etiquetado .Repite la verificación de etiquetas para cada documento etiquetado automáticamente y, luego, vuelve a la página Entrenar para usar los datos del entrenamiento.
Usar el procesador
Creaste y entrenaste correctamente un procesador clasificador de documentos personalizados.
Puedes administrar tus versiones de procesador con entrenamiento personalizado como cualquier otra versión de procesador. Para obtener más información, consulta Administra versiones de procesadores.
Puedes enviar una solicitud de procesamiento a tu procesador personalizado, y la respuesta puede manejarse de la misma manera que otros procesadores de clasificadores.
Limpia
Sigue estos pasos para evitar que se apliquen cargos a tu cuenta de Google Cloud por los recursos que usaste en esta página.
Para evitar cargos innecesarios de Google Cloud , usa la consola de Google Cloud para borrar el procesador y el proyecto si no los necesitas.
Si creaste un proyecto nuevo para aprender sobre Document AI y ya no lo necesitas, bórralo.
Si usaste un proyecto existente de Google Cloud , borra los recursos que creaste para evitar que se generen cargos en tu cuenta:
En el menú de navegación de la consola de Google Cloud, selecciona Document AI y, luego, My Processors.
Selecciona
Más acciones en la misma fila del procesador que quieres borrar.Selecciona Borrar procesador, escribe el nombre del procesador y, luego, vuelve a seleccionar Borrar para confirmar.
¿Qué sigue?
- Para obtener más detalles, consulta Guías.
- Revisa la lista de procesadores.
- Separa documentos en fragmentos legibles con el analizador de diseño.
- Usa el Enterprise Document OCR para detectar y extraer texto.