Document AI te permite entrenar nuevas versiones de procesadores con tus propios datos de entrenamiento y evaluar la calidad de tu versión del procesador con tus propios datos de prueba.
Esto resulta útil cuando quieres usar un procesador personalizado. Hay un procesador de Document AI para tu tipo de documento, pero puedes entrenar una versión personalizada para que se ajuste a tus necesidades.
El entrenamiento y la evaluación suelen llevarse a cabo de forma conjunta para iterar hacia una versión del procesador de alta calidad y usable.
Document AI
Document AI te permite crear tu propio extractor personalizado, que extrae entidades de documentos de un tipo concreto, como los elementos de un menú o el nombre y la información de contacto de un currículum.
A diferencia de otros procesadores, los procesadores personalizados no incluyen ninguna versión preentrenada y, por lo tanto, no pueden procesar ningún documento hasta que entrenes una versión desde cero.
Para empezar a usar Document AI, consulta el artículo Crea tu propio procesador personalizado.
Mejorar un procesador
Puedes enriquecer nuevas versiones del procesador para mejorar la precisión de tus datos, extraer campos personalizados adicionales de tus documentos y añadir compatibilidad con nuevos idiomas.
El entrenamiento actualizado funciona aplicando el aprendizaje por transferencia en las versiones preentrenadas del procesador de Google y, por lo general, requiere menos datos que el entrenamiento desde cero.
Para empezar, consulta el artículo Entrenar un procesador preentrenado.
Procesadores admitidos
No todos los procesadores especializados admiten el entrenamiento de actualización. Estos son los procesadores que admiten el entrenamiento.
Consideraciones y recomendaciones sobre los datos
La calidad y la cantidad de tus datos determinan la calidad de la preparación, la actualización y la evaluación.
Obtener un conjunto de documentos representativos del mundo real y proporcionar suficientes etiquetas de alta calidad suele ser la parte del proceso que requiere más tiempo y recursos.
Número de documentos
Si todos los documentos tienen un formato similar (por ejemplo, un formulario fijo con muy poca variación), se necesitan menos documentos para conseguir una buena precisión. Cuanto mayor sea la variación, más documentos se necesitarán.
En los siguientes gráficos se ofrece una estimación aproximada del número de documentos que necesita un extractor de documentos personalizado para alcanzar una puntuación de calidad concreta.
Variación baja | Variación alta |
---|---|
![]() |
![]() |
Etiquetado de datos
Consulta las opciones para etiquetar documentos y asegúrate de que tienes suficientes recursos para anotar los documentos de tu conjunto de datos.
Entrenar modelos
Los procesadores de extractores personalizados pueden usar diferentes tipos de modelos en función del caso práctico específico y de los datos de entrenamiento disponibles.
- Modelo personalizado: modelo que usa datos de entrenamiento etiquetados.
- Basados en plantillas: documentos con un diseño fijo.
- Basados en modelos: documentos con alguna variación en el diseño.
- Modelo de IA generativa: se basa en modelos fundacionales preentrenados que requieren un entrenamiento adicional mínimo.
En la siguiente tabla se muestran los casos prácticos que corresponden a cada tipo de modelo.
Modelo personalizado | Generative AI | ||
---|---|---|---|
Basado en plantillas | Basado en modelos | ||
Variación de diseño | Ninguno | Bajo o medio | Alta |
Cantidad de texto de formato libre (por ejemplo, párrafos de un contrato) | Bajo | Bajo | Alta |
Cantidad de datos de entrenamiento necesarios | Bajo | Alta | Bajo |
Precisión con datos de entrenamiento limitados | Superior | Inferior | Superior |
Consulta cómo ajustar un procesador con descripciones de propiedades.
Cuándo usar otro procesador
A continuación, te indicamos algunos casos en los que te puede interesar usar otras opciones además de Document AI Workbench o adaptar tu flujo de trabajo.
- Document AI Workbench no admite determinados formatos de entrada basados en texto (como .txt, .html, .docx o .md). Consulta otras ofertas de procesamiento de lenguaje precompiladas o personalizadas en Google Cloud, como la API Cloud Natural Language.
- El esquema del extractor de documentos personalizado admite hasta 150 etiquetas de entidad. Si la lógica empresarial requiere más de 150 entidades en la definición del esquema, plantéese entrenar varios procesadores, cada uno de ellos orientado a un subconjunto de entidades.
Cómo entrenar un procesador
Si ya has creado un procesador que admite el entrenamiento o el reentrenamiento y etiquetado tu conjunto de datos, puedes entrenar una nueva versión del procesador desde cero. También puedes entrenar una nueva versión de un procesador a partir de una que ya tengas.
Versión del procesador de entrenamiento
UI web
En la Google Cloud consola, vaya a la pestaña Entrenar de su procesador.
Haz clic en Editar esquema para abrir la página Gestionar etiquetas. Verifica las etiquetas del procesador.
Las etiquetas que estén habilitadas en el momento del entrenamiento determinan las entidades que extraerá la nueva versión del procesador. Si una etiqueta está inactiva en el esquema, la versión del procesador no extraerá esa etiqueta, aunque los documentos estén etiquetados.
En la pestaña Entrenar, haz clic en Ver estadísticas de etiquetas y verifica tu conjunto de prueba y entrenamiento. Los documentos que estén etiquetados automáticamente, sin etiquetar o sin asignar se excluyen del entrenamiento y la evaluación.
Haz clic en Entrenar nueva versión.
El Nombre de versión define el campo
name
delprocessorVersion
.Haz clic en Iniciar entrenamiento y espera a que se entrene y se evalúe la nueva versión del procesador.
Puedes monitorizar el progreso del entrenamiento en la pestaña Gestionar versiones:
Haz clic en la pestaña Evaluar y probar para ver el rendimiento de la nueva versión del procesador en el conjunto de pruebas. Para obtener más información, consulta Evaluar la versión del procesador.
Python
Para obtener más información, consulta la documentación de referencia de la API Python de Document AI.
Para autenticarte en Document AI, configura las credenciales predeterminadas de la aplicación. Para obtener más información, consulta el artículo Configurar la autenticación en un entorno de desarrollo local.
Implementar y usar la versión del procesador
Puedes implementar y gestionar tus versiones de procesador igual que cualquier otra versión de procesador. Para obtener más información, consulta Gestionar versiones de procesador.
Una vez implementado, puedes enviar una solicitud de procesamiento a tu procesador personalizado.
Inhabilitar o eliminar un procesador
Si ya no quieres usar un procesador, puedes inhabilitarlo o eliminarlo. Si inhabilitas un procesador, puedes volver a habilitarlo. Si elimina un procesador, no podrá recuperarlo.
En el panel Document AI de la izquierda, haga clic en Mis procesadores.
Haz clic en los puntos verticales situados a la derecha del nombre del procesador. Haz clic en Inhabilitar procesador o Eliminar procesador.
Para obtener más información, consulta Gestionar versiones de procesador.
Encriptado de datos de entrenamiento
Los datos de entrenamiento de Document AI se guardan en Cloud Storage y se pueden cifrar con claves de cifrado gestionadas por el cliente si es necesario.
Eliminación de datos de entrenamiento
Una vez que se completa un trabajo de entrenamiento de Document AI, todos los datos de entrenamiento guardados en Cloud Storage caducan tras un periodo de conservación de dos días. Las actividades de eliminación de datos posteriores se rigen por el proceso descrito en Eliminación de datos en Google Cloud.
Precios
No se cobra ningún coste por la formación inicial ni por la formación adicional. Pagas por el alojamiento y la predicción. Para obtener más información, consulta los precios de Document AI.