Etiqueta documentos

Se requiere un conjunto de datos etiquetados de documentos para entrenar, enriquecer o evaluar una versión del procesador.

En esta página, se describe cómo aplicar etiquetas desde el esquema del procesador a los documentos importados de tu conjunto de datos.

En esta página, se da por sentado que ya creaste un procesador que admita el entrenamiento, el enriquecimiento o la evaluación. Si tu procesador es compatible, ahora verás la pestaña Entrenar en la consola de Google Cloud. También se da por sentado que creaste un conjunto de datos, importaste documentos y definiste un esquema de procesador.

Campos de nombre para la extracción de IA generativa

La forma en que se nombran los campos influye en la precisión con la que se extraen con la IA generativa. Recomendamos las siguientes prácticas recomendadas para asignar nombres a los campos:

  • Asigna un nombre al campo con el mismo lenguaje que se usa para describirlo en el documento: Por ejemplo, si un documento tiene un campo descrito como Employer Address, asígnale el nombre employer_address. No uses abreviaturas, como emplr_addr.

  • Actualmente, no se admiten espacios en los nombres de los campos: En lugar de usar espacios, usa _. Por ejemplo, First Name se llamaría first_name.

  • Itera en los nombres para mejorar la precisión: Document AI tiene una limitación que no permite que cambien los nombres de los campos. Para probar diferentes nombres, usa la herramienta de cambio de nombre de entidad para actualizar el nombre de la entidad anterior por uno más reciente en el conjunto de datos, importarlo, habilitar las entidades nuevas en el procesador y, luego, inhabilitar o borrar los campos existentes.

Opciones de etiquetado

Estas son las opciones para etiquetar documentos:

Etiqueta manualmente en la consola de Google Cloud

En la pestaña Entrenar, selecciona un documento para abrir la herramienta de etiquetado.

En la lista de etiquetas de esquema del lado izquierdo de la herramienta de etiquetado, selecciona el símbolo “Agregar” para seleccionar la herramienta Cuadrángulo de límite y destacar entidades en el documento y asignarlas a una etiqueta.

En la siguiente captura de pantalla, se asignaron etiquetas a los campos EMPL_SSN, EMPLR_ID_NUMBER, EMPLR_NAME_ADDRESS, FEDERAL_INCOME_TAX_WH, SS_TAX_WH, SS_WAGES y WAGES_TIPS_OTHER_COMP del documento.

label-process-1

Cuando selecciones una entidad de casilla de verificación con la herramienta Cuadro delimitador, solo selecciona la casilla de verificación en sí, no el texto asociado. Asegúrate de que la entidad de la casilla de verificación que se muestra a la izquierda esté seleccionada o deseleccionada para que coincida con lo que aparece en el documento.

label-process-2

Cuando etiquetes entidades superiores y secundarias, no etiquetes las entidades superiores. Las entidades superiores son solo contenedores de las entidades secundarias. Etiqueta solo las entidades secundarias. Las entidades superiores se actualizan automáticamente.

Cuando etiquetes entidades secundarias, etiqueta la primera y, luego, asocia las entidades secundarias relacionadas con esa línea. Lo notas en la segunda entidad secundaria la primera vez que etiquetas esas entidades. Por ejemplo, con una factura, si etiquetas descripción, parece cualquier otra entidad. Sin embargo, si etiquetas cantidad a continuación, se te pedirá que elijas el elemento superior.

Repite este paso para cada línea de pedido seleccionando Nueva entidad superior para cada línea de pedido nueva.

Las entidades superiores e inferiores son una función de vista previa y solo se admiten para tablas con una capa de anidación. Los modelos de Foundation admiten tres niveles de campos (superior, superior inmediato y secundario), por lo que las entidades secundarias pueden tener un nivel de elementos secundarios.

Tablas rápidas

Cuando se etiqueta una tabla, puede ser tedioso etiquetar cada fila una y otra vez. Hay una herramienta muy conveniente que puede replicar una estructura de entidad de fila. Ten en cuenta que esta función solo funciona en filas alineadas horizontalmente.

  1. Primero, etiqueta la primera fila como de costumbre.
  2. Luego, mantén el puntero sobre la entidad superior que representa la fila. Selecciona Agregar más filas. La fila se convierte en una plantilla para crear más filas.

    label-process-3

  3. Selecciona el resto del área de la tabla.

    label-process-4

La herramienta adivina las anotaciones y, por lo general, funciona. Para las tablas que no pueda controlar, haz anotaciones de forma manual.

Cómo usar combinaciones de teclas en la consola

Para ver las combinaciones de teclas disponibles, selecciona el menú en la parte superior derecha de la consola de etiquetado. Se muestra una lista de combinaciones de teclas, como se muestra en la siguiente tabla.

Acción Acceso directo
Acercar Alt + = (Opción + = en macOS)
Alejar Alt + - (Opción + - en macOS)
Acercar para ajustar Alt + 0 (Option + 0 en macOS)
Desplazar para hacer zoom Alt + desplazamiento (Opción + desplazamiento en macOS)
Desplazar lateralmente Desplazamiento
Desplazar lateralmente invertido Mayúsculas + desplazamiento
Arrastrar para desplazar lateralmente Barra espaciadora + Arrastrar el mouse
Deshacer Ctrl + Z (Control + Z en macOS)
Rehacer Ctrl + Mayúsculas + Z (Control + Mayúsculas + Z en macOS)

Etiquetado automático

Si está disponible, puedes usar una versión existente de tu procesador para comenzar a etiquetar.

  1. El etiquetado automático se puede iniciar durante la import. Todos los documentos se anotan con la versión del procesador especificada.

    label-process-5

  2. El etiquetado automático se puede iniciar después de la import de documentos en la categoría sin etiquetar o etiquetada automáticamente. Todos los documentos seleccionados se anotan con la versión del procesador especificada.

    label-process-6

No puedes entrenar ni actualizar documentos etiquetados automáticamente, ni usarlos en el conjunto de prueba, sin marcarlos como etiquetados. Revisa y corrige manualmente las anotaciones etiquetadas automáticamente y, luego, selecciona Marcar como etiquetado para guardar las correcciones. Luego, puedes asignar los documentos según corresponda.

Importa documentos etiquetados previamente

Puedes importar archivos JSON Document. Si el entity del documento coincide con la etiqueta del esquema del procesador, el importador convierte el entity en una instancia de etiqueta. Existen varias formas de obtener archivos de documentos JSON:

Prácticas recomendadas para etiquetar documentos

Se requiere un etiquetado coherente para entrenar un procesador de alta calidad. Te recomendamos que hagas lo siguiente:

  • Crea instrucciones de etiquetado: Tus instrucciones deben incluir ejemplos para los casos comunes y los casos extremos. Estas son algunas sugerencias:

    • Explica qué campos se deben anotar y cómo hacer que el etiquetado sea coherente. Por ejemplo, cuando etiquetes "importe", especifica si se debe etiquetar el símbolo de moneda. Si las etiquetas no son coherentes, se reduce la calidad del procesador.
    • Etiqueta todas las ocurrencias de una entidad, incluso si el tipo de etiqueta es REQUIRED_ONCE o OPTIONAL_ONCE. Por ejemplo, si invoice_id aparece dos veces en el documento, etiqueta todas las ocurrencias.
    • Por lo general, se prefiere etiquetar primero con la herramienta de cuadro delimitador predeterminada. Si eso falla, usa la herramienta de selección de texto.
    • Si el OCR no detecta correctamente el valor de la etiqueta, no lo corrijas manualmente. Eso lo haría inutilizable para fines de capacitación.

Estos son algunos ejemplos de instrucciones de etiquetado:

  • Capacitación de anotadores: Asegúrate de que los anotadores comprendan y puedan seguir los lineamientos sin errores sistemáticos. Una forma de lograrlo es hacer que diferentes aprendices anoten el mismo conjunto de documentos. Luego, el capacitador puede verificar la calidad del trabajo de anotación de cada aprendiz. Es posible que debas repetir este proceso hasta que los aprendices alcancen un nivel de precisión de referencia.
  • Revisión inicial: Los primeros documentos (alrededor de 10) etiquetados para un caso de uso por un nuevo etiquetador deben revisarse antes de etiquetar una gran cantidad de documentos para evitar una gran cantidad de errores que se deben corregir.
  • Revisión de la calidad de las anotaciones: Debido a la naturaleza laboriosa de la anotación, incluso los anotadores capacitados pueden cometer errores. Recomendamos que al menos un anotador más capacitado verifique las anotaciones.

Cómo resincronizar el conjunto de datos

La sincronización mantiene la coherencia entre la carpeta de Cloud Storage de tu conjunto de datos y el índice interno de metadatos de Document AI. Esto es útil si realizaste cambios accidentalmente en la carpeta de Cloud Storage y deseas sincronizar los datos.

Para volver a sincronizar, haz lo siguiente:

En la pestaña Detalles del procesador, junto a la fila Ubicación de almacenamiento, selecciona y, luego, Volver a sincronizar el conjunto de datos.

label-process-8

Notas de uso:

  • Si borras un documento de la carpeta de Cloud Storage, la sincronización nuevamente lo quitará del conjunto de datos.
  • Si agregas un documento a la carpeta de Cloud Storage, la sincronización no lo agregará al conjunto de datos. Para agregar documentos, impórtalos.
  • Si modificas las etiquetas de documentos en la carpeta de Cloud Storage, la sincronización nuevamente actualizará las etiquetas de documentos en el conjunto de datos.

Cómo migrar un conjunto de datos

La importación y exportación te permite mover todos los documentos de un conjunto de datos de un procesador a otro. Esto puede ser útil si tienes procesadores en diferentes regiones o Google Cloud proyectos, si tienes procesadores diferentes para la etapa de pruebas y producción, o para el consumo general fuera de línea.

Ten en cuenta que solo se exportan los documentos y sus etiquetas. Los metadatos del conjunto de datos, como el esquema del procesador, las tareas asignadas a los documentos (entrenamiento, prueba o sin asignar) y el estado de etiquetado de los documentos (etiquetado, sin etiquetar o etiquetado automático), no se exportan.

Copiar e importar el conjunto de datos y, luego, entrenar el procesador de destino no es exactamente lo mismo que entrenar el procesador de origen. Esto se debe a que se usan valores aleatorios al comienzo del proceso de entrenamiento. Usa la llamada a la API de importProcessorVersion para importar y migrar el mismo modelo entre proyectos. Esta es una práctica recomendada para la migración de procesadores a entornos de nivel superior (por ejemplo, de desarrollo a pruebas y, luego, a producción) si las políticas lo permiten.

Exportar conjunto de datos

Para exportar todos los documentos como archivos JSON Document a una carpeta de Cloud Storage, selecciona Exportar conjunto de datos.

Algunos aspectos importantes que debe tener en cuenta:

  1. Durante la exportación, se crean tres subcarpetas: Test, Train y Unassigned. Tus documentos se colocan en esas subcarpetas según corresponda.

  2. No se exporta el estado de etiquetado de un documento. Si más adelante importas los documentos, no se marcarán como etiquetados automáticamente.

  3. Si tu Cloud Storage está en un proyecto diferente de Google Cloud , asegúrate de otorgar acceso para que Document AI pueda escribir archivos en esa ubicación. Específicamente, debes otorgar el rol de Creador de objetos de almacenamiento al agente de servicio principal de Document AI service-{project-id}@gcp-sa-prod-dai-core.iam.gserviceaccount.com. Para obtener más información, consulta Agentes de servicio.

Importar conjunto de datos

El procedimiento es el mismo que el de Importar documentos.

Guía del usuario de Etiquetado selectivo

El etiquetado selectivo ayuda con las recomendaciones sobre qué documentos etiquetar. Puedes crear diversos conjuntos de datos de entrenamiento y prueba para entrenar modelos representativos. Cada vez que se realiza el etiquetado selectivo, se seleccionan los documentos más diversos (hasta 30) del conjunto de datos.

Cómo obtener documentos sugeridos

  1. Crea un procesador de CDE y, luego, importa documentos.

    • Se requieren al menos 100 para el entrenamiento (25 para las pruebas).
    • Una vez que se importen suficientes documentos y después del etiquetado selectivo, debería aparecer la barra de información.

    label-process-9

    label-process-10

  2. En el caso de un procesador de CDE sin documentos sugeridos, importa más para tener documentos suficientes en cualquiera de las divisiones para el muestreo.

    • Esto debería habilitar los documentos sugeridos en la Categoría sugerida. Debes poder solicitar los documentos sugeridos de forma manual.
    • Hay un nuevo filtro en la parte superior para filtrar los documentos sugeridos.

    label-process-11

Etiqueta documentos sugeridos

  1. Ve a Categoría sugerida en el panel de la lista de etiquetas de la izquierda. Comienza a etiquetar estos documentos.

    label-process-12

  2. Selecciona Etiquetar automáticamente en la barra de información si el procesador está entrenado. Etiqueta los documentos sugeridos.

    label-process-13

  3. Luego, puedes seleccionar Revisar ahora en la barra cuando tengas documentos sugeridos en el procesador para navegar a ellos. Todos los documentos etiquetados automáticamente deben revisarse para verificar su exactitud. Comienza a revisar.

    label-process-14

Entrena después de etiquetar todos los documentos sugeridos

Ve a Entrenar ahora en la barra de información. Cuando se etiqueten los documentos sugeridos, deberías ver la siguiente barra de información que recomienda la capacitación.

label-process-15

Funciones compatibles y limitaciones

Atributo Descripción Admitido
Compatibilidad con procesadores antiguos Es posible que no funcione bien con procesadores antiguos con conjuntos de datos importados anteriormente.