Crea, usa y administra un clasificador de documentos personalizado

Usa el clasificador personalizado para clasificar documentos. Compílalo desde cero con tus propios documentos y clases personalizadas. Su aspecto de IA generativa permite el entrenamiento con pocos ejemplos y el ajuste. Estos modelos mejoran la precisión con menos muestras y correcciones con el etiquetado automático iterativo.

Versiones del modelo de clasificador personalizado

Versión del modelo Descripción Canal de versiones Procesamiento de AA en EE.UU. y la UE Ajuste en EE.UU. y la UE Fecha de lanzamiento
pretrained-foundation-model-v1.4-2025-06-16 Es un candidato listo para producción potenciado por el LLM de Gemini 2.0 Flash. También incluye funciones avanzadas de OCR, como la detección de casillas de verificación. Estable EE.UU., UE (vista previa) 16 de junio de 2025

Crea un clasificador personalizado en la consola de Google Cloud

Puedes crear clasificadores personalizados que se adaptan específicamente a tus documentos, entrenados y evaluados con tus datos. Este procesador identifica las clases de documentos de un conjunto de clases definido por el usuario. Luego, puedes este procesador entrenado en documentos adicionales. Por lo general, se usa un clasificador personalizado en documentos de distintos tipos y, luego, se usa la identificación para pasar los documentos a un procesador de extracción para extraer las entidades.

Para conocer el proceso general para crear y usar un procesador, consulta la sección Cómo.

Puedes realizar tus propias opciones de configuración que se adapten a tu flujo de trabajo.


Para seguir la guía paso a paso sobre esta tarea directamente en la consola Google Cloud , haz clic en Guiarme:

GUIARME


Antes de comenzar

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Enable the Document AI, Cloud Storage APIs.

    Enable the APIs

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Make sure that billing is enabled for your Google Cloud project.

  7. Enable the Document AI, Cloud Storage APIs.

    Enable the APIs

  8. Crea un procesador

    Completa los siguientes pasos.

    1. Ve a la consola deGoogle Cloud y, luego, selecciona: Workbench

    2. En el clasificador de documentos personalizado, selecciona Crear procesador.

      custom-classifier-1

    3. En el menú Crear procesador, ingresa un nombre para tu procesador, como my-custom-document-classifier.

      custom-classifier-2

    4. Selecciona la región más cercana a ti.

    5. Selecciona Crear. Aparecerá la pestaña Processor Details.

    Configura el conjunto de datos

    Para entrenar este nuevo procesador, debes crear un conjunto de datos con datos de entrenamiento y de prueba a fin de ayudar al procesador a identificar los documentos que deseas dividir y clasificar. Este conjunto de datos requiere una ubicación nueva. Puede ser un bucket de Cloud Storage vacío o una carpeta, o puedes permitir una ubicación administrada de forma interna.

    Después de que aparezca la pestaña Detalles del procesador, podrás hacer lo siguiente:

    1. Seleccionar Almacenamiento administrado por Google en caso de que quieras usar Cloud Storage.
    2. Selecciona Especificaré mi propia ubicación de almacenamiento si deseas usar tu propio almacenamiento para usar claves de encriptación administradas por el cliente (CMEK) y sigue el procedimiento en Crea un conjunto de datos.

    custom-classifier-3

    Importar documentos a un conjunto de datos

    A continuación, importarás tus documentos al conjunto de datos.

    1. En la pestaña Compilar, selecciona Importar documentos.

      custom-classifier-6

    2. Cuando elijas usar un bucket de almacenamiento, debes ingresar la ruta de origen del bucket. Para este ejemplo de entrenamiento, ingresa el nombre de este bucket en Ruta de origen. Esta vincula directamente a un documento.

      cloud-samples-data/documentai/Custom/Patents/PDF/computer_vision_20.pdf
      
    3. En División de datos, selecciona Sin asignar. El documento de esta carpeta no está asignado al conjunto de prueba ni de entrenamiento. Deje desmarcada la opción Importar con etiquetado automático.

    4. Selecciona Importar. Document AI lee los documentos del bucket en el conjunto de datos. No modifica el bucket de importación ni lee desde el bucket una vez que se completa la importación.

    5. Opcional: Para borrar documentos importados, en la pestaña Compilar, ve a Administrar conjunto de datos > selecciona los documentos > haz clic en Borrar.

    Cuando importas documentos, puedes asignarlos de forma opcional al conjunto de Entrenamiento o Prueba cuando se importan, o esperar para asignarlos más tarde.

    Si deseas obtener más información para preparar tus datos para importar, consulta la Guía de preparación de datos.

    Define el esquema del procesador

    Puedes crear el esquema del procesador antes o después de importar documentos a tu conjunto de datos. El esquema proporciona etiquetas que utilizas para anotar documentos.

    1. En la pestaña Compilación, selecciona Administrar conjunto de datos > Editar esquema. Se abrirá la página Editar esquema.

    2. Selecciona Crear etiqueta.

    3. Ingresa el nombre de la etiqueta.

    4. Seleccione Crear. Consulta Define el procesador del esquema para obtener instrucciones detalladas para crear y editar un esquema.

    5. Crea cada una de las siguientes etiquetas para el esquema del procesador.

      • computer_vision
      • crypto
      • med_tech
      • other
    6. Selecciona Guardar cuando las etiquetas estén completas.

      custom-classifier-7

    Etiqueta un documento

    El proceso de seleccionar texto en un documento y aplicar etiquetas se conoce como anotación.

    1. Regresa a la pestaña Compilar y selecciona un documento para abrir la consola de Administrar conjunto de datos.

    2. Entre las opciones, selecciona la etiqueta adecuada para el documento. Si usas el documento de muestra proporcionado, selecciona computer_vision.

      Cuando esté etiquetado, el documento debería verse de la siguiente manera: custom-classifier-8

    3. Selecciona Marcar como etiquetado cuando termines de anotar el documento.

      En la pestaña Administrar conjunto de datos, el panel Documento muestra que se etiquetó un documento.

    Asigna el documento anotado en el conjunto de entrenamiento

    Ahora que etiquetaste este documento de ejemplo, puedes asignarlo al conjunto de entrenamiento.

    1. En la pestaña Administrar conjunto de datos, selecciona la casilla de verificación Seleccionar todo.

    2. En la lista Asignar al conjunto, selecciona Entrenamiento.

    En el panel Documentos, puedes ver que se asignó un documento al conjunto de entrenamiento.

    Importa datos etiquetados previamente a los conjuntos de entrenamiento y prueba

    En esta guía, se proporcionan datos etiquetados previamente. Si trabajas en tu propio proyecto, deberás determinar cómo etiquetar tus datos. Consulta Opciones de etiquetado.

    Los procesadores personalizados de Document AI requieren un mínimo de un documento en los conjuntos de entrenamiento y de prueba para cada tipo de documento que se etiquetará. Para obtener el mejor rendimiento, te recomendamos que tengas, al menos, 10 documentos por etiqueta. Para 5 etiquetas, necesitarías 50 documentos para entrenar y 50 para probar. Por lo general, una mayor cantidad de datos de entrenamiento produce una mayor exactitud.

    1. Selecciona Importar documentos.

    2. Ingresa la siguiente ruta en Ruta de acceso del origen. Este bucket contiene documentos etiquetados previamente en el formato Documento JSON.

      cloud-samples-data/documentai/Custom/Patents/JSON/Classification-InventionType
      
    3. En la lista División de datos, selecciona División automática. Esto divide automáticamente los documentos para tener un 80% en el conjunto de entrenamiento y un 20% en el conjunto de prueba. Ignora la sección Aplicar etiquetas.

    4. Selecciona Importar. La importación puede tardar varios minutos en completarse.

    Cuando finalice la importación, encontrarás los documentos en la pestaña Administrar conjunto de datos.

    Etiqueta por lotes los documentos durante la importación

    De manera opcional, después de configurar el esquema, puedes etiquetar todos los documentos que se encuentran en un directorio en particular en la importación para ahorrar tiempo con el etiquetado.

    custom-classifier-9

    1. Selecciona Importar documentos.

    2. Ingresa la siguiente ruta en Ruta de acceso del origen. Este bucket contiene documentos sin etiquetar en formato PDF.

      cloud-samples-data/documentai/Custom/Patents/PDF-CDC-BatchLabel
      
    3. En la lista División de datos, selecciona División automática. Esto divide automáticamente los documentos para tener un 80% en el conjunto de entrenamiento y un 20% en el conjunto de prueba.

    4. En la sección Aplicar etiquetas, selecciona Elegir etiqueta.

    5. Para estos documentos de muestra, selecciona other.

    6. Selecciona Importar y espera a que finalice el proceso. Puedes salir de esta página y volver más tarde. Cuando termines, encontrarás los documentos en la pestaña Administrar conjunto de datos con la etiqueta aplicada.

    Entrena el procesador

    Ahora que importaste los datos de entrenamiento y prueba, puedes entrenar el procesador. Dado que el entrenamiento puede tardar varias horas, asegúrate de haber configurado el procesador con los datos y las etiquetas correspondientes antes de comenzar el entrenamiento.

    Puedes entrenar modelos personalizados y ajustados con tus datos etiquetados. Los modelos ajustados usan IA generativa. Los modelos personalizados entrenan un modelo de lenguaje grande único con tus datos etiquetados. Necesitas un mínimo de dos etiquetas en el esquema, con diez documentos de entrenamiento y diez documentos de prueba recomendados (mínimo de 1).

    1. Selecciona Entrenar una versión nueva.
    custom-classifier-10
    1. En el campo Nombre de la versión, ingresa un nombre para esta versión del procesador, como my-cdc-version-1.

    2. Opcional: Selecciona Ver estadísticas de etiquetas para buscar información sobre las etiquetas de documentos que pueden ayudarte a determinar tu cobertura. Selecciona Cerrar para volver a la configuración de entrenamiento.

    3. Selecciona Comenzar entrenamiento. Puedes verificar el estado en el panel lateral.

    Implementa la versión del procesador

    1. Una vez finalizado el entrenamiento, navega a la pestaña Administrar versiones. Puedes ver detalles sobre la versión que acabas de entrenar.

    2. Selecciona junto a la versión que deseas implementar y, luego, Implementar versión.

    3. Selecciona Implementar en la ventana de diálogo.

      La implementación tarda unos minutos en completarse.

    Evalúa y prueba el procesador

    1. Una vez finalizada la implementación, navega a la pestaña Evaluar y probar.

      En esta página, puedes ver las métricas de evaluación, incluidas la puntuación F1, la precisión y recuperación del documento completo, y las etiquetas individuales. Para obtener más información sobre la evaluación y las estadísticas, consulta Evalúa el procesador.

    2. Descarga un documento que no haya participado en pruebas ni entrenamientos anteriores para que puedas usarlo para evaluar la versión del procesador. Si usas tus propios datos, debes usar un documento que se reserve para ello.

      Descargar PDF

    3. Selecciona Subir documento de prueba y selecciona el documento que acabas de descargar.

      Se abrirá la página Análisis de clasificadores personalizados de documentos. El resultado demuestra qué tan bien se clasificó el documento.

      También puedes volver a ejecutar la evaluación en un conjunto de prueba diferente o en una versión del procesador.

    Etiqueta automáticamente los documentos importados recientemente

    Después de implementar una versión de procesador entrenado, puedes usar el etiquetado automático para ahorrar tiempo en el etiquetado cuando importas documentos nuevos.

    1. En la página Administrar conjunto de datos, Importar documentos.

    2. Copia y pega la siguiente ruta de Cloud Storage. Este directorio contiene cinco PDFs de patentes sin etiquetar. En la lista desplegable División de datos, selecciona Entrenamiento.

      cloud-samples-data/documentai/Custom/Patents/PDF-CDC-AutoLabel
      
    3. En la sección Aplicar etiquetas, selecciona Etiquetado automático.

    4. Selecciona una versión del procesador existente para etiquetar los documentos.

      • Por ejemplo: 2af620b2fd4d1fcf.
    5. Selecciona Importar y espera a que finalice el proceso. Puedes salir de esta página y volver más tarde. Cuando se complete el proceso, los documentos aparecerán en la sección Etiquetado automático de la página Administrar conjunto de datos.

    6. No puedes usar documentos etiquetados automáticamente para entrenamiento o pruebas sin marcarlos como etiquetados. Ve a la sección Etiquetado automático para ver los documentos etiquetados automáticamente.

    7. Selecciona el primer documento para ingresar a la consola de etiquetado.

    8. Verifica que la etiqueta sea correcta. Realiza los ajustes necesarios.

    9. Cuando termines, selecciona Marcar como etiquetado.

    10. Repite la verificación de etiquetas para cada documento etiquetado automáticamente y, luego, vuelve a la página Administrar conjunto de datos para asignar los datos al entrenamiento.

    Usar el procesador

    Puedes administrar tus versiones de procesador con entrenamiento personalizado como cualquier otra versión de procesador. Para obtener más información, consulta Administra versiones de procesadores.

    También puedes enviar una solicitud de procesamiento a tu procesador personalizado, y la respuesta puede manejarse de la misma manera que otros procesadores de clasificadores.

    Limpia

    Sigue estos pasos para evitar que se apliquen cargos a tu cuenta de Google Cloud por los recursos que usaste en esta página.

    1. En el menú de navegación de la consola de Google Cloud , selecciona Document AI y, luego, Mis procesadores.

    2. Selecciona Más accionesen la misma fila del procesador que quieres borrar.

    3. Selecciona Borrar procesador, escribe el nombre del procesador y, luego, vuelve a seleccionar Borrar para confirmar.

    ¿Qué sigue?