Crear, usar y gestionar un clasificador de documentos personalizado

Usa un clasificador personalizado para clasificar documentos. Crea un clasificador personalizado desde cero con tus propios documentos y clases personalizadas. Su aspecto de IA generativa permite el aprendizaje con pocos ejemplos y el ajuste. De esta forma, se mejora la precisión con menos muestras y correcciones mediante el etiquetado automático iterativo.

El clasificador personalizado abarca estos tres casos prácticos generales.

  • Modelo preentrenado: usa el modelo básico de IA generativa preentrenado para clasificar rápidamente documentos con las etiquetas que proporciones.
  • Ajuste fino: mejora la precisión entrenando el modelo de base de IA generativa con tus propios datos y etiquetas.
  • Entrenar un modelo personalizado: entrena un extractor personalizado de IA no generativa con tus propios datos y etiquetas.

Versiones de modelos de clasificadores personalizados

Versión del modelo Descripción Canal de lanzamiento Procesamiento de aprendizaje automático en EE. UU. y la UE Afinamiento en EE. UU. y la UE Fecha de lanzamiento
pretrained-foundation-model-v1.4-2025-05-16 Versión candidata basada en el LLM Gemini 2.0 Flash. También incluye funciones avanzadas de OCR. Versión candidata EE. UU. y UE (vista previa) 16 de mayo del 2025
pretrained-classifier-v1.5-2025-08-05 Versión candidata para lanzamiento basada en el LLM Gemini 2.5 Flash. También incluye funciones avanzadas de OCR. Versión candidata EE. UU. y UE (vista previa) 5 de agosto del 2025

Las puntuaciones de confianza no se admiten en los modelos de clasificador personalizado.

Crear un clasificador personalizado en la Google Cloud consola

Puedes crear clasificadores personalizados que se adapten específicamente a tus documentos y que se entrenen y evalúen con tus datos. Este procesador identifica clases de documentos de un conjunto de clases definido por el usuario. Después, puedes usar este procesador entrenado en documentos adicionales. Normalmente, usarías un clasificador personalizado en documentos de diferentes tipos y, a continuación, usarías la identificación para enviar los documentos a un procesador de extracción y extraer las entidades.

Para conocer el proceso general de creación y uso de un procesador, consulta la sección Cómo.

Puedes elegir la configuración que mejor se adapte a tu flujo de trabajo.


Para seguir las instrucciones paso a paso de esta tarea directamente en la Google Cloud consola, haga clic en Ayúdame:

Guíame


Antes de empezar

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  3. Verify that billing is enabled for your Google Cloud project.

  4. Enable the Document AI, Cloud Storage APIs.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the APIs

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  6. Verify that billing is enabled for your Google Cloud project.

  7. Enable the Document AI, Cloud Storage APIs.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the APIs

  8. Crear un procesador

    Sigue estos pasos.

    1. Ve a Espacio de trabajo.

    2. En el caso del clasificador de documentos personalizado, selecciona Crear procesador.

      custom-classifier-1

    3. En el menú Crear procesador, escribe el nombre del procesador, como my-custom-document-classifier.

      custom-classifier-2

    4. Selecciona la región más cercana.

    5. Selecciona Crear. Aparecerá la pestaña Detalles del procesador.

    Configurar un conjunto de datos

    Para entrenar este nuevo procesador, debes crear un conjunto de datos con datos de entrenamiento y de prueba que ayuden al procesador a identificar los documentos que quieres dividir y clasificar. Este conjunto de datos requiere una nueva ubicación. Puede ser un segmento de Cloud Storage o una carpeta vacíos, o bien puedes permitir una ubicación gestionada internamente.

    Cuando aparezca la pestaña Detalles del encargado del tratamiento, podrás hacer lo siguiente:

    1. Selecciona Almacenamiento gestionado por Google si quieres usar Cloud Storage.
    2. Selecciona Especificaré mi propia ubicación de almacenamiento si quieres usar tu propio almacenamiento para usar claves de cifrado gestionadas por el cliente (CMEK) y sigue el procedimiento descrito en Crear un conjunto de datos.

    custom-classifier-3

    Importar documentos a un conjunto de datos

    A continuación, importa los documentos al conjunto de datos.

    1. En la pestaña Crear, selecciona Importar documentos.

      custom-classifier-6

    2. Si decides usar un segmento de almacenamiento, debes introducir la ruta de origen del segmento. En este ejemplo de formación, introduce el nombre del segmento en Ruta de origen. Este enlace lleva directamente a un documento.

      cloud-samples-data/documentai/Custom/Patents/PDF/computer_vision_20.pdf
      
    3. En División de datos, selecciona Sin asignar. El documento de esta carpeta no se ha asignado al conjunto de pruebas ni al de entrenamiento. Deje la opción Importar con etiquetado automático sin marcar.

    4. Selecciona Importar. Document AI lee los documentos del bucket y los añade al conjunto de datos. No modifica el segmento de importación ni lee del segmento una vez que se ha completado la importación.

    5. Opcional: Para eliminar documentos importados, en la pestaña Compilación, ve a Gestionar conjunto de datos > selecciona los documentos > haz clic en Eliminar.

    Cuando importes documentos, puedes asignarlos al conjunto Entrenamiento o Prueba durante la importación, o bien esperar a asignarlos más adelante.

    Para obtener más información sobre cómo preparar los datos para la importación, consulta la guía de preparación de datos.

    Definir el esquema del procesador

    Puede crear el esquema del procesador antes o después de importar documentos en su conjunto de datos. El esquema proporciona etiquetas que se usan para anotar documentos.

    1. En la pestaña Compilación, selecciona Gestionar conjunto de datos > Editar esquema. Se abrirá la página Editar esquema.

    2. Selecciona Crear etiqueta.

    3. Escribe el nombre de la etiqueta.

    4. Selecciona Crear. Consulta Definir el esquema del procesador para obtener instrucciones detalladas sobre cómo crear y editar un esquema.

    5. Crea cada una de las siguientes etiquetas para el esquema del procesador.

      • computer_vision
      • crypto
      • med_tech
      • other
    6. Cuando haya terminado de añadir las etiquetas, seleccione Guardar.

      custom-classifier-7

    Etiquetar un documento

    El proceso de seleccionar texto en un documento y aplicar etiquetas se conoce como anotación.

    1. Vuelve a la pestaña Compilación y selecciona un documento para abrir la consola Gestionar conjunto de datos.

    2. Entre las opciones, selecciona la etiqueta adecuada para el documento. Si utilizas el documento de muestra proporcionado, selecciona computer_vision.

      Cuando se etiquete, el documento debería tener este aspecto: custom-classifier-8

    3. Selecciona Marcar como etiquetado cuando hayas terminado de anotar el documento.

      En la pestaña Gestionar conjunto de datos, el panel Documento muestra que se ha etiquetado un documento.

    Asignar el documento anotado al conjunto de entrenamiento

    Ahora que has etiquetado este documento de ejemplo, puedes asignarlo al conjunto de entrenamiento.

    1. En la pestaña Gestionar conjunto de datos, marca la casilla Seleccionar todo.

    2. En la lista Asignar a conjunto, selecciona Entrenamiento.

    En el panel Documentos, verás que se ha asignado un documento al conjunto de entrenamiento.

    Importar datos preetiquetados a los conjuntos de entrenamiento y de prueba

    En esta guía, se le proporcionan datos preetiquetados. Si trabajas en tu propio proyecto, debes determinar cómo etiquetar los datos. Consulta las opciones de etiquetado.

    Los procesadores personalizados de Document AI requieren que se etiquete al menos un documento en los conjuntos de entrenamiento y de prueba de cada tipo de documento. Para obtener el mejor rendimiento posible, te recomendamos que tengas al menos 10 documentos por etiqueta. Si tienes 5 etiquetas, necesitarías 50 documentos para entrenar el modelo y 50 para probarlo. Cuantos más datos de entrenamiento haya, mayor será la precisión.

    1. Selecciona Importar documentos.

    2. Introduce la siguiente ruta en Ruta de origen. Este contiene documentos preetiquetados en formato JSON de documento.

      cloud-samples-data/documentai/Custom/Patents/JSON/Classification-InventionType
      
    3. En la lista División de datos, seleccione División automática. De esta forma, los documentos se dividen automáticamente en un 80% para el conjunto de entrenamiento y un 20% para el conjunto de prueba. Ignore la sección Aplicar etiquetas.

    4. Selecciona Importar. La importación puede tardar varios minutos en completarse.

    Cuando la importación haya terminado, encontrarás los documentos en la pestaña Gestionar conjunto de datos.

    Etiquetar documentos por lotes al importarlos

    Opcionalmente, una vez que se haya configurado el esquema, puedes etiquetar todos los documentos que se encuentren en un directorio concreto al importarlos para ahorrar tiempo.

    custom-classifier-9

    1. Selecciona Importar documentos.

    2. Introduce la siguiente ruta en Ruta de origen. Este contenedor contiene documentos sin etiquetar en formato PDF.

      cloud-samples-data/documentai/Custom/Patents/PDF-CDC-BatchLabel
      
    3. En la lista División de datos, seleccione División automática. De esta forma, los documentos se dividen automáticamente en un 80% para el conjunto de entrenamiento y un 20% para el conjunto de prueba.

    4. En la sección Aplicar etiquetas, selecciona Elegir etiqueta.

    5. En estos documentos de muestra, selecciona other.

    6. Selecciona Importar y espera a que termine el proceso. Puedes salir de esta página y volver más tarde. Cuando se complete el proceso, encontrarás los documentos en la pestaña Gestionar conjunto de datos con la etiqueta aplicada.

    Entrenar el procesador

    Ahora que has importado los datos de entrenamiento y de prueba, puedes entrenar el procesador. Como el entrenamiento puede tardar varias horas, asegúrate de haber configurado el procesador con los datos y las etiquetas adecuados antes de empezar.

    Puedes entrenar modelos personalizados y ajustados con tus datos etiquetados. Los modelos ajustados usan IA generativa. Los modelos personalizados entrenan un modelo de lenguaje extenso único con tus datos etiquetados. Necesitas un mínimo de dos etiquetas en el esquema, con 10 documentos de entrenamiento y 10 documentos de prueba (1 como mínimo).

    1. Selecciona Entrenar nueva versión.
    custom-classifier-10
    1. En el campo Nombre de la versión, introduce un nombre para esta versión del procesador, como my-cdc-version-1.

    2. Opcional: Selecciona Ver estadísticas de etiquetas para consultar información sobre las etiquetas del documento que pueden ayudarte a determinar tu cobertura. Selecciona Cerrar para volver a la configuración del entrenamiento.

    3. Selecciona Iniciar formación. Puedes consultar el estado en el panel lateral.

    Desplegar la versión del procesador

    1. Una vez completada la formación, ve a la pestaña Gestionar versiones. Puedes ver los detalles de la versión que acabas de entrenar.

    2. Selecciona el junto a la versión que quieras implementar y, a continuación, Implementar versión.

    3. Selecciona Implementar en la ventana de diálogo.

      El despliegue tarda unos minutos en completarse.

    Evaluar y probar el procesador

    1. Una vez completada la implementación, ve a la pestaña Evaluar y probar.

      En esta página, puede ver métricas de evaluación, como la puntuación F1, la precisión y la recuperación del documento completo y de las etiquetas individuales. Para obtener más información sobre la evaluación y las estadísticas, consulta el artículo Evaluar un procesador.

    2. Descarga un documento que no se haya usado en entrenamientos ni pruebas anteriores para poder usarlo y evaluar la versión del procesador. Si usas tus propios datos, debes usar un documento específico para ello.

      Descargar PDF

    3. Selecciona Subir documento de prueba y elige el documento que acabas de descargar.

      Se abrirá la página Análisis del clasificador de documentos personalizado. El resultado muestra lo bien que se ha clasificado el documento.

      También puedes volver a ejecutar la evaluación con otro conjunto de pruebas u otra versión del procesador.

    Etiquetar automáticamente los documentos recién importados

    Después de implementar una versión de procesador entrenada, puedes usar el etiquetado automático para ahorrar tiempo al etiquetar documentos nuevos.

    1. En la página Gestionar conjunto de datos, seleccione Importar documentos.

    2. Copia y pega la siguiente ruta de Cloud Storage. Este directorio contiene cinco PDFs de patentes sin etiquetar. En la lista desplegable División de datos, seleccione Entrenamiento.

      cloud-samples-data/documentai/Custom/Patents/PDF-CDC-AutoLabel
      
    3. En la sección Aplicar etiquetas, selecciona Etiquetado automático.

    4. Selecciona una versión de procesador para etiquetar los documentos.

      • Por ejemplo: 2af620b2fd4d1fcf
    5. Selecciona Importar y espera a que termine el proceso. Puedes salir de esta página y volver más tarde. Cuando se hayan completado, los documentos aparecerán en la sección Etiquetado automático de la página Gestionar conjunto de datos.

    6. No puedes usar documentos etiquetados automáticamente para entrenar o probar modelos sin marcarlos como etiquetados. Ve a la sección Etiquetado automáticamente para ver los documentos etiquetados automáticamente.

    7. Selecciona el primer documento para acceder a la consola de etiquetado.

    8. Verifica la etiqueta para asegurarte de que es correcta. Ajústala si no es correcta.

    9. Cuando hayas terminado, selecciona Marcar como etiquetado.

    10. Repite la verificación de etiquetas en cada documento etiquetado automáticamente y, a continuación, vuelve a la página Gestionar conjunto de datos para asignar los datos al entrenamiento.

    Usar el procesador

    Puede gestionar sus versiones de procesador entrenadas de forma personalizada igual que cualquier otra versión de procesador. Para obtener más información, consulta Gestionar versiones del procesador.

    También puedes enviar una solicitud de procesamiento a tu procesador personalizado y la respuesta se puede gestionar de la misma forma que otros procesadores de clasificadores.

    Limpieza

    Para evitar que se apliquen cargos en tu cuenta de Google Cloud por los recursos utilizados en esta página, sigue estos pasos.

    1. En el menú de navegación de la consola Google Cloud , selecciona Document AI y, a continuación, Mis procesadores.

    2. Selecciona Más acciones en la misma fila que el procesador que quieras eliminar.

    3. Selecciona Eliminar procesador, introduce el nombre del procesador y, a continuación, selecciona Eliminar de nuevo para confirmar.

    Siguientes pasos