Este documento es una guía de los conceptos fundamentales para usar Document AI. Te recomendamos que leas esta página antes de consultar cualquier otra documentación o guía de inicio rápido.
Automatizar flujos de trabajo de procesamiento de documentos
Las empresas de todo el mundo dependen en gran medida de los documentos para almacenar y transmitir información. A menudo, esta información debe digitalizarse para que sea útil. Sin embargo, esto suele hacerse mediante procesos manuales que requieren mucho tiempo.
Por ejemplo:
- Digitalización de libros para lectores electrónicos.
- Procesar formularios de historial médico en consultas médicas.
- Analiza recibos y facturas para validar informes de gastos.
- Autenticar la identidad basada en tarjetas de identificación.
- Extraer información sobre los ingresos de los formularios fiscales para aprobar préstamos.
- Información sobre los contratos de los términos clave de los acuerdos empresariales.
Cada uno de estos flujos de trabajo implica obtener el texto sin formato de los documentos y, a continuación, extraer el texto específico que corresponde a los datos necesarios (los campos o las entidades). Sin embargo, cada tipo de documento tiene una estructura y un diseño diferentes, y el patrón de los campos varía en función del caso práctico específico.
Componentes de Document AI
Document AI es una plataforma de procesamiento y comprensión de documentos que toma datos no estructurados de documentos y los transforma en datos estructurados (campos específicos, adecuados para una base de datos), lo que facilita su comprensión, análisis y consumo.
Document AI se basa en productos de Vertex AI con IA generativa para ayudarte a crear aplicaciones de procesamiento de documentos integrales, escalables y basadas en la nube sin necesidad de tener conocimientos especializados en aprendizaje automático.
Con Document AI, puedes hacer lo siguiente:
- Digitaliza documentos con OCR para obtener texto, diseño y varios complementos, como la detección de la calidad de la imagen (para mejorar la legibilidad) y la corrección de la inclinación (totalmente automática).
- Extrae texto e información de diseño de archivos de documentos y normaliza entidades.
- Identifica los pares clave-valor en formularios estructurados y tablas normales. Por ejemplo,
Name: Jill Smith
es un par clave-valor. - Clasificar tipos de documentos para impulsar procesos posteriores, como la extracción y el almacenamiento.
- Divide y clasifica documentos por tipo. Por ejemplo, un archivo PDF con varios documentos reales.
- Prepara conjuntos de datos para usarlos en la puesta a punto y las evaluaciones de modelos con funciones de etiquetado automático, gestión de esquemas y gestión de conjuntos de datos, como la revisión de documentos y predicciones.
- Integrarla con productos como Cloud Storage, BigQuery y Vertex AI Search para ayudarte a almacenar, buscar, organizar, gobernar y analizar documentos y metadatos.
En este diagrama se ilustran todos los pasos clave del procesamiento de documentos que admite Document AI y cómo se pueden conectar entre sí.
Procesador
Un procesador de Document AI se encuentra entre el archivo de documento y un modelo de aprendizaje automático que realiza acciones de procesamiento e interpretación de documentos. Se pueden usar para clasificar, dividir, analizar o interpretar un documento.
Cada Google Cloud proyecto debe crear sus propias instancias de procesador.
Los procesadores se clasifican en una de las siguientes categorías:
- Digitalizar: OCR.
- Extraer: extractores personalizados, analizadores de formularios, analizadores de diseños y analizadores preentrenados.
- Clasificar: clasificador y divisor personalizados.
Consulta la lista completa de procesadores y detalles para obtener información sobre todos los tipos de procesadores disponibles de Document AI.
¿Qué procesador debo usar?
Para decidir qué tipo de procesador usar en una aplicación concreta, sigue estas directrices generales:
Categoría | Caso práctico | Tipo de procesador |
---|---|---|
Digitalizar | Extrae texto e información de diseño de documentos. | Enterprise Document OCR |
Analiza la calidad de la imagen escaneada (legibilidad) de un documento. | Enterprise Document OCR con el análisis de calidad de imagen habilitado | |
Extraer entidades de un documento personalizado que no cumpla los criterios de los procesadores personalizados. | ||
Extraer | Extrae tablas o pares clave-valor de un formulario estructurado de un documento. | Analizador de formularios |
Extrae elementos como texto, tablas y listas de un documento y devuelve fragmentos contextualizados. | Analizador de diseños | |
Extraer entidades de un documento personalizado que cumpla los criterios del procesador personalizado. | Crear un extractor personalizado | |
Extraer entidades de un tipo de documento especializado. | Un procesador preentrenado (Entrenamiento adicional para mejorar la calidad). | |
Clasificar | Clasifica documentos. | Crear un clasificador personalizado |
Dividir documentos. | Crear un divisor personalizado |
Este diagrama ayuda a determinar qué procesador funciona mejor en cada caso práctico.
Usar procesadores de Document AI
Estos son los pasos principales para usar Document AI y empezar a procesar documentos:
Elige un procesador que se adapte a tu caso práctico.
- Para obtener información completa sobre cada procesador, consulta la lista completa de procesadores y detalles.
Crea un procesador con la Google Cloud consola o la API de Document AI.
Document AI crea un endpoint de predicción al que puedes enviar tus documentos.
Para obtener instrucciones detalladas, consulta el artículo Crear un procesador.
Entrena un procesador con datos de entrenamiento y de prueba desde cero, o bien actualiza una versión nueva (preentrenada) de un procesador sobre una versión ya existente.
- Para obtener instrucciones detalladas, consulta Train processor.
Envía tus documentos para que se procesen.
Document AI procesa los documentos y devuelve uno o varios objetos
Document
, que contienen la información estructurada extraída.Para obtener instrucciones detalladas, consulta Enviar una solicitud de procesamiento y Gestionar la respuesta de procesamiento.