bookmark_borderbookmark
Organiza tus páginas con colecciones
Guarda y categoriza el contenido según tus preferencias.
En esta página, se incluye información detallada sobre todos los procesadores que ofrece
Document AI. Puedes ver una lista de todos los procesadores por tipo de solución.
OCR de documentos empresariales (reconocimiento óptico de caracteres)
Descripción
Identifica y extrae texto en diferentes tipos de documentos.
Este procesador te permite identificar y extraer texto, incluido el texto escrito a mano, de documentos en más de 200 idiomas. El encargado del tratamiento de datos también usa el aprendizaje automático para realizar una evaluación de calidad de un documento en función de la legibilidad de su contenido.
No se recomienda su uso y se descontinuará en Estados Unidos (EE.UU.) y la Unión Europea (UE) a partir del 30 de abril de 2025.
pretrained-ocr-v1.1-2022-09-12
Estable
Ninguno
Ninguno
No se recomienda su uso y se descontinuará en Estados Unidos (EE.UU.) y la Unión Europea (UE) a partir del 30 de abril de 2025.
pretrained-ocr-v1.2-2022-11-10
Estable
Ninguno
Ninguno
Versión del modelo inmovilizada de la v1.0: Archivos de modelos, configuraciones y objetos binarios de una instantánea de versión inmovilizada en una imagen de contenedor durante un máximo de 18 meses.
pretrained-ocr-v2.0-2023-06-02
Estable
Ninguno
Ninguno
Modelo listo para producción especializado en casos de uso de documentos. Incluye acceso a todos los complementos de OCR.
pretrained-ocr-v2.1-2024-08-07
Estable
Ninguno
Ninguno
Las principales áreas de mejora de la versión 2.1 son: un mejor reconocimiento de texto impreso, una detección más precisa de las casillas de verificación y un orden de lectura más preciso.
pretrained-ocr-v2.1.1-2025-01-31
Versión candidata
Ninguno
Ninguno
La versión 2.1.1 es similar a la 2.1 y está disponible en todas las regiones, excepto en US, EU y asia-southeast1.
Candidato listo para producción especializado en casos de uso de documentos con modelos de visión y modelos de base especializados.
pretrained-foundation-model-v1.1-2024-03-12
Versión candidata
Ninguno
Ninguno
Versión candidata potenciada por el LLM de Gemini 1.0 Pro y tecnologías recientemente desarrolladas, incluidos modelos de lenguaje y visión especializados. También incluye funciones avanzadas de OCR, como la detección de cuadros de verificación.
pretrained-foundation-model-v1.2-2024-05-10
Estable
Ninguno
Ninguno
Candidato listo para la producción potenciado por el LLM de Gemini 1.5 Pro y tecnologías recientemente desarrolladas, incluidos modelos de lenguaje y visión especializados También incluye funciones avanzadas de OCR, como la detección de cuadros de verificación. Se recomienda para los usuarios que desean usar los límites de tokens más grandes admitidos o experimentar con modelos más nuevos.
pretrained-foundation-model-v1.3-2024-08-31
Estable
Ninguno
Ninguno
Candidato listo para la producción con el LLM de Gemini 1.5 Flash También incluye funciones avanzadas de OCR, como la detección de cuadros de verificación. Se recomienda para quienes desean la latencia más baja.
pretrained-foundation-model-v1.4-2025-02-05
Versión candidata
Ninguno
Ninguno
Candidato listo para la producción con LLM de Gemini 2.0 Flash Candidato listo para la producción potenciado por el LLM de Gemini 2.0 Flash También incluye funciones avanzadas de OCR, como la detección de cuadros de verificación. Se recomienda para quienes quieran experimentar con modelos más nuevos.
Extrae pares clave-valor generales (entidad y casilla de verificación), tablas y entidades genéricas de documentos, además del texto de OCR.
Este procesador aplica tecnologías avanzadas de aprendizaje automático para extraer pares clave-valor, casillas de verificación y tablas de documentos en más de 200 idiomas. Este procesador también aprovecha los modelos de aprendizaje profundo para extraer 11 entidades genéricas que son comunes en varios tipos de documentos.
Categoría
Extraer
Funciones
OCR, análisis de formularios y extracción de entidades
Versión recomendada. Admite entidades genéricas y, además, incluye una tabla, un modelo de KVP y una casilla de verificación actualizados, así como más de 200 idiomas.
pretrained-form-parser-v2.1-2023-06-26
Versión candidata
Ninguno
Ninguno
Versión preliminar pública. Es el mismo modelo que la versión 2.0 con la extracción de texto nativa de archivos PDF digitales habilitada.
Extrae elementos de contenido de documentos (texto, tablas y listas) y crea fragmentos contextuales.
El analizador de diseño extrae elementos de contenido de documentos, como texto, tablas y listas, y crea fragmentos contextuales que facilitan la recuperación de información en la IA generativa y las aplicaciones de descubrimiento.
Si una página de un archivo de entrada de varias páginas es el tipo de documento correcto y una de las versiones admitidas, el procesador realiza la extracción de entidades en el primer documento compatible. Si el procesador no encuentra ningún documento aplicable en el archivo de entrada, muestra un mensaje de error.
Idiomas admitidos
Idioma
Etiqueta BCP 47
Secuencia de comandos
Compatibilidad con la escritura a mano
Inglés
en
Latn
Versiones de procesadores
ID de versión
Canal de actualización
Se detectaron campos adicionales
Idiomas adicionales admitidos
Descripción
pretrained-bankstatement-v1.0-2021-08-08
Estable
Ninguno
Ninguno
pretrained-bankstatement-v1.1-2021-08-13
Estable
Ninguno
Ninguno
pretrained-bankstatement-v2.0-2021-12-10
Estable
Ninguno
Ninguno
pretrained-bankstatement-v3.0-2022-05-16
Estable
Ninguno
Ninguno
Esta versión supone que el archivo de entrada contiene un solo estado de cuenta. A diferencia de la versión predeterminada, esta versión no verifica el archivo de entrada en busca de estados de cuenta y no mostrará un error si no se encuentran estados de cuenta.
Si una página de un archivo de entrada de varias páginas es el tipo de documento correcto y una de las versiones admitidas, el procesador realiza la extracción de entidades en el primer documento compatible. Si el procesador no encuentra ningún documento aplicable en el archivo de entrada, muestra un mensaje de error.
Mejoras de calidad y compatibilidad con los campos del cuadro 12 y las predicciones detalladas de EmployeeName, EmployeeAddress y EmployerNameAndAddress, que ya no forman parte del resultado y se reemplazan por campos adicionales.
Predice la validez de los documentos de identificación con varios indicadores.
El procesador de verificación de documentos de identidad está diseñado para ayudar a predecir la validez de los documentos de ID con cuatro indicadores diferentes.
Actualmente, el procesador muestra información de los siguientes indicadores:
Detección de fraud_signals_is_identity_document: Predice si una imagen contiene un documento de identidad reconocido.
Detección de fraud_signals_suspicious_words: Predice si hay palabras que no son típicas en los IDs.
Detección de fraud_signals_image_manipulation: Predice si la imagen se alteró o se manipuló con una herramienta de edición de imágenes.
Detección de fraud_signals_online_duplicate: Predice si la imagen se puede encontrar en línea (solo en EE.UU.).
Actualmente, la función de detección de duplicados en línea se procesa en centros de datos de EE.UU. La asistencia regional y multirregional no está disponible para esta función fuera de EE.UU.
Este procesador es compatible con algoritmos que se actualizan con más frecuencia que el lanzamiento de nuevas versiones del procesador. Por este motivo, el procesador puede mostrar diferentes resultados con el tiempo, incluso cuando se usa la misma versión del procesador. Por ejemplo, el sistema de detección de duplicados en línea supervisa las imágenes presentes en la Web. El comportamiento del sistema puede cambiar más rápido de lo que se puede hacer un seguimiento en las versiones de procesador.
Consulta las notas sobre la IA responsable[†] y la revisión humana.[‡]
Idiomas admitidos
Idioma
Etiqueta BCP 47
Secuencia de comandos
Compatibilidad con la escritura a mano
Inglés
en
Latn
Formularios o versiones compatibles
Compatibilidad con pasaportes, tarjetas de acceso y licencias de conducir de EE.UU.
Si el documento de entrada de varias páginas contiene más de una hoja de pago válida, el procesador extrae entidades solo de la primera hoja de pago válida. Si no se encuentran recibos de sueldo en el archivo de entrada, el procesador muestra un mensaje de error.
Esta versión supone que el archivo de entrada contiene un solo recibo de pago. A diferencia de la versión predeterminada, esta versión no verifica si hay recibos de pago en el archivo de entrada y no mostrará un error si no se encuentran recibos de pago.
Mejora de la calidad, compatibilidad con campos nuevos y un esquema nuevo. Bonificación, Comisiones, Feriado, Horas extras, Sueldo normal y Vacaciones ahora forman parte de earning_item/earning_this_period, y sus versiones en lo que va del año se encuentran en earning_item/earning_ytd. Direct Deposit y Employee Account Number ahora se anidan en direct_deposit_item.
El límite de páginas asíncronas es de 10.
pretrained-paystub-v2.0-2022-07-22
Estable
Ninguno
Ninguno
Mejoras en la calidad y en la capacitación continua.
Se realizaron mejoras de rendimiento y compatibilidad con el entrenamiento avanzado. Se aumentó a 15 el límite máximo de páginas (solicitudes en línea o síncronas).
Extrae texto y valores de las facturas, como el número de factura, el nombre del proveedor, el importe, el importe fiscal, la fecha de facturación y la fecha de vencimiento.
El analizador de facturas extrae campos de encabezado y de línea de pedido, como el número de factura, el nombre del proveedor, el importe de la factura, el importe de los impuestos, la fecha de facturación, la fecha de vencimiento y los importes de las líneas de pedido.
[*] Este procesador solo está disponible para los clientes con acceso limitado.
Para solicitar acceso a la API, completa y envía el formulario de solicitud de clientes con acceso limitado de Document AI.
En el formulario se solicita información sobre tus datos personales, tu empresa y tu caso práctico.
Ten en cuenta que se requiere un ID de proyecto de Google Cloud para acceder.
Para crear un proyecto nuevo de Google Cloud o identificar el ID de tu proyecto existente, consulta las siguientes instrucciones.
Después de que envíes el formulario, el equipo de Document AI revisará tu solicitud para asegurarse de que cumplas con los criterios de acceso.
Si se aprueba, recibirás un correo electrónico con instrucciones para acceder y usar esta función.
[†]
La verificación de documentos de identidad sirve para extraer y evaluar información de los documentos de ID que contribuye a identificar si la imagen de entrada representa un ID auténtico.
En Google Cloud, priorizamos ayudar a los clientes a desarrollar e implementar soluciones de IA de forma segura, y la Verificación de Identidad se desarrolló de acuerdo con los principios de IA de Google.
En función de los Principios de IA de Google y el diseño actual del producto, te recomendamos que tengas precaución y evalúes cuidadosamente los posibles beneficios y riesgos de usar la verificación de documentos de identidad para lo siguiente:
Toma de decisiones sin intervención humana para las predicciones que pueden afectar los derechos humanos
En dominios sensibles, incluidos, sin limitaciones, el empleo, el acceso a servicios públicos, la atención médica y los contextos de seguridad esenciales.
[‡] Siempre usa la verificación de identidad como parte de tu proceso y flujo de trabajo de detección de identidad más amplio.
Es importante que tengas un revisor manual en tu flujo de trabajo para verificar si los indicadores previstos son precisos. El procesador de pruebas de identidad no está diseñado para reemplazar la revisión manual de los IDs en un flujo de trabajo, sino para ayudar a los revisores manuales a validar los documentos de ID. El procesador de pruebas de identidad no debe usarse como una herramienta de decisión automatizada para determinar si un ID es válido. Con la revisión manual, los clientes pueden lograr una mayor exactitud en el procesamiento de documentos y ayudar a las empresas a evaluar las predicciones con herramientas diseñadas con un propósito determinado para permitir esas revisiones.
Asegúrate de revisar las reglamentaciones de la región en la que implementarás esta tecnología y de investigar la orientación existente de la industria para obtener información sobre los lineamientos de las políticas y los problemas comunes de equidad. Obtén información sobre la imparcialidad en el aprendizaje automático, incluidas las formas de mitigar el sesgo en los conjuntos de datos de entrenamiento, evaluar tus modelos personalizados en busca de desigualdades en el rendimiento y otras consideraciones que debes tener en cuenta cuando usas tu modelo personalizado.
Recomendamos a los clientes que tengan en cuenta la equidad, la interpretabilidad y las prácticas recomendadas de privacidad y seguridad cuando implementen la verificación de identidad. Para obtener más información sobre cómo implementar la IA responsable, lee las recomendaciones de Google para las prácticas de IA responsable.
[[["Fácil de comprender","easyToUnderstand","thumb-up"],["Resolvió mi problema","solvedMyProblem","thumb-up"],["Otro","otherUp","thumb-up"]],[["Difícil de entender","hardToUnderstand","thumb-down"],["Información o código de muestra incorrectos","incorrectInformationOrSampleCode","thumb-down"],["Faltan la información o los ejemplos que necesito","missingTheInformationSamplesINeed","thumb-down"],["Problema de traducción","translationIssue","thumb-down"],["Otro","otherDown","thumb-down"]],["Última actualización: 2025-02-20 (UTC)"],[],[]]