Organízate con las colecciones
Guarda y clasifica el contenido según tus preferencias.
En esta página se incluye información detallada sobre todos los procesadores que ofrece Document AI. Puedes ver una lista de todos los procesadores por tipo de solución.
Reconocimiento óptico de caracteres (OCR) en documentos de empresa
Descripción
Identifica y extrae texto de diferentes tipos de documentos.
Este procesador identifica y extrae texto, incluido texto escrito a mano, de documentos en más de 200 idiomas. El procesador también usa el aprendizaje automático para evaluar la calidad de un documento en función de la legibilidad de su contenido.
Versión del modelo inmovilizada de la versión 1.0: archivos de modelo, configuraciones y archivos binarios de una captura de versión inmovilizada en una imagen de contenedor durante un máximo de 18 meses.
pretrained-ocr-v2.0-2023-06-02
Estable
Modelo listo para producción especializado en casos prácticos de documentos. Incluye acceso a todos los complementos de OCR.
pretrained-ocr-v2.1-2024-08-07
Estable
Las principales áreas de mejora de la versión 2.1 son: mejor reconocimiento de texto impreso, detección más precisa de casillas de verificación y orden de lectura más preciso.
pretrained-ocr-v2.1.1-2025-01-31
Versión candidata
La versión 2.1.1 es similar a la 2.1 y está disponible en todas las regiones, excepto en US, EU y asia-southeast1.
Si usas la IA generativa para la extracción, haz lo siguiente:
Solo se admite oficialmente el inglés.
La disponibilidad regional es en US, EU, northamerica-northeast1 y asia-southeast1.
Idiomas admitidos
Lista completa de idiomas
Idioma
Etiqueta BCP 47
Secuencia de comandos
Escritura a mano admitida
Afrikáans
af
Latn
Árabe
ar
Arab
Azerí
az
Latn
Azerí (cirílico)
az-Cyrl
Cyrl
Bielorruso
be
Cyrl
Búlgaro
bg
Cyrl
Bosnio
bs
Latn
Catalán
ca
Latn
Cebuano
ceb
Latn
Checo
cs
Latn
Galés
cy
Latn
Danés
da
Latn
Alemán
de
Latn
Griego
el
Grek
Inglés
en
Latn
Esperanto
eo
Latn
Español
es
Latn
Estonio
et
Latn
Euskera
eu
Latn
Persa
fa
Arab
Finés
fi
Latn
Filipino
fil
Latn
Francés
fr
Latn
Irlandés
ga
Latn
Gallego
gl
Latn
Hindi
hi
Deva
Croata
hr
Latn
Criollo haitiano
ht
Latn
Húngaro
hu
Latn
Indonesio
id
Latn
Islandés
is
Latn
Italiano
it
Latn
Hebreo
iw
Hebr
Japonés
ja
Jpan
Javanés
jv
Latn
Kazajo
kk
Cyrl
Coreano
ko
Kore
Kirguís
ky
Cyrl
Latín
la
Latn
Lituano
lt
Latn
Letón
lv
Latn
Macedonio
mk
Cyrl
Mongol
mn
Cyrl
Marathi
mr
Deva
Malayo
ms
Latn
Maltés
mt
Latn
Nepalí
ne
Deva
neerlandés
nl
Latn
Noruego
no
Latn
Polaco
pl
Latn
Pastún
ps
Arab
Portugués (Brasil y Portugal)
pt
Latn
Rumano
ro
Latn
Ruso
ru
Cyrl
Ruso (ortografía petrina)
ru-PETR1708
Cyrl
Sánscrito
sa
Deva
Eslovaco
sk
Latn
Esloveno
sl
Latn
Albanés
sq
Latn
Serbio
sr
Cyrl
Sueco
sv
Latn
Swahili
sw
Latn
Tagalo
tl
Latn
Turco
tr
Latn
Ucraniano
uk
Cyrl
Urdu
ur
Arab
Uzbeko
uz
Latn
Uzbeko (cirílico)
uz-Cyrl
Cyrl
Vietnamita
vi
Latn
Yiddish
yi
Hebr
Chino simplificado
zh-Hans
Hani
Chino tradicional
zh-Hant
Hani
Zulú
zu
Latn
Versiones del procesador
ID de versión
Canal de lanzamiento
Descripción
pretrained-foundation-model-v1.4-2025-02-05
Estable
Modelo GA que usa el LLM Gemini 2.0 Flash. También incluye funciones avanzadas de OCR, como la detección de casillas de verificación.
pretrained-foundation-model-v1.5-2025-05-05
Estable
Candidato listo para producción basado en el LLM Gemini 2.5 Flash. Recomendado para quienes quieran experimentar con modelos más recientes.
pretrained-foundation-model-v1.5-pro-2025-06-20
Estable
Modelo listo para producción que usa el LLM Gemini 2.5 Pro. Admite una cuota de hasta 30 páginas por minuto para las solicitudes de proceso online. Este modelo tiene una calidad mejorada en comparación con la versión 1.5 y puede tener una latencia mayor.
Extrae pares clave-valor generales (entidades y casillas de verificación), tablas y entidades genéricas de documentos, además de texto de OCR.
Este procesador aplica tecnologías avanzadas de aprendizaje automático para extraer pares clave-valor, casillas de verificación y tablas de documentos en más de 200 idiomas. Este procesador también utiliza modelos de aprendizaje profundo para extraer 11 entidades genéricas que son habituales en varios tipos de documentos.
Categoría
Extraer
Funciones
Reconocimiento óptico de caracteres, análisis de formularios y extracción de entidades
Extrae elementos de contenido de documentos (texto, tablas y listas) y crea fragmentos contextualizados.
Layout Parser extrae elementos de contenido de documentos, como texto, tablas y listas, y crea fragmentos contextualizados que facilitan la recuperación de información en aplicaciones de IA generativa y de descubrimiento.
Categoría
Extraer
Funciones
Análisis de diseños y división de documentos en fragmentos
Si una página de un archivo de entrada de varias páginas es del tipo de documento correcto y de una de las versiones admitidas, el procesador realiza la extracción de entidades en el primer documento admitido. Si el procesador no encuentra ningún documento aplicable en el archivo de entrada, devuelve un mensaje de error.
Idiomas admitidos
Idioma
Etiqueta BCP 47
Secuencia de comandos
Escritura a mano admitida
Inglés
en
Latn
Versiones del procesador
ID de versión
Canal de lanzamiento
Descripción
pretrained-bankstatement-v1.0-2021-08-08
Estable
pretrained-bankstatement-v1.1-2021-08-13
Estable
pretrained-bankstatement-v2.0-2021-12-10
Estable
pretrained-bankstatement-v3.0-2022-05-16
Estable
En esta versión se presupone que el archivo de entrada contiene un único extracto bancario. A diferencia de la versión predeterminada, esta versión no comprueba si el archivo de entrada contiene extractos bancarios y no devolverá ningún error si no se encuentra ninguno.
Si una página de un archivo de entrada de varias páginas es del tipo de documento correcto y de una de las versiones admitidas, el procesador realiza la extracción de entidades en el primer documento admitido. Si el procesador no encuentra ningún documento aplicable en el archivo de entrada, devuelve un mensaje de error.
Idiomas admitidos
Idioma
Etiqueta BCP 47
Secuencia de comandos
Escritura a mano admitida
Inglés
en
Latn
Formulario o versiones admitidas
2020 (versiones estándar y personalizadas)
2019 (versiones estándar y personalizadas)
2018 (versiones estándar y personalizadas)
Versiones del procesador
ID de versión
Canal de lanzamiento
Campos adicionales detectados
Descripción
pretrained-w2-v1.0-2020-10-01
Estable
Ninguno
pretrained-w2-v1.1-2022-01-27
Estable
Ninguno
pretrained-w2-v1.2-2022-01-28
Estable
Mostrar campos
AllocatedTips
ControlNumber
DependentCareBenefits
EIN
EmployeeAddress
EmployeeName
EmployerNameAndAddress
EmployerStateIdNumber_Line1
FederalIncomeTaxWithheld
FormYear
LocalIncomeTax_Line1
LocalityName_Line1
LocalWagesTipsEtc_Line1
MedicareTaxWithheld
MedicareWagesAndTips
NonqualifiedPlans
SocialSecurityTaxWithheld
SocialSecurityTips
SocialSecurityWages
SSN
State_Line1
StateIncomeTax_Line1
StateWagesTipsEtc_Line1
WagesTipsOtherCompensation
Mejoras de calidad y compatibilidad con nuevos campos; no incluye el separador.
Mejoras en la calidad y compatibilidad con los campos de la casilla 12 y predicciones detalladas de EmployeeName, EmployeeAddress y EmployerNameAndAddress, que ya no forman parte de la salida y se han sustituido por campos adicionales.
Es similar a la versión pretrained-w2-v2.0-2022-03-30, pero con mejoras de calidad adicionales y la incorporación de una entidad más: EmployeeName_Suffix.
Analizador de verificación de documentos de identidad
Descripción
Predice la validez de los documentos de identificación mediante varias señales.
El procesador de verificación de documentos de identidad se ha diseñado para ayudar a predecir la validez de los documentos de identificación con cuatro señales diferentes.
Actualmente, el procesador devuelve información de las siguientes señales:
Detección de fraud_signals_is_identity_document: predice si una imagen contiene un documento de identificación reconocido.
Detección de fraud_signals_suspicious_words: predice si hay palabras que no son habituales en los documentos de identificación.
Detección de fraud_signals_image_manipulation: predice si la imagen se ha alterado o manipulado con una herramienta de edición de imágenes.
fraud_signals_online_duplicate: predice si la imagen se puede encontrar online (solo en EE. UU.).
Actualmente, la función de detección de duplicados online se procesa en centros de datos de EE. UU. La asistencia regional y multirregional no está disponible para esta función fuera de EE. UU.
Este procesador es compatible con algoritmos que se actualizan con más frecuencia que las nuevas versiones del procesador. Por este motivo, el procesador puede devolver resultados diferentes a lo largo del tiempo, incluso cuando se usa la misma versión del procesador. Por ejemplo, el sistema de detección de duplicados online monitoriza las imágenes presentes en la Web. El comportamiento del sistema puede cambiar más rápido de lo que se puede registrar en las versiones del procesador.
Consulta las notas sobre la IA responsable[†] y la revisión humana.[‡]
Idiomas admitidos
Idioma
Etiqueta BCP 47
Secuencia de comandos
Escritura a mano admitida
Inglés
en
Latn
Formulario o versiones admitidas
Se admiten pasaportes, tarjetas de acceso y carnés de conducir de EE. UU.
Si el documento de entrada de varias páginas contiene más de una nómina válida, el procesador extrae entidades solo de la primera nómina válida. Si no se encuentran nóminas en el archivo de entrada, el procesador devuelve un mensaje de error.
Idiomas admitidos
Idioma
Etiqueta BCP 47
Secuencia de comandos
Escritura a mano admitida
Inglés
en
Latn
Versiones del procesador
ID de versión
Canal de lanzamiento
Campos adicionales detectados
Descripción
pretrained-paystub-v1.0-2021-03-19
Estable
Ninguno
pretrained-paystub-v1.1-2021-08-13
Estable
Mostrar campos
net_pay
net_pay_ytd
employee_account_number
Mejoras de calidad y compatibilidad con nuevos campos.
pretrained-paystub-v1.2-2021-12-10
Estable
Ninguno
pretrained-paystub-v2.0-2022-05-17
Versión candidata
Mostrar campos
deduction_item
deduction_item/deduction_type
deduction_item/deduction_this_period
deduction_item/deduction_ytd
direct_deposit_item
direct_deposit_item/direct_deposit
direct_deposit_item/employee_account_number
earning_item
earning_item/earning_type
earning_item/earning_rate
earning_item/earning_hours
earning_item/earning_this_period
earning_item/earning_ytd
page_number
tax_item
tax_item/tax_type
tax_item/tax_this_period
tax_item/tax_ytd
federal_additional_tax
federal_allowance
federal_marital_status
state_additional_tax
state_allowance
state_marital_status
En esta versión, se presupone que el archivo de entrada contiene una sola nómina. A diferencia de la versión predeterminada, esta versión no comprueba si el archivo de entrada contiene nóminas y no devolverá ningún error si no se encuentra ninguna.
Mejoras en la calidad, compatibilidad con campos nuevos y nuevo esquema. Las bonificaciones, las comisiones, las vacaciones, las horas extraordinarias y el salario normal ahora forman parte de earning_item/earning_this_period, y sus versiones acumuladas desde principios de año se encuentran en earning_item/earning_ytd. Los campos Direct Deposit y Employee Account Number ahora están anidados en direct_deposit_item.
El límite de páginas asíncronas es 10.
pretrained-paystub-v2.0-2022-07-22
Estable
Ninguno
Mejoras en la calidad y en la formación complementaria.
Una actualización a la versión 1.3 con un modelo de visión subyacente mejorado.
pretrained-expense-v1.4-2022-11-18
Versión candidata
Mostrar campos
traveler_name
reservation_id
line_item/transaction_date
ja: japonés
it: italiano
pt: portugués (Portugal y Brasil)
Mejoras de rendimiento y compatibilidad con el entrenamiento adicional. El límite máximo de páginas (solicitudes online o síncronas) se ha aumentado a 15.
pretrained-expense-v1.4.2-2024-09-12
Versión candidata
Mostrar campos
traveler_name
reservation_id
line_item/transaction_date
ja: japonés
it: italiano
pt: portugués (Portugal y Brasil)
Actualización a la versión 1.4 con un modelo de visión subyacente mejorado.
Extrae texto y valores de las facturas, como el número de factura, el nombre del proveedor, el importe de la factura, el importe de los impuestos, la fecha de la factura y la fecha de vencimiento.
El analizador de facturas extrae los campos del encabezado y de las líneas de pedido, como el número de factura, el nombre del proveedor, el importe de la factura, el importe de los impuestos, la fecha de la factura, la fecha de vencimiento y los importes de las líneas de pedido.
[*] Este procesador solo está disponible para los clientes que tienen acceso limitado.
Para solicitar acceso a la API, rellena y envía el formulario de solicitud de acceso limitado a Document AI para clientes.
En el formulario se solicita información sobre ti, tu empresa y tu caso práctico.
Ten en cuenta que se necesita un ID de proyecto de Google Cloud para acceder.
Para crear un proyecto de Google Cloud o identificar el ID de su proyecto, consulta las instrucciones que aparecen a continuación.
Una vez que hayas enviado el formulario, el equipo de Document AI revisará tu solicitud para comprobar que cumples los criterios de acceso.
Si se aprueba la solicitud, recibirás un correo electrónico con instrucciones para acceder a esta función y usarla.
[†]
La verificación de documentos de identificación extrae y evalúa información de documentos de identificación que contribuye a determinar si la imagen introducida representa un documento de identificación auténtico.
En Google Cloud, priorizamos ayudar a los clientes a desarrollar e implementar soluciones de IA de forma segura, y la verificación de identidad se ha desarrollado de acuerdo con los principios de IA de Google.
De acuerdo con los principios de la IA de Google y el diseño de producto actual, te recomendamos que actúes con precaución y evalúes detenidamente las posibles ventajas y los riesgos de usar la verificación de documentos de identificación en los siguientes casos:
Toma de decisiones sin intervención humana en predicciones que pueden afectar a los derechos humanos.
En ámbitos sensibles, como el empleo, el acceso a servicios públicos, la sanidad y los contextos de seguridad.
[‡] Utiliza siempre la prueba de identidad como parte de tu proceso y flujo de trabajo de detección de identidad más amplios.
Es importante que incluya a un revisor humano en su flujo de trabajo para verificar si las señales predichas son precisas. El procesador de verificación de identidad no está diseñado para sustituir la revisión humana de los documentos de identificación en un flujo de trabajo, sino para ayudar a los revisores humanos a validar los documentos de identificación. El procesador de verificación de identidad no debe usarse como una herramienta de decisión automatizada para determinar si un documento de identificación es válido. Gracias a la revisión humana, los clientes pueden procesar documentos con mayor precisión y ayudar a las empresas a evaluar las predicciones con herramientas específicas que permiten habilitar dichas revisiones.
Asegúrate de revisar las normativas de la región en la que vas a implementar esta tecnología y de investigar las directrices del sector para conocer las políticas y los problemas de equidad habituales. Consulta información sobre la equidad en el aprendizaje automático, incluidas las formas de mitigar los sesgos en los conjuntos de datos de entrenamiento, evaluar las disparidades en el rendimiento de los modelos personalizados y otras consideraciones que debes tener en cuenta al usar tu modelo personalizado.
Recomendamos a los clientes que tengan en cuenta las prácticas recomendadas de equidad, interpretabilidad, privacidad y seguridad al implementar la verificación de identidad. Para obtener más información sobre cómo implementar la IA responsable, consulta las recomendaciones de Google sobre las prácticas de IA responsable.
[[["Es fácil de entender","easyToUnderstand","thumb-up"],["Me ofreció una solución al problema","solvedMyProblem","thumb-up"],["Otro","otherUp","thumb-up"]],[["Es difícil de entender","hardToUnderstand","thumb-down"],["La información o el código de muestra no son correctos","incorrectInformationOrSampleCode","thumb-down"],["Me faltan las muestras o la información que necesito","missingTheInformationSamplesINeed","thumb-down"],["Problema de traducción","translationIssue","thumb-down"],["Otro","otherDown","thumb-down"]],["Última actualización: 2025-09-10 (UTC)."],[[["\u003cp\u003eDocument AI offers various processors for digitizing, extracting, classifying, and summarizing document content, including Enterprise Document OCR for text recognition in over 200 languages.\u003c/p\u003e\n"],["\u003cp\u003eCustom Extractor uses generative AI or custom models to extract fields from documents, supporting multiple languages and specific data types, such as \u003ccode\u003edateTime\u003c/code\u003e, \u003ccode\u003ecurrency\u003c/code\u003e, \u003ccode\u003enumber\u003c/code\u003e, and has different versions with varying functionalities and lifespans.\u003c/p\u003e\n"],["\u003cp\u003eForm Parser extracts key-value pairs, checkboxes, tables, and entities from documents in over 200 languages, utilizing machine learning and deep learning techniques, and is capable of extracting fields such as \u003ccode\u003eemail\u003c/code\u003e, \u003ccode\u003ephone\u003c/code\u003e, \u003ccode\u003eurl\u003c/code\u003e, \u003ccode\u003edate_time\u003c/code\u003e, and more.\u003c/p\u003e\n"],["\u003cp\u003eLayout Parser, available for files such as PDF, HTML and DOCX, extracts content elements like text, tables and lists, supports a wide array of languages, and allows for processing up to 15 pages online or 500 in batch.\u003c/p\u003e\n"],["\u003cp\u003eSpecialized pretrained processors like Bank Statement Parser, W2 Parser, US Passport Parser, Utility Parser, Identity Document Proofing Parser, Pay Slip Parser, US Driver License Parser, Expense Parser, and Invoice Parser are available for extracting specific information from different document types.\u003c/p\u003e\n"]]],[],null,[]]