Organiza tus páginas con colecciones
Guarda y categoriza el contenido según tus preferencias.
Lista de procesadores
En esta página, se incluye información detallada sobre todos los procesadores que ofrece
Document AI. Puedes ver una lista de todos los procesadores por tipo de solución.
OCR de documentos empresariales (reconocimiento óptico de caracteres)
Descripción
Identifica y extrae texto en diferentes tipos de documentos.
Este procesador te permite identificar y extraer texto, incluido el texto escrito a mano, de documentos en más de 200 idiomas. El encargado del tratamiento de datos también usa el aprendizaje automático para realizar una evaluación de calidad de un documento en función de la legibilidad de su contenido.
No se recomienda su uso y se descontinuará en Estados Unidos (EE.UU.) y la Unión Europea (UE) a partir del 30 de abril de 2025.
pretrained-ocr-v1.1-2022-09-12
Estable
Ninguno
Ninguno
No se recomienda su uso y se descontinuará en Estados Unidos (EE.UU.) y la Unión Europea (UE) a partir del 30 de abril de 2025.
pretrained-ocr-v1.2-2022-11-10
Estable
Ninguno
Ninguno
Versión del modelo inmovilizada de la v1.0: Archivos de modelos, configuraciones y objetos binarios de una instantánea de versión inmovilizada en una imagen de contenedor durante un máximo de 18 meses.
pretrained-ocr-v2.0-2023-06-02
Estable
Ninguno
Ninguno
Modelo listo para producción especializado en casos de uso de documentos. Incluye acceso a todos los complementos de OCR.
pretrained-ocr-v2.1-2024-08-07
Versión candidata
Ninguno
Ninguno
Las principales áreas de mejora de la versión 2.1 son: un mejor reconocimiento de texto impreso, una detección más precisa de las casillas de verificación y un orden de lectura más preciso.
Si usas la IA generativa para la extracción, haz lo siguiente:
Solo se admite oficialmente el idioma inglés.
La disponibilidad por región se encuentra en US, EU, northamerica-northeast1 y asia-southeast1.
Idiomas admitidos
Lista completa de idiomas
Idioma
Etiqueta BCP 47
Secuencia de comandos
Compatibilidad con la escritura a mano
Afrikáans
af
Latn
Árabe
ar
Arab
Azerbaiyano
az
Latn
Azerí (cirílico)
az-Cyrl
Cyrl
Bielorruso
be
Cyrl
Búlgaro
bg
Cyrl
Bosnio
bs
Latn
Catalán
ca
Latn
Cebuano
ceb
Latn
Checo
cs
Latn
Galés
cy
Latn
Danés
da
Latn
Alemán
de
Latn
Griego
el
Grek
Inglés
en
Latn
Esperanto
eo
Latn
Español
es
Latn
Estonio
et
Latn
Euskara
eu
Latn
Persa
fa
Arab
Finlandés
fi
Latn
Filipino
fil
Latn
Francés
fr
Latn
Irlandés
ga
Latn
Gallego
gl
Latn
Hindi
hi
Deva
Croata
hr
Latn
Criollo haitiano
ht
Latn
Húngaro
hu
Latn
Indonesio
id
Latn
Islandés
is
Latn
Italiano
it
Latn
Hebreo
iw
Hebr
Japonés
ja
Jpan
Javanés
jv
Latn
Kazajo
kk
Cyrl
Corean
ko
Kore
Kirguizo
ky
Cyrl
Latín
la
Latn
Lituano
lt
Latn
Letón
lv
Latn
Macedonio
mk
Cyrl
Mongol
mn
Cyrl
Marathi
mr
Deva
Malayo
ms
Latn
Maltés
mt
Latn
Nepalí
ne
Deva
Neerlandés
nl
Latn
Noruego
no
Latn
Polaco
pl
Latn
Pastún
ps
Arab
Portugués (Brasil y Portugal)
pt
Latn
Rumano
ro
Latn
Ruso
ru
Cyrl
Ruso (ortografía petrina)
ru-PETR1708
Cyrl
Sánscrito
sa
Deva
Eslovaco
sk
Latn
Esloveno
sl
Latn
Albanés
sq
Latn
Serbio
sr
Cyrl
Sueco
sv
Latn
Suajili
sw
Latn
Tagalo
tl
Latn
Turco
tr
Latn
Ucraniano
uk
Cyrl
Urdu
ur
Arab
Uzbeko
uz
Latn
Uzbeko (cirílico)
uz-Cyrl
Cyrl
Vietnamita
vi
Latn
Yiddish
yi
Hebr
Chino simplificado
zh-Hans
Hani
Chino tradicional
zh-Hant
Hani
Zulú
zu
Latn
Versiones de procesadores
ID de versión
Canal de actualización
Se detectaron campos adicionales
Idiomas adicionales admitidos
Descripción
pretrained-foundation-model-v1.0-2023-08-22
Estable
Ninguno
Ninguno
Candidato listo para producción especializado en casos de uso de documentos con modelos de visión y modelos de base especializados.
pretrained-foundation-model-v1.1-2024-03-12
Versión candidata
Ninguno
Ninguno
Versión candidata potenciada por el LLM de Gemini 1.0 Pro y tecnologías recientemente desarrolladas, incluidos modelos de lenguaje y visión especializados. También incluye funciones avanzadas de OCR, como la detección de casillas de verificación.
pretrained-foundation-model-v1.2-2024-05-10
Estable
Ninguno
Ninguno
Candidato listo para la producción potenciado por el LLM de Gemini 1.5 Pro y tecnologías recientemente desarrolladas, incluidos modelos de lenguaje y visión especializados También incluye funciones avanzadas de OCR, como la detección de casillas de verificación. Se recomienda para los usuarios que desean usar los límites de tokens más grandes admitidos o experimentar con modelos más nuevos.
pretrained-foundation-model-v1.3-2024-08-31
Estable
Ninguno
Ninguno
Candidato listo para la producción con el LLM de Gemini 1.5 Flash También incluye funciones avanzadas de OCR, como la detección de casillas de verificación. Se recomienda para quienes desean la latencia más baja.
Extrae pares clave-valor generales (entidad y casilla de verificación), tablas y entidades genéricas de documentos, además del texto de OCR.
Este procesador aplica tecnologías avanzadas de aprendizaje automático para extraer pares clave-valor, casillas de verificación y tablas de documentos en más de 200 idiomas. Este procesador también aprovecha los modelos de aprendizaje profundo para extraer 11 entidades genéricas que son comunes en varios tipos de documentos.
Categoría
Extraer
Funciones
OCR, análisis de formularios y extracción de entidades
Versión heredada. Para obtener la mejor calidad y el conjunto completo de funciones, usa el Analizador de formularios v2.0.
pretrained-form-parser-v2.0-2022-11-10
Estable
Mostrar campos
email
phone
url
date_time
address
person
organization
quantity
price
id
page_number
Ninguno
Versión recomendada. Admite entidades genéricas y, además, incluye una tabla, un modelo de KVP y una casilla de verificación actualizados, así como más de 200 idiomas.
pretrained-form-parser-v2.1-2023-06-26
Versión candidata
Ninguno
Ninguno
Versión preliminar pública. Es el mismo modelo que la versión 2.0 con la extracción de texto nativa de archivos PDF digitales habilitada.
Extrae elementos de contenido de documentos (texto, tablas y listas) y crea fragmentos con contexto.
El analizador de diseño extrae elementos de contenido de documentos, como texto, tablas y listas, y crea fragmentos con contexto que facilitan la recuperación de información en la IA generativa y las aplicaciones de descubrimiento.
Si una página de un archivo de entrada de varias páginas es el tipo de documento correcto y una de las versiones admitidas, el procesador realiza la extracción de entidades en el primer documento compatible. Si el procesador no encuentra ningún documento aplicable en el archivo de entrada, muestra un mensaje de error.
Idiomas admitidos
Idioma
Etiqueta BCP 47
Secuencia de comandos
Compatibilidad con la escritura a mano
Inglés
en
Latn
Versiones de procesadores
ID de versión
Canal de actualización
Se detectaron campos adicionales
Idiomas adicionales admitidos
Descripción
pretrained-bankstatement-v1.0-2021-08-08
Estable
Ninguno
Ninguno
pretrained-bankstatement-v1.1-2021-08-13
Estable
Ninguno
Ninguno
pretrained-bankstatement-v2.0-2021-12-10
Estable
Ninguno
Ninguno
pretrained-bankstatement-v3.0-2022-05-16
Estable
Ninguno
Ninguno
Esta versión supone que el archivo de entrada contiene un solo estado de cuenta. A diferencia de la versión predeterminada, esta versión no verifica el archivo de entrada en busca de estados de cuenta y no mostrará un error si no se encuentran estados de cuenta.
Si una página de un archivo de entrada de varias páginas es el tipo de documento correcto y una de las versiones admitidas, el procesador realiza la extracción de entidades en el primer documento compatible. Si el procesador no encuentra ningún documento aplicable en el archivo de entrada, muestra un mensaje de error.
Idiomas admitidos
Idioma
Etiqueta BCP 47
Secuencia de comandos
Compatibilidad con la escritura a mano
Inglés
en
Latn
Formularios o versiones compatibles
2020 (versiones estándar y personalizadas)
2019 (versiones estándar y personalizadas)
2018 (versiones estándar y personalizadas)
Versiones de procesadores
ID de versión
Canal de actualización
Se detectaron campos adicionales
Idiomas adicionales admitidos
Descripción
pretrained-w2-v1.0-2020-10-01
Estable
Ninguno
Ninguno
pretrained-w2-v1.1-2022-01-27
Estable
Ninguno
Ninguno
pretrained-w2-v1.2-2022-01-28
Estable
Mostrar campos
AllocatedTips
ControlNumber
DependentCareBenefits
EIN
EmployeeAddress
EmployeeName
EmployerNameAndAddress
EmployerStateIdNumber_Line1
FederalIncomeTaxWithheld
FormYear
LocalIncomeTax_Line1
LocalityName_Line1
LocalWagesTipsEtc_Line1
MedicareTaxWithheld
MedicareWagesAndTips
NonqualifiedPlans
SocialSecurityTaxWithheld
SocialSecurityTips
SocialSecurityWages
SSN
State_Line1
StateIncomeTax_Line1
StateWagesTipsEtc_Line1
WagesTipsOtherCompensation
Ninguno
Mejoras de calidad y compatibilidad con campos nuevos (no incluye el divisor).
Mejoras de calidad y compatibilidad con los campos del cuadro 12 y las predicciones detalladas de EmployeeName, EmployeeAddress y EmployerNameAndAddress, que ya no forman parte del resultado y se reemplazan por campos adicionales.
Predice la validez de los documentos de identificación con varios indicadores.
El procesador de verificación de documentos de identidad está diseñado para ayudar a predecir la validez de los documentos de ID con cuatro indicadores diferentes.
Actualmente, el procesador muestra información de los siguientes indicadores:
Detección de fraud_signals_is_identity_document: Predice si una imagen contiene un documento de identidad reconocido.
Detección de fraud_signals_suspicious_words: Predice si hay palabras que no son típicas en los IDs.
Detección de fraud_signals_image_manipulation: Predice si la imagen se alteró o se manipuló con una herramienta de edición de imágenes.
Detección de fraud_signals_online_duplicate: Predice si la imagen se puede encontrar en línea (solo en EE.UU.).
Actualmente, la función de detección de duplicados en línea se procesa en centros de datos de EE.UU. La asistencia regional y multirregional no está disponible para esta función fuera de EE.UU.
Este procesador es compatible con algoritmos que se actualizan con más frecuencia que el lanzamiento de nuevas versiones del procesador. Por este motivo, el procesador puede mostrar diferentes resultados con el tiempo, incluso cuando se usa la misma versión del procesador. Por ejemplo, el sistema de detección de duplicados en línea supervisa las imágenes presentes en la Web. El comportamiento del sistema puede cambiar más rápido de lo que se puede hacer un seguimiento en las versiones de procesador.
Consulta las notas sobre la IA responsable[†] y la revisión humana.[‡]
Idiomas admitidos
Idioma
Etiqueta BCP 47
Secuencia de comandos
Compatibilidad con la escritura a mano
Inglés
en
Latn
Formularios o versiones compatibles
Compatibilidad con pasaportes, tarjetas de acceso y licencias de conducir de EE.UU.
Si el documento de entrada de varias páginas contiene más de una hoja de pago válida, el procesador extrae entidades solo de la primera hoja de pago válida. Si no se encuentran recibos de pago en el archivo de entrada, el procesador muestra un mensaje de error.
Idiomas admitidos
Idioma
Etiqueta BCP 47
Secuencia de comandos
Compatibilidad con la escritura a mano
Inglés
en
Latn
Versiones de procesadores
ID de versión
Canal de actualización
Se detectaron campos adicionales
Idiomas adicionales admitidos
Descripción
pretrained-paystub-v1.0-2021-03-19
Estable
Ninguno
Ninguno
pretrained-paystub-v1.1-2021-08-13
Estable
Mostrar campos
net_pay
net_pay_ytd
employee_account_number
Ninguno
Mejora de la calidad y compatibilidad con campos nuevos
pretrained-paystub-v1.2-2021-12-10
Estable
Ninguno
Ninguno
pretrained-paystub-v2.0-2022-05-17
Versión candidata
Mostrar campos
deduction_item
deduction_item/deduction_type
deduction_item/deduction_this_period
deduction_item/deduction_ytd
direct_deposit_item
direct_deposit_item/direct_deposit
direct_deposit_item/employee_account_number
earning_item
earning_item/earning_type
earning_item/earning_rate
earning_item/earning_hours
earning_item/earning_this_period
earning_item/earning_ytd
page_number
tax_item
tax_item/tax_type
tax_item/tax_this_period
tax_item/tax_ytd
federal_additional_tax
federal_allowance
federal_marital_status
state_additional_tax
state_allowance
state_marital_status
Ninguno
Esta versión supone que el archivo de entrada contiene un solo recibo de pago. A diferencia de la versión predeterminada, esta versión no verifica si hay recibos de sueldo en el archivo de entrada y no mostrará un error si no se encuentran recibos de sueldo.
Mejora de la calidad, compatibilidad con campos nuevos y un esquema nuevo. Bonificación, Comisiones, Feriado, Horas extras, Sueldo normal y Vacaciones ahora forman parte de earning_item/earning_this_period, y sus versiones en lo que va del año se encuentran en earning_item/earning_ytd. Direct Deposit y Employee Account Number ahora se anidan en direct_deposit_item.
El límite de páginas asíncronas es de 10.
pretrained-paystub-v2.0-2022-07-22
Estable
Ninguno
Ninguno
Mejoras en la calidad y en la capacitación continua.
Se lanzó en abril de 2021. Pronto se planea la baja.
pretrained-expense-v1.2-2022-02-18
Estable
Ninguno
Ninguno
pretrained-expense-v1.3-2022-07-15
Estable
Mostrar campos
credit_card_last_four_digits
line_item/quantity
payment_type
ja: Japonés
Compatibilidad con los folletos de hoteles y alquileres de automóviles
pretrained-expense-v1.3.2-2024-09-11
Versión candidata
Mostrar campos
credit_card_last_four_digits
line_item/quantity
payment_type
ja: Japonés
Una actualización a la versión 1.3 con un modelo de visión subyacente mejorado.
pretrained-expense-v1.4-2022-11-18
Versión candidata
Mostrar campos
traveler_name
reservation_id
line_item/transaction_date
ja: Japonés
it: Italiano
pt: Portugués (Portugal y Brasil)
Se realizaron mejoras de rendimiento y compatibilidad con el entrenamiento avanzado. Se aumentó a 15 el límite máximo de páginas (solicitudes en línea o síncronas).
pretrained-expense-v1.4.2-2024-09-12
Versión candidata
Mostrar campos
traveler_name
reservation_id
line_item/transaction_date
ja: Japonés
it: Italiano
pt: Portugués (Portugal y Brasil)
Una actualización a la versión 1.4 con un modelo de visión subyacente mejorado.
Extrae texto y valores de las facturas, como el número de factura, el nombre del proveedor, el importe, el importe fiscal, la fecha de facturación y la fecha de vencimiento.
El analizador de facturas extrae campos de encabezado y de línea de pedido, como el número de factura, el nombre del proveedor, el importe de la factura, el importe de los impuestos, la fecha de facturación, la fecha de vencimiento y los importes de las líneas de pedido.
[*] Este procesador solo está disponible para los clientes con acceso limitado.
Para solicitar acceso a la API, completa y envía el formulario de solicitud de clientes con acceso limitado de Document AI.
En el formulario, se solicita información sobre tu empresa, tu caso práctico y tus datos personales.
Ten en cuenta que se requiere un ID de proyecto de Google Cloud para acceder.
Para crear un proyecto nuevo de Google Cloud o identificar el ID de tu proyecto existente, consulta las siguientes instrucciones.
Después de que envíes el formulario, el equipo de Document AI revisará tu solicitud para asegurarse de que cumplas con los criterios de acceso.
Si se aprueba, recibirás un correo electrónico con instrucciones para acceder y usar esta función.
[†]
La verificación de documentos de identidad sirve para extraer y evaluar información de los documentos de ID que contribuye a identificar si la imagen de entrada representa un ID auténtico.
En Google Cloud, priorizamos ayudar a los clientes a desarrollar e implementar soluciones de IA de forma segura, y la verificación de identidad se desarrolló de acuerdo con los principios de IA de Google.
En función de los Principios de IA de Google y el diseño actual del producto, te recomendamos que tengas precaución y evalúes cuidadosamente los posibles beneficios y riesgos de usar la verificación de documentos de identidad para lo siguiente:
Toma de decisiones sin intervención humana para las predicciones que pueden afectar los derechos humanos
En dominios sensibles, incluidos, sin limitaciones, el empleo, el acceso a servicios públicos, la atención médica y los contextos de seguridad esenciales.
[‡] Siempre usa la verificación de identidad como parte de tu proceso y flujo de trabajo de detección de identidad más amplio.
Es importante que tengas un revisor manual en tu flujo de trabajo para verificar si los indicadores previstos son precisos. El procesador de pruebas de identidad no está diseñado para reemplazar la revisión manual de los IDs en un flujo de trabajo, sino para ayudar a los revisores manuales a validar los documentos de ID. El procesador de pruebas de identidad no debe usarse como una herramienta de decisión automatizada para determinar si un ID es válido. Con la revisión manual, los clientes pueden lograr una mayor exactitud en el procesamiento de documentos y ayudar a las empresas a evaluar las predicciones con herramientas diseñadas con un propósito determinado para permitir esas revisiones.
Asegúrate de revisar las reglamentaciones de la región en la que implementarás esta tecnología y de investigar la orientación existente de la industria para obtener información sobre los lineamientos de las políticas y los problemas comunes de equidad. Obtén información sobre la imparcialidad en el aprendizaje automático, incluidas las formas de mitigar el sesgo en los conjuntos de datos de entrenamiento, evaluar tus modelos personalizados en busca de desigualdades en el rendimiento y otras consideraciones a tener en cuenta cuando usas tu modelo personalizado.
Recomendamos a los clientes que tengan en cuenta la equidad, la interpretabilidad y las prácticas recomendadas de privacidad y seguridad cuando implementen la verificación de identidad. Para obtener más información sobre cómo implementar la IA responsable, lee las recomendaciones de Google para las prácticas de IA responsable.
[[["Fácil de comprender","easyToUnderstand","thumb-up"],["Resolvió mi problema","solvedMyProblem","thumb-up"],["Otro","otherUp","thumb-up"]],[["Difícil de entender","hardToUnderstand","thumb-down"],["Información o código de muestra incorrectos","incorrectInformationOrSampleCode","thumb-down"],["Faltan la información o los ejemplos que necesito","missingTheInformationSamplesINeed","thumb-down"],["Problema de traducción","translationIssue","thumb-down"],["Otro","otherDown","thumb-down"]],["Última actualización: 2025-01-24 (UTC)"],[],[]]