处理器列表

本页详细介绍了 Document AI 提供的所有处理器。您可以按解决方案类型查看所有处理器的列表。

所有 Document AI 处理方均遵守数据处理和安全条款

如需了解详情,请参阅管理处理器版本文档。此外,除了整体产品配额和限制之外,还适用特定的处理器限制。

将文本数字化

Enterprise Document OCR(光学字符识别)

说明

识别并提取不同类型的文档中的文本。

借助此处理器,您可以识别并提取文档中的文字(支持 200 多种语言的文字,包括手写文字)。处理器还会使用机器学习技术,根据文档内容的可读性对其进行质量评估。

类别 数字化
函数 光学字符识别、质量分析
发布阶段 正式版
访问状态 公开
在 API 中输入 OCR_PROCESSOR
支持的语言
完整语言列表
语言名称 BCP 47 代码 脚本 支持手写
南非荷兰语 af Latn
阿尔巴尼亚语 sq Latn
阿拉伯语 ar Arab
亚美尼亚语 hy Armn
白俄罗斯语 be Cyrl
孟加拉语 bn Beng
孟加拉语 bn Beng
保加利亚语 bg Cyrl
加泰罗尼亚语 ca Latn
中文 zh Hani
克罗地亚语 hr Latn
捷克语 cs Latn
丹麦语 da Latn
荷兰语 nl Latn
英语 en Latn
爱沙尼亚语 et Latn
菲律宾语 fil Latn
芬兰语 fi Latn
法语 fr Latn
德语 de Latn
希腊语 el Grek
古吉拉特语 gu Gujr
希伯来语 iw Hebr
印地语 hi Deva
匈牙利语 hu Latn
冰岛语 is Latn
印度尼西亚语 id Latn
意大利语 it Latn
日语 ja Jpan
卡纳达语 kn Knda
高棉语 km Khmr
韩语 ko Kore
老挝语 lo Laoo
拉脱维亚语 lv Latn
立陶宛语 lt Latn
马其顿语 mk Cyrl
马来语 ms Latn
马拉雅拉姆语 ml Mlym
马拉地语 mr Deva
尼泊尔语 ne Deva
挪威语 no Latn
波斯语 fa Arab
波兰语 pl Latn
葡萄牙语(葡萄牙和巴西) pt Latn
旁遮普语 pa Guru
罗马尼亚语 ro Latn
俄语 ru Cyrl
塞尔维亚语 sr Cyrl
斯洛伐克语 sk Latn
斯洛维尼亚语 sl Latn
西班牙语 es Latn
瑞典语 sv Latn
塔加路文 tl Latn
泰米尔语 ta Taml
泰卢固语 te Telu
泰语 th Thai
土耳其语 tr Latn
乌克兰语 uk Cyrl
越南语 vi Latn
意第绪语 yi Hebr
处理器版本
版本 ID 发布版 检测到其他字段 支持的其他语言 说明
pretrained-ocr-v1.0-2020-09-23 稳定版

不建议使用,自 2025 年 4 月 30 日起将在美国 (US) 和欧盟 (EU) 停用。
pretrained-ocr-v1.1-2022-09-12 稳定版

不建议使用,自 2025 年 4 月 30 日起将在美国 (US) 和欧盟 (EU) 停用。
pretrained-ocr-v1.2-2022-11-10 稳定版

冻结的 v1.0 模型版本:版本快照的模型文件、配置和二进制文件,在容器映像中冻结最多 18 个月。
pretrained-ocr-v2.0-2023-06-02 稳定版

专门针对文档用例的生产就绪型模型。包括对所有光学字符识别 (OCR) 插件的访问权限。
pretrained-ocr-v2.1-2024-08-07 稳定版

v2.1 的主要改进领域包括:改进了印刷文本识别功能、更精确地检测复选框,以及更准确地确定阅读顺序。
pretrained-ocr-v2.1.1-2025-01-31 候选版本

v2.1.1 与 v2.1 类似,在所有地区均可用,但 USEUasia-southeast1 除外。

如需了解详情,请参阅管理处理器版本

配额和限制
最多可请求的页面数(在线/同步请求): 15
最多支持的网页数(批量/离线/异步请求): 500
提升训练效果
人机协同
输入文件示例 在新窗口中打开
输出示例 在新窗口中打开
支持的区域
  • asia-south1
  • asia-southeast1
  • australia-southeast1
  • eu
  • europe-west2
  • europe-west3
  • northamerica-northeast1
  • us
更多信息 Enterprise Document OCR

从文档中提取实体

如需查看用于训练的标记和未标记示例数据集,请参阅示例数据集

自定义提取器

说明

使用生成式 AI 或自定义模型从文档中提取字段;微调模型,以准确从文档中提取数据。

类别 提取
函数 光学字符识别 (OCR)、实体提取
发布阶段 正式版
访问状态 公开
在 API 中输入 CUSTOM_EXTRACTION_PROCESSOR
备注
  • 如果使用生成式 AI 进行提取,则:

    • 仅支持英语。
    • 推出地区详见 USEUnorthamerica-northeast1asia-southeast1

支持的语言
完整语言列表
语言名称 BCP 47 代码 脚本 支持手写
南非荷兰语 af Latn
阿拉伯语 ar Arab
阿塞拜疆语 az Latn
阿塞拜疆语(西里尔字母) az-Cyrl Cyrl
白俄罗斯语 be Cyrl
保加利亚语 bg Cyrl
波斯尼亚语 bs Latn
加泰罗尼亚语 ca Latn
宿务语 ceb Latn
捷克语 cs Latn
威尔士语 cy Latn
丹麦语 da Latn
德语 de Latn
希腊语 el Grek
英语 en Latn
世界语 eo Latn
西班牙语 es Latn
爱沙尼亚语 et Latn
巴斯克语 eu Latn
波斯语 fa Arab
芬兰语 fi Latn
菲律宾语 fil Latn
法语 fr Latn
爱尔兰语 ga Latn
加利西亚语 gl Latn
印地语 hi Deva
克罗地亚语 hr Latn
海地克里奥尔语 ht Latn
匈牙利语 hu Latn
印度尼西亚语 id Latn
冰岛语 is Latn
意大利语 it Latn
希伯来语 iw Hebr
日语 ja Jpan
爪哇语 jv Latn
哈萨克语 kk Cyrl
韩语 ko Kore
吉尔吉斯语 ky Cyrl
拉丁语 la Latn
立陶宛语 lt Latn
拉脱维亚语 lv Latn
马其顿语 mk Cyrl
蒙古语 mn Cyrl
马拉地语 mr Deva
马来语 ms Latn
马耳他语 mt Latn
尼泊尔语 ne Deva
荷兰语 nl Latn
挪威语 no Latn
波兰语 pl Latn
普什图语 ps Arab
葡萄牙语(葡萄牙和巴西) pt Latn
罗马尼亚语 ro Latn
俄语 ru Cyrl
俄语(彼得大帝正字法) ru-PETR1708 Cyrl
梵语 sa Deva
斯洛伐克语 sk Latn
斯洛维尼亚语 sl Latn
阿尔巴尼亚语 sq Latn
塞尔维亚语 sr Cyrl
瑞典语 sv Latn
斯瓦希里语 sw Latn
塔加路文 tl Latn
土耳其语 tr Latn
乌克兰语 uk Cyrl
乌尔都语 ur Arab
乌兹别克语 uz Latn
乌兹别克语(西里尔文) uz-Cyrl Cyrl
越南语 vi Latn
意第绪语 yi Hebr
中文(简体) zh-Hans Hani
中文(繁体) zh-Hant Hani
祖鲁语 zu Latn
处理器版本
版本 ID 发布版 检测到其他字段 支持的其他语言 说明
pretrained-foundation-model-v1.0-2023-08-22 稳定版

专门针对文档使用场景的候选模型,已准备好投入生产环境,由专用视觉模型和基础模型提供支持。
pretrained-foundation-model-v1.1-2024-03-12 候选版本

此候选版本由 Gemini 1.0 Pro LLM 和新开发的技术(包括专用语言和视觉模型)提供支持。此外,还包括复选框检测等高级 OCR 功能。
pretrained-foundation-model-v1.2-2024-05-10 稳定版

采用 Gemini 1.5 Pro LLM 和新开发的技术(包括专用语言和视觉模型)的候选模型,已准备好投入生产。此外,还包括复选框检测等高级 OCR 功能。建议希望使用支持的最大令牌数限制或试用较新模型的用户使用。
pretrained-foundation-model-v1.3-2024-08-31 稳定版

由 Gemini 1.5 Flash LLM 提供支持的候选版本,已准备好投入生产环境。此外,还包括复选框检测等高级 OCR 功能。建议那些希望延迟时间最短的用户使用。

如需了解详情,请参阅管理处理器版本

配额和限制
最多可请求的页面数(在线/同步请求): 15
最多支持的网页数(批量/离线/异步请求): 200
归一化数据类型

如需了解详情,请参阅丰富和标准化以及创建数据集页面。

标准化数据类型的完整列表
  • dateTime as STRING
  • currency as STRING
  • money as google.type.Money
  • number as FLOAT or INTEGER
提升训练效果
人机协同
输入文件示例 在新窗口中打开
输出示例 在新窗口中打开
支持的区域
  • asia-south1
  • asia-southeast1
  • australia-southeast1
  • eu
  • europe-west2
  • europe-west3
  • northamerica-northeast1
  • us
更多信息 自定义提取器

Form Parser

说明

除了 OCR 文本之外,还可以从文档中提取常规键值对(实体和复选框)、表格和通用实体。

此处理器采用先进的机器学习技术,可从 200 多种语言的文档中提取键值对、复选框和表格。此处理器还利用深度学习模型提取各种文档类型中常见的 11 个通用实体。

类别 提取
函数 光学字符识别 (OCR)、表单解析、实体提取
发布阶段 正式版
访问状态 公开
在 API 中输入 FORM_PARSER_PROCESSOR
支持的语言
完整语言列表
语言名称 BCP 47 代码 脚本 支持手写
南非荷兰语 af Latn
阿尔巴尼亚语 sq Latn
阿拉伯语 ar Arab
白俄罗斯语 be Cyrl
加泰罗尼亚语 ca Latn
中文 zh Hani
克罗地亚语 hr Latn
捷克语 cs Latn
丹麦语 da Latn
荷兰语 nl Latn
英语 en Latn
爱沙尼亚语 et Latn
菲律宾语 fil Latn
芬兰语 fi Latn
法语 fr Latn
德语 de Latn
希伯来语 iw Hebr
印地语 hi Deva
匈牙利语 hu Latn
冰岛语 is Latn
印度尼西亚语 id Latn
意大利语 it Latn
日语 ja Jpan
韩语 ko Kore
拉脱维亚语 lv Latn
立陶宛语 lt Latn
马其顿语 mk Cyrl
马来语 ms Latn
马拉地语 mr Deva
尼泊尔语 ne Deva
挪威语 no Latn
波斯语 fa Arab
波兰语 pl Latn
葡萄牙语(葡萄牙和巴西) pt Latn
罗马尼亚语 ro Latn
俄语 ru Cyrl
塞尔维亚语 sr Cyrl
斯洛伐克语 sk Latn
斯洛维尼亚语 sl Latn
西班牙语 es Latn
瑞典语 sv Latn
塔加路文 tl Latn
土耳其语 tr Latn
乌克兰语 uk Cyrl
越南语 vi Latn
意第绪语 yi Hebr
处理器版本
版本 ID 发布版 检测到其他字段 支持的其他语言 说明
pretrained-form-parser-v1.0-2020-09-23 稳定版

旧版。如需获得最佳质量和完整功能集,请使用表单解析器 v2.0。
pretrained-form-parser-v2.0-2022-11-10 稳定版
显示字段
  • email
  • phone
  • url
  • date_time
  • address
  • person
  • organization
  • quantity
  • price
  • id
  • page_number

推荐的版本。支持通用实体,包括升级后的表格、KVP 和复选框模型,以及 200 多种语言。
pretrained-form-parser-v2.1-2023-06-26 候选版本

公开预览版。与 v2.0 相同的模型,支持从数字 PDF 文件中提取原生文本。

如需了解详情,请参阅管理处理器版本

配额和限制
最多可请求的页面数(在线/同步请求): 15
最多支持的网页数(批量/离线/异步请求): 100
提升训练效果
人机协同
输入文件示例 在新窗口中打开
输出示例 在新窗口中打开
支持的区域
  • asia-south1
  • asia-southeast1
  • australia-southeast1
  • eu
  • europe-west2
  • europe-west3
  • northamerica-northeast1
  • us
更多信息 表单解析器

布局解析器

说明

提取文档内容元素(文本、表格和列表),并创建内容感知数据块。

布局解析器会提取文档内容元素(例如文本、表格和列表),并创建内容感知数据块,以便生成式 AI 和发现应用从中检索信息。

类别 提取
函数 布局解析、文档分块
发布阶段 正式版
访问状态 公开
在 API 中输入 LAYOUT_PARSER_PROCESSOR
备注
  • 此解析器支持 PDF、HTML 和 DOCX 文件。
支持的语言
完整语言列表
语言名称 BCP 47 代码 脚本 支持手写
南非荷兰语 af Latn
阿尔巴尼亚语 sq Latn
阿拉伯语 ar Arab
亚美尼亚语 hy Armn
白俄罗斯语 be Cyrl
孟加拉语 bn Beng
孟加拉语 bn Beng
保加利亚语 bg Cyrl
加泰罗尼亚语 ca Latn
中文 zh Hani
克罗地亚语 hr Latn
捷克语 cs Latn
丹麦语 da Latn
荷兰语 nl Latn
英语 en Latn
爱沙尼亚语 et Latn
菲律宾语 fil Latn
芬兰语 fi Latn
法语 fr Latn
德语 de Latn
希腊语 el Grek
古吉拉特语 gu Gujr
希伯来语 iw Hebr
印地语 hi Deva
匈牙利语 hu Latn
冰岛语 is Latn
印度尼西亚语 id Latn
意大利语 it Latn
日语 ja Jpan
卡纳达语 kn Knda
高棉语 km Khmr
韩语 ko Kore
老挝语 lo Laoo
拉脱维亚语 lv Latn
立陶宛语 lt Latn
马其顿语 mk Cyrl
马来语 ms Latn
马拉雅拉姆语 ml Mlym
马拉地语 mr Deva
尼泊尔语 ne Deva
挪威语 no Latn
波斯语 fa Arab
波兰语 pl Latn
葡萄牙语(葡萄牙和巴西) pt Latn
旁遮普语 pa Guru
罗马尼亚语 ro Latn
俄语 ru Cyrl
塞尔维亚语 sr Cyrl
斯洛伐克语 sk Latn
斯洛维尼亚语 sl Latn
西班牙语 es Latn
瑞典语 sv Latn
塔加路文 tl Latn
泰米尔语 ta Taml
泰卢固语 te Telu
泰语 th Thai
土耳其语 tr Latn
乌克兰语 uk Cyrl
越南语 vi Latn
意第绪语 yi Hebr
处理器版本
版本 ID 发布版 检测到其他字段 支持的其他语言 说明
pretrained-layout-parser-v1.0-2024-06-03 稳定版

推荐的版本。

如需了解详情,请参阅管理处理器版本

配额和限制
最多可请求的页面数(在线/同步请求): 15
最多支持的网页数(批量/离线/异步请求): 500
提升训练效果
人机协同
输入文件示例 在新窗口中打开
输出示例 在新窗口中打开
支持的区域
  • eu
  • us
更多信息 布局解析器

探索预训练处理器

银行对账单解析器

说明

从银行对账单中提取名称、账号、交易等数据

类别 预先训练
函数 光学字符识别 (OCR)、实体提取
发布阶段 正式版
访问状态 公开
在 API 中输入 BANK_STATEMENT_PROCESSOR
备注
  • 如果多页输入文件的某个页面属于正确的文档类型且是受支持的版本之一,则处理器会对第一个受支持的文档执行实体提取。如果处理器在输入文件中找不到任何适用的文档,则会返回一条错误消息。
支持的语言
语言名称 BCP 47 代码 脚本 支持手写
英语 en Latn
处理器版本
版本 ID 发布版 检测到其他字段 支持的其他语言 说明
pretrained-bankstatement-v1.0-2021-08-08 稳定版

pretrained-bankstatement-v1.1-2021-08-13 稳定版

pretrained-bankstatement-v2.0-2021-12-10 稳定版

pretrained-bankstatement-v3.0-2022-05-16 稳定版

此版本假定输入文件包含单个银行对账单。与默认版本不同,此版本不会检查输入文件是否包含银行对账单,并且在未找到银行对账单时也不会返回错误。
pretrained-bankstatement-v4.0-2023-07-31 候选版本

pretrained-bankstatement-v5.0-2023-12-06 候选版本

如需了解详情,请参阅管理处理器版本

配额和限制
最多可请求的页面数(在线/同步请求): 15
最多支持的网页数(批量/离线/异步请求): 30
在最早版本中检测到的字段

您还可以在检测到的字段页面中找到此信息。

字段的完整列表
  • account_number
  • account_type
  • bank_address
  • bank_name
  • client_address
  • client_name
  • ending_balance
  • starting_balance
  • statement_date
  • statement_end_date
  • statement_start_date
  • table_item
    • table_item/transaction_deposit
    • table_item/transaction_deposit_date
    • table_item/transaction_deposit_description
    • table_item/transaction_withdrawal
    • table_item/transaction_withdrawal_date
    • table_item/transaction_withdrawal_description
经过丰富的字段

如需了解详情,请参阅丰富和标准化页面。

已扩展字段的完整列表
  • bank_address
  • bank_name
归一化字段

如需了解详情,请参阅丰富和标准化页面。

经过标准化处理的字段的完整列表
  • ending_balance
  • starting_balance
  • statement_date
  • statement_end_date
  • statement_start_date
  • table_item/transaction_deposit
  • table_item/transaction_deposit_date
  • table_item/transaction_withdrawal
  • table_item/transaction_withdrawal_date
提升训练效果
人机协同
标签说明 在新窗口中打开
输入文件示例 在新窗口中打开
输出示例 在新窗口中打开
支持的区域
  • eu
  • us

W2 解析器

说明

从表单 W2 中提取数据,包括员工、雇主和工资等

类别 预先训练
函数 光学字符识别 (OCR)、实体提取
发布阶段 正式版
访问状态 公开
在 API 中输入 FORM_W2_PROCESSOR
备注
  • 如果多页输入文件的某个页面属于正确的文档类型且是受支持的版本之一,则处理器会对第一个受支持的文档执行实体提取。如果处理器在输入文件中找不到任何适用的文档,则会返回一条错误消息。
支持的语言
语言名称 BCP 47 代码 脚本 支持手写
英语 en Latn
支持的表单/版本
  • 2020 年(标准版和自定义版)
  • 2019(标准版和自定义版)
  • 2018(标准版和自定义版)
处理器版本
版本 ID 发布版 检测到其他字段 支持的其他语言 说明
pretrained-w2-v1.0-2020-10-01 稳定版

pretrained-w2-v1.1-2022-01-27 稳定版

pretrained-w2-v1.2-2022-01-28 稳定版
显示字段
  • AllocatedTips
  • ControlNumber
  • DependentCareBenefits
  • EIN
  • EmployeeAddress
  • EmployeeName
  • EmployerNameAndAddress
  • EmployerStateIdNumber_Line1
  • FederalIncomeTaxWithheld
  • FormYear
  • LocalIncomeTax_Line1
  • LocalityName_Line1
  • LocalWagesTipsEtc_Line1
  • MedicareTaxWithheld
  • MedicareWagesAndTips
  • NonqualifiedPlans
  • SocialSecurityTaxWithheld
  • SocialSecurityTips
  • SocialSecurityWages
  • SSN
  • State_Line1
  • StateIncomeTax_Line1
  • StateWagesTipsEtc_Line1
  • WagesTipsOtherCompensation

质量改进和支持新字段;不包括分屏。

pretrained-w2-v2.0-2022-03-30 候选版本
显示字段
  • AllocatedTips
  • ControlNumber
  • DependentCareBenefits
  • EIN
  • EmployeeAddress_AdditionalStreetAddressOrPostalBox
  • EmployeeAddress_City
  • EmployeeAddress_State
  • EmployeeAddress_StreetAddressOrPostalBox
  • EmployeeAddress_Zip
  • EmployeeName_FirstName
  • EmployeeName_LastName
  • EmployeeName_MiddleNameOrInitial
  • EmployerAddress_AdditionalStreetAddressOrPostalBox
  • EmployerAddress_City
  • EmployerAddress_State
  • EmployerAddress_StreetAddressOrPostalBox
  • EmployerAddress_Zip
  • EmployerName
  • EmployerStateIdNumber_Line1
  • FederalIncomeTaxWithheld
  • FormYear
  • LocalIncomeTax_Line1
  • LocalWagesTipsEtc_Line1
  • LocalityName_Line1
  • MedicareTaxWithheld
  • MedicareWagesAndTips
  • NonqualifiedPlans
  • SSN
  • SocialSecurityTaxWithheld
  • SocialSecurityTips
  • SocialSecurityWages
  • StateIncomeTax_Line1
  • StateWagesTipsEtc_Line1
  • State_Line1
  • WagesTipsOtherCompensation
  • a_Code
  • a_Value
  • b_Code
  • b_Value
  • c_Code
  • c_Value
  • d_Code
  • d_Value

改进了质量,并支持框 12 字段和 EmployeeNameEmployeeAddressEmployerNameAndAddress 的精细预测,这些字段均不再是输出的一部分,而是替换为其他字段。

pretrained-w2-v2.1-2022-06-08 稳定版
显示字段
  • AllocatedTips
  • ControlNumber
  • DependentCareBenefits
  • EIN
  • EmployeeAddress_AdditionalStreetAddressOrPostalBox
  • EmployeeAddress_City
  • EmployeeAddress_State
  • EmployeeAddress_StreetAddressOrPostalBox
  • EmployeeAddress_Zip
  • EmployeeName_FirstName
  • EmployeeName_LastName
  • EmployeeName_MiddleNameOrInitial
  • EmployeeName_Suffix
  • EmployerAddress_AdditionalStreetAddressOrPostalBox
  • EmployerAddress_City
  • EmployerAddress_State
  • EmployerAddress_StreetAddressOrPostalBox
  • EmployerAddress_Zip
  • EmployerName
  • EmployerStateIdNumber_Line1
  • FederalIncomeTaxWithheld
  • FormYear
  • LocalIncomeTax_Line1
  • LocalWagesTipsEtc_Line1
  • LocalityName_Line1
  • MedicareTaxWithheld
  • MedicareWagesAndTips
  • NonqualifiedPlans
  • SSN
  • SocialSecurityTaxWithheld
  • SocialSecurityTips
  • SocialSecurityWages
  • StateIncomeTax_Line1
  • StateWagesTipsEtc_Line1
  • State_Line1
  • WagesTipsOtherCompensation
  • a_Code
  • a_Value
  • b_Code
  • b_Value
  • c_Code
  • c_Value
  • d_Code
  • d_Value

与版本 pretrained-w2-v2.0-2022-03-30 类似,但进一步提升了质量,并引入了实体 EmployeeName_Suffix

如需了解详情,请参阅管理处理器版本

配额和限制
最多可请求的页面数(在线/同步请求): 15
最多支持的网页数(批量/离线/异步请求): 15
在最早版本中检测到的字段

您还可以在检测到的字段页面中找到此信息。

字段的完整列表
  • ControlNumber
  • EIN
  • EmployeeAddress
  • EmployeeName
  • EmployerNameAndAddress
  • FederalIncomeTaxWithheld
  • MedicareTaxWithheld
  • MedicareWagesAndTips
  • SSN
  • SocialSecurityTaxWithheld
  • SocialSecurityWages
  • WagesTipsOtherCompensation
经过丰富的字段

如需了解详情,请参阅丰富和标准化页面。

已扩展字段的完整列表
  • EmployerNameAndAddress
  • EIN
提升训练效果
人机协同
输入文件示例 在新窗口中打开
输出示例 在新窗口中打开
支持的区域
  • eu
  • us

美国护照解析器

说明

提取姓名、证件 ID、出生日期等字段。

类别 预先训练
函数 光学字符识别 (OCR)、实体提取
发布阶段 正式版
访问状态 公开
在 API 中输入 US_PASSPORT_PROCESSOR
支持的语言
语言名称 BCP 47 代码 脚本 支持手写
英语 en Latn
处理器版本
版本 ID 发布版 检测到其他字段 支持的其他语言 说明
pretrained-us-passport-v1.0-2021-06-14 稳定版

如需了解详情,请参阅管理处理器版本

配额和限制
最多可请求的页面数(在线/同步请求): 2
最多支持的网页数(批量/离线/异步请求): 2
在最早版本中检测到的字段

您还可以在检测到的字段页面中找到此信息。

字段的完整列表
  • Family Name
  • Given Names
  • Document Id
  • Expiration Date
  • Date Of Birth
  • Issue Date
  • MRZ Code
  • Portrait
归一化字段

如需了解详情,请参阅丰富和标准化页面。

经过标准化处理的字段的完整列表
  • Date Of Birth
  • Expiration Date
  • Issue Date
提升训练效果
人机协同
输入文件示例 在新窗口中打开
输出示例 在新窗口中打开
支持的区域
  • eu
  • us

Utility Parser

说明

从公共事业账单中提取文本和值,例如供应商名称和先前的付款金额。

类别 预先训练
函数 光学字符识别 (OCR)、实体提取
发布阶段 正式版
访问状态 受限 [*]
在 API 中输入 UTILITY_PROCESSOR
支持的语言
语言名称 BCP 47 代码 脚本 支持手写
英语 en Latn
处理器版本
版本 ID 发布版 检测到其他字段 支持的其他语言 说明
pretrained-utility-v1.1-2021-04-09 稳定版

pretrained-utility-v1.2-2022-12-15 候选版本

如需了解详情,请参阅管理处理器版本

配额和限制
最多可请求的页面数(在线/同步请求): 10
最多支持的网页数(批量/离线/异步请求): 200
在最早版本中检测到的字段

您还可以在检测到的字段页面中找到此信息。

字段的完整列表
  • adjusted_amount
  • amount_due
  • balance_transfer_amount
  • carrier
  • currency
  • currency_exchange_rate
  • delivery_date
  • deposit_credited_amount
  • due_date
  • freight_amount
  • invoice_date
  • invoice_id
  • late_fee_amount
  • line_item
    • line_item/amount
    • line_item/description
    • line_item/frequency
    • line_item/product_code
    • line_item/purchase_order
    • line_item/quantity
    • line_item/service_address
    • line_item/service_end_date
    • line_item/service_id_1
    • line_item/service_id_2
    • line_item/service_start_date
    • line_item/supplier_account_number
    • line_item/tax_amount
    • line_item/unit_number
    • line_item/unit_of_measure
    • line_item/unit_price
    • line_item/usage
  • net_amount
  • payment_terms
  • prior_amount_due
  • prior_paid_amount
  • purchase_order
  • receiver_address
  • receiver_email
  • receiver_name
  • receiver_phone
  • receiver_tax_id
  • receiver_website
  • reclaimed_water
  • remit_to_address
  • remit_to_name
  • service
    • service/service_end_date
    • service/service_id
    • service/service_start_date
    • service/unit_of_measure
    • service/usage
  • service_address
  • service_end_date
  • service_id
  • service_start_date
  • ship_from_address
  • ship_from_name
  • ship_to_address
  • ship_to_name
  • supplier_account_number
  • supplier_address
  • supplier_email
  • supplier_iban
  • supplier_name
  • supplier_payment_ref
  • supplier_phone
  • supplier_registration
  • supplier_tax_id
  • supplier_website
  • tampering
  • total_amount
  • total_tax_amount
  • usage
  • vat
    • vat/amount
    • vat/category_code
    • vat/tax_amount
    • vat/tax_rate
归一化字段

如需了解详情,请参阅丰富和标准化页面。

经过标准化处理的字段的完整列表
  • adjusted_amount
  • amount_due
  • balance_transfer_amount
  • currency
  • currency_exchange_rate
  • delivery_date
  • due_date
  • invoice_date
  • late_fee_amount
  • line_item/amount
  • line_item/quantity
  • line_item/tax_amount
  • line_item/unit_price
  • net_amount
  • prior_amount_due
  • prior_paid_amount
  • total_amount
  • total_tax_amount
提升训练效果
人机协同
标签说明 在新窗口中打开
输入文件示例 在新窗口中打开
输出示例 在新窗口中打开
支持的区域
  • eu
  • us

身份证件证明解析器

说明

使用多个信号预测身份证件有效性。

身份证件证明处理器旨在利用四种不同的信号来帮助预测身份证件的有效性。

处理器目前会返回以下信号中的信息:

  • fraud_signals_is_identity_document 检测:预测图片中是否包含已识别的身份证件。
  • fraud_signals_suspicious_words 检测:预测 ID 中是否存在不常见的字词。
  • fraud_signals_image_manipulation 检测:预测图片是否使用图片编辑工具进行过修改或篡改。
  • fraud_signals_online_duplicate 检测:预测图片是否可以在网上找到(仅限美国)。

类别 预先训练
函数 光学字符识别、质量分析
发布阶段 预览
访问状态 公开
在 API 中输入 ID_PROOFING_PROCESSOR
备注
  • 在线重复内容检测功能目前在美国数据中心处理。美国境外不支持此功能的区域级和多区域级支持。
  • 此处理器由算法支持,这些算法的更新频率高于新处理器版本的发布频率。因此,即使使用相同的处理器版本,处理器也可能会随着时间的推移返回不同的输出。例如,在线重复内容检测系统会监控网络上的图片。这样一来,系统行为的变化速度就可能比处理器版本跟踪的速度更快。
  • 请参阅关于 Responsible AI 的说明[†]和人工审核。[‡]
支持的语言
语言名称 BCP 47 代码 脚本 支持手写
英语 en Latn
支持的表单/版本
  • 支持美国护照、卡券和驾照。
处理器版本
版本 ID 发布版 检测到其他字段 支持的其他语言 说明
pretrained-id-proofing-v1.0-2022-10-03 稳定版

pretrained-id-proofing-v1.1-2023-05-18 候选版本
显示字段
  • fraud_signals_photocopy_detection

额外的复印检测信号

pretrained-id-proofing-v1.2-2023-10-04 候选版本
显示字段
  • fraud_signals_photocopy_detection

如需了解详情,请参阅管理处理器版本

配额和限制
最多可请求的页面数(在线/同步请求): 2
最多支持的网页数(批量/离线/异步请求): 2
在最早版本中检测到的字段

您还可以在检测到的字段页面中找到此信息。

字段的完整列表
  • fraud_signals_is_identity_document
  • fraud_signals_suspicious_words
  • evidence_suspicious_word
  • evidence_inconclusive_suspicious_word
  • fraud_signals_image_manipulation
  • fraud_signals_online_duplicate (US only)
  • fraud_signals_photocopy_detection
  • evidence_hostname (US only)
  • evidence_thumbnail_url (US only)
归一化字段

如需了解详情,请参阅丰富和标准化页面。

经过标准化处理的字段的完整列表
  • fraud_signals_image_manipulation
  • fraud_signals_online_duplicate (US only)
  • fraud_signals_is_identity_document
  • fraud_signals_suspicious_words
提升训练效果
人机协同
输入文件示例 在新窗口中打开
输出示例 在新窗口中打开
支持的区域
  • eu
  • us

工资单解析器

说明

从工资单中提取数据,包括姓名、业务和金额等

类别 预先训练
函数 光学字符识别 (OCR)、实体提取
发布阶段 正式版
访问状态 公开
在 API 中输入 PAYSTUB_PROCESSOR
备注
  • 如果多页输入文档包含多个有效的工资条,则处理器只会从第一个有效的工资条中提取实体。如果在输入文件中找不到任何工资条,处理器会返回一条错误消息。
支持的语言
语言名称 BCP 47 代码 脚本 支持手写
英语 en Latn
处理器版本
版本 ID 发布版 检测到其他字段 支持的其他语言 说明
pretrained-paystub-v1.0-2021-03-19 稳定版

pretrained-paystub-v1.1-2021-08-13 稳定版
显示字段
  • net_pay
  • net_pay_ytd
  • employee_account_number

质量改进和新字段支持;
pretrained-paystub-v1.2-2021-12-10 稳定版

pretrained-paystub-v2.0-2022-05-17 候选版本
显示字段
  • deduction_item
  • deduction_item/deduction_type
  • deduction_item/deduction_this_period
  • deduction_item/deduction_ytd
  • direct_deposit_item
  • direct_deposit_item/direct_deposit
  • direct_deposit_item/employee_account_number
  • earning_item
  • earning_item/earning_type
  • earning_item/earning_rate
  • earning_item/earning_hours
  • earning_item/earning_this_period
  • earning_item/earning_ytd
  • page_number
  • tax_item
  • tax_item/tax_type
  • tax_item/tax_this_period
  • tax_item/tax_ytd
  • federal_additional_tax
  • federal_allowance
  • federal_marital_status
  • state_additional_tax
  • state_allowance
  • state_marital_status

此版本假定输入文件包含单个工资条。与默认版本不同,此版本不会检查输入文件是否包含工资条,并且在未找到工资条时也不会返回错误。

质量改进、新字段支持和新架构。奖金、佣金、节假日津贴、加班费、基本工资和休假津贴现在属于 earning_item/earning_this_period,其年初至今版本则属于 earning_item/earning_ytd。直接存款和员工账号现在都嵌套在 direct_deposit_item 下。

异步页面数量上限为 10。

pretrained-paystub-v2.0-2022-07-22 稳定版

质量改进和提升培训效果。

pretrained-paystub-v3.0-2023-12-06 候选版本

如需了解详情,请参阅管理处理器版本

配额和限制
最多可请求的页面数(在线/同步请求): 15
最多支持的网页数(批量/离线/异步请求): 50
在最早版本中检测到的字段

您还可以在检测到的字段页面中找到此信息。

字段的完整列表
  • bonus
  • bonus_ytd
  • commissions
  • commissions_ytd
  • direct_deposit
  • employee_account_number (Added in "pretrained-paystub-v1.1-2021-08-13")
  • employee_address
  • employee_name
  • employer_address
  • employer_name
  • end_date
  • gross_earnings
  • gross_earnings_ytd
  • holiday
  • holiday_ytd
  • net_pay (Added in "pretrained-paystub-v1.1-2021-08-13")
  • net_pay_ytd (Added in "pretrained-paystub-v1.1-2021-08-13")
  • overtime
  • overtime_ytd
  • pay_date
  • regular_pay
  • regular_pay_ytd
  • ssn
  • start_date
  • vacation
  • vacation_ytd
经过丰富的字段

如需了解详情,请参阅丰富和标准化页面。

已扩展字段的完整列表
  • employer_address
  • employer_name
归一化字段

如需了解详情,请参阅丰富和标准化页面。

经过标准化处理的字段的完整列表
  • bonus
  • bonus_ytd
  • commissions
  • commissions_ytd
  • direct_deposit
  • end_date
  • gross_earnings
  • gross_earnings_ytd
  • holiday
  • holiday_ytd
  • net_pay
  • net_pay_ytd
  • overtime
  • overtime_ytd
  • pay_date
  • regular_pay
  • regular_pay_ytd
  • start_date
  • vacation
  • vacation_ytd
提升训练效果
人机协同
标签说明 在新窗口中打开
支持的区域
  • eu
  • us

美国驾照解析器

说明

提取姓名、证件 ID、出生日期等字段。

类别 预先训练
函数 光学字符识别 (OCR)、实体提取
发布阶段 正式版
访问状态 公开
在 API 中输入 US_DRIVER_LICENSE_PROCESSOR
支持的语言
语言名称 BCP 47 代码 脚本 支持手写
英语 en Latn
支持的表单/版本
  • 支持美国 50 个州和华盛顿特区
处理器版本
版本 ID 发布版 检测到其他字段 支持的其他语言 说明
pretrained-us-driver-license-v1.0-2021-06-14 稳定版

如需了解详情,请参阅管理处理器版本

配额和限制
最多可请求的页面数(在线/同步请求): 2
最多支持的网页数(批量/离线/异步请求): 2
在最早版本中检测到的字段

您还可以在检测到的字段页面中找到此信息。

字段的完整列表
  • Family Name
  • Given Names
  • Document Id
  • Expiration Date
  • Date Of Birth
  • Issue Date
  • Address
  • Portrait
归一化字段

如需了解详情,请参阅丰富和标准化页面。

经过标准化处理的字段的完整列表
  • Date Of Birth
  • Expiration Date
  • Issue Date
提升训练效果
人机协同
输入文件示例 在新窗口中打开
输出示例 在新窗口中打开
支持的区域
  • eu
  • us

Expense Parser

说明

从支出凭证中提取文本和值,例如支出日期、供应商名称、总金额和货币。

类别 预先训练
函数 光学字符识别 (OCR)、实体提取
发布阶段 正式版
访问状态 公开
在 API 中输入 EXPENSE_PROCESSOR
支持的语言
完整语言列表
语言名称 BCP 47 代码 脚本 支持手写
德语 de Latn
英语 en Latn
西班牙语 es Latn
法语 fr Latn
日语 ja Jpan
荷兰语 nl Latn
处理器版本
版本 ID 发布版 检测到其他字段 支持的其他语言 说明
pretrained-expense-v1.1-2021-04-09 稳定版

该功能于 2021 年 4 月推出。我们计划很快就将其弃用。
pretrained-expense-v1.2-2022-02-18 稳定版

pretrained-expense-v1.3-2022-07-15 稳定版
显示字段
  • credit_card_last_four_digits
  • line_item/quantity
  • payment_type
  • ja:日语
支持酒店和租车明细。
pretrained-expense-v1.3.2-2024-09-11 候选版本
显示字段
  • credit_card_last_four_digits
  • line_item/quantity
  • payment_type
  • ja:日语
升级到 v1.3,使用增强型底层视觉模型。
pretrained-expense-v1.4-2022-11-18 候选版本
显示字段
  • traveler_name
  • reservation_id
  • line_item/transaction_date
  • ja:日语
  • it:意大利语
  • pt:葡萄牙语(葡萄牙和巴西)
性能改进和对提升训练的支持。页面(在线/同步请求)数量上限已提高到 15 个。
pretrained-expense-v1.4.2-2024-09-12 候选版本
显示字段
  • traveler_name
  • reservation_id
  • line_item/transaction_date
  • ja:日语
  • it:意大利语
  • pt:葡萄牙语(葡萄牙和巴西)
升级到 v1.4,使用增强型底层视觉模型。

如需了解详情,请参阅管理处理器版本

配额和限制
最多可请求的页面数(在线/同步请求): 10
最多支持的网页数(批量/离线/异步请求): 10
在最早版本中检测到的字段

您还可以在检测到的字段页面中找到此信息。

字段的完整列表
  • credit_card_last_four_digits
  • currency
  • end_date
  • net_amount
  • payment_type
  • purchase_time
  • receipt_date
  • start_date
  • supplier_address
  • supplier_city
  • supplier_name
  • tip_amount
  • total_amount
  • total_tax_amount
  • line_item
    • line_item/amount
    • line_item/description
    • line_item/product_code
经过丰富的字段

如需了解详情,请参阅丰富和标准化页面。

已扩展字段的完整列表
  • supplier_address
  • supplier_name
  • supplier_phone
归一化字段

如需了解详情,请参阅丰富和标准化页面。

经过标准化处理的字段的完整列表
  • currency
  • total_amount
  • total_tax_amount
  • net_amount
  • receipt_date
  • purchase_time
  • start_date
  • end_date
  • line_item/amount
  • line_item/payment_date
  • line_item/payment_amount
提升训练效果
人机协同
标签说明 在新窗口中打开
输入文件示例 在新窗口中打开
输出示例 在新窗口中打开
支持的区域
  • asia-southeast1
  • australia-southeast1
  • eu
  • northamerica-northeast1
  • us

账单解析器

说明

从账单中提取文本和值,例如账单编号、供应商名称、账单金额、税费金额、账单日期和截止日期等。

账单解析器会提取抬头和订单项字段,例如账单编号、供应商名称、账单金额、税费金额、账单日期、截止日期和订单项金额。

类别 预先训练
函数 光学字符识别 (OCR)、实体提取
发布阶段 正式版
访问状态 公开
在 API 中输入 INVOICE_PROCESSOR
支持的语言
完整语言列表
语言名称 BCP 47 代码 脚本 支持手写
德语 de Latn
英语 en Latn
西班牙语 es Latn
爱沙尼亚语 et Latn
法语 fr Latn
意大利语 it Latn
拉脱维亚语 lv Latn
立陶宛语 lt Latn
荷兰语 nl Latn
葡萄牙语(葡萄牙和巴西) pt Latn
罗马尼亚语 ro Latn
瑞典语 sv Latn
处理器版本
版本 ID 发布版 检测到其他字段 支持的其他语言 说明
pretrained-invoice-v1.1-2021-04-09 稳定版

pretrained-invoice-v1.2-2022-02-18 稳定版

我们计划很快就将其弃用。
pretrained-invoice-v1.3-2022-07-15 稳定版

  • it:意大利语
  • pt:葡萄牙语(葡萄牙和巴西)
  • ro:罗马尼亚语
  • sv:瑞典语
  • et:爱沙尼亚语
  • lv:拉脱维亚语
  • lt:立陶宛语
可提升训练的处理器版本。页面数量(在线/同步请求)上限已增加到 15 页。
pretrained-invoice-v1.4-2022-10-21 候选版本

可提升训练的处理器版本。页面数量(在线/同步请求)上限已增至 15 页。
pretrained-invoice-v1.5-2023-09-15 候选版本

pretrained-invoice-v2.0-2023-12-06 候选版本

如需了解详情,请参阅管理处理器版本

配额和限制
最多可请求的页面数(在线/同步请求): 15
最多支持的网页数(批量/离线/异步请求): 200
在最早版本中检测到的字段

您还可以在检测到的字段页面中找到此信息。

字段的完整列表
  • amount_paid_since_last_invoice
  • carrier
  • currency
  • currency_exchange_rate
  • delivery_date
  • due_date
  • freight_amount
  • invoice_date
  • invoice_id
  • line_item
    • line_item/amount
    • line_item/description
    • line_item/product_code
    • line_item/purchase_order
    • line_item/quantity
    • line_item/unit
    • line_item/unit_price
  • net_amount
  • payment_terms
  • purchase_order
  • receiver_address
  • receiver_email
  • receiver_name
  • receiver_phone
  • receiver_tax_id
  • receiver_website
  • remit_to_address
  • remit_to_name
  • ship_from_address
  • ship_from_name
  • ship_to_address
  • ship_to_name
  • supplier_address
  • supplier_email
  • supplier_iban
  • supplier_name
  • supplier_payment_ref
  • supplier_phone
  • supplier_registration
  • supplier_tax_id
  • supplier_website
  • total_amount
  • total_tax_amount
  • vat
    • vat/amount
    • vat/category_code
    • vat/tax_amount
    • vat/tax_rate
经过丰富的字段

如需了解详情,请参阅丰富和标准化页面。

已扩展字段的完整列表
  • supplier_address
  • supplier_name
  • supplier_phone
归一化字段

如需了解详情,请参阅丰富和标准化页面。

经过标准化处理的字段的完整列表
  • amount_paid_since_last_invoice
  • currency
  • currency_exchange_rate
  • delivery_date
  • due_date
  • freight_amount
  • invoice_date
  • net_amount
  • total_amount
  • total_tax_amount
  • line_item/amount
  • line_item/quantity
  • line_item/unit_price
  • vat/amount
  • vat/tax_amount
  • vat/tax_rate
提升训练效果
人机协同
标签说明 在新窗口中打开
输入文件示例 在新窗口中打开
输出示例 在新窗口中打开
支持的区域
  • asia-south1
  • asia-southeast1
  • australia-southeast1
  • eu
  • northamerica-northeast1
  • us

对文档进行分类

自定义分类器

说明

训练模型,以便从一组类别中对文档类型进行分类。

类别 分类
函数 光学字符识别、分类
发布阶段 正式版
访问状态 公开
在 API 中输入 CUSTOM_CLASSIFICATION_PROCESSOR
支持的语言
语言名称 BCP 47 代码 脚本 支持手写
英语 en Latn
配额和限制
最多可请求的页面数(在线/同步请求): 15
最多支持的网页数(批量/离线/异步请求): 200
提升训练效果
人机协同
输入文件示例 在新窗口中打开
输出示例 在新窗口中打开
支持的区域
  • asia-south1
  • asia-southeast1
  • australia-southeast1
  • eu
  • europe-west2
  • europe-west3
  • northamerica-northeast1
  • us
更多信息 创建自定义分类处理器

自定义拆分器

说明

训练模型,将包含多个文档的文件拆分为分类的单个文档。

类别 分类
函数 光学字符识别、分类、拆分
发布阶段 正式版
访问状态 公开
在 API 中输入 CUSTOM_SPLITTING_PROCESSOR
备注
  • 只有通过自定义训练选项才能支持国际化。
支持的语言
语言名称 BCP 47 代码 脚本 支持手写
英语 en Latn
配额和限制
最多可请求的页面数(在线/同步请求): 15
最多支持的网页数(批量/离线/异步请求): 1000
提升训练效果
人机协同
输入文件示例 在新窗口中打开
输出示例 在新窗口中打开
支持的区域
  • asia-south1
  • asia-southeast1
  • australia-southeast1
  • eu
  • europe-west2
  • europe-west3
  • northamerica-northeast1
  • us
更多信息 创建自定义拆分器处理器

生成文档摘要

总结器

说明

获取短文档和长文档的摘要和项目符号摘要。

类别 预训练
函数 总结
发布阶段 预览
访问状态 公开
在 API 中输入 SUMMARY_PROCESSOR
支持的语言
语言名称 BCP 47 代码 脚本 支持手写
英语 en Latn
处理器版本
版本 ID 发布版 检测到其他字段 支持的其他语言 说明
pretrained-foundation-model-v1.0-2023-08-22 稳定版

Google 基础模型

如需了解详情,请参阅管理处理器版本

配额和限制
最多可请求的页面数(在线/同步请求): 15
最多支持的网页数(批量/离线/异步请求): 250
提升训练效果
人机协同
输入文件示例 在新窗口中打开
输出示例 在新窗口中打开
支持的区域
  • us
更多信息 自定义总结器

脚注

[*] 此处理器仅向访问权限受限的客户提供。

如需申请 API 访问权限,请填写并提交 Document AI 受限访问客户请求表单。该申请表要求您提供关于您、您的公司以及您的用例的信息。 请注意,您必须提供 Google Cloud 项目 ID 才能访问。如需创建新的 Google Cloud 项目或标识现有项目的 ID,请参阅以下说明

您提交表单后,Document AI 团队将审核您的申请,以确保您符合访问条件。如果获得批准,您会收到一封电子邮件,其中包含有关如何访问和使用此功能的说明。

[†] 身份证件证明功能可从身份证件中提取和评估信息,有助于确定输入图片是否代表真实身份证件。

在 Google Cloud,我们十分重视帮助客户安全地开发和实现 AI 解决方案,身份验证功能就是根据 Google 的 AI 原则开发的。

根据 Google 的 AI 原则和当前的产品设计,我们强烈建议您谨慎使用身份证件验证功能,并仔细评估在以下情况下使用此功能的潜在益处和风险:

  • 在可能影响人权的预测中,无人参与的决策过程。
  • 在敏感领域(包括但不限于就业、公共服务使用权、医疗保健和安全至关重要的情境)。

[‡] 请务必在更广泛的身份检测流程和工作流中使用身份证明。 请务必在工作流中设置人工审核员,以验证预测信号是否准确。身份证明处理器并非要取代工作流程中对身份证件进行人工审核,而是要协助人工审核员验证身份证件。身份证明处理器不应用作自动决策工具来确定身份证件是否有效。借助人工审核,客户可以提高文档处理准确性,并帮助企业使用专用工具启用这些审核来评估预测结果。

请务必查看您要部署此技术的地区的法规,并研究现有的行业指南,以了解政策指南和常见的公平性问题。了解机器学习中的公平性,包括如何消除训练数据集中存在的偏见、评估自定义模型的性能差异,以及在使用自定义模型时要考虑的其他事项。

我们建议客户在实现身份验证时,牢记公平性、可解释性以及隐私和安全方面的最佳实践。如需详细了解如何实现 Responsible AI,请参阅 Google 的 Responsible AI 做法建议

如需详细了解用例和示例应用代码库,请参阅博文使用 Document AI 自动处理身份证件