选择文档处理函数
本文档对 BigQuery ML 中提供的文档处理函数(即 ML.GENERATE_TEXT
和 ML.PROCESS_DOCUMENT
)进行了比较。
当函数具有重叠功能时,您可以参考本文档中的信息来确定要使用哪个函数。
概括来讲,这些函数之间的区别如下:
ML.GENERATE_TEXT
非常适合执行自然语言处理 (NLP) 任务,其中部分内容位于文档中。此函数具有以下优势:- 费用更低
- 支持更多语言
- 吞吐量更高
- 模型调优功能
- 多模态模型的可用性
如需了解最适合此方法的文档处理任务示例,请参阅探索 Gemini API 的文档处理功能。
ML.PROCESS_DOCUMENT
非常适合执行需要文档解析和预定义结构化响应的文档处理任务。
支持的模型
支持的型号如下:
ML.GENERATE_TEXT
:您可以使用 Vertex AI Gemini 模型的一部分来生成文本。如需详细了解支持的模型,请参阅ML.GENERATE_TEXT
语法。ML.PROCESS_DOCUMENT
:您使用 Document AI API 的默认模型。使用 Document AI API 可让您访问许多不同的文档处理器,例如账单解析器、布局解析器和表单解析器。您可以使用这些文档处理器处理具有许多不同结构的 PDF 文件。
支持的任务
支持的任务如下:
ML.GENERATE_TEXT
:您可以执行任何输入为文档的 NLP 任务。例如,如果给定的是某个公司的财务文档,您可以通过提供What is the quarterly revenue for each division?
等提示来检索文档信息。ML.PROCESS_DOCUMENT
:您可以针对不同的文档类型(例如账单、税表和财务报表)执行专门的文档处理。您还可以执行文档分块。如需详细了解如何使用ML.PROCESS_DOCUMENT
函数执行此任务,请参阅在检索增强生成流水线中解析 PDF 文件。
价格
价格如下所示:
ML.GENERATE_TEXT
:如需了解与此函数搭配使用的 Vertex AI 模型的价格,请参阅 Vertex AI 价格。对受支持模型的监督式调优按每节点时美元收费。如需了解详情,请参阅 Vertex AI 自定义训练价格。ML.PROCESS_DOCUMENT
:如需了解与此函数搭配使用的 Cloud AI 服务的价格,请参阅 Document AI API 价格。
监督式调优
监督式调优支持如下:
ML.GENERATE_TEXT
:某些模型支持监督式调优。ML.PROCESS_DOCUMENT
:不支持监督式调优。
每分钟查询次数 (QPM) 限额
QPM 限制如下:
ML.GENERATE_TEXT
:gemini-1.5-pro
模型在默认的us-central1
区域中的 QPM 为 60,gemini-1.5-flash
模型在默认的us-central1
区域中的 QPM 为 200。如需了解详情,请参阅 Vertex AI 上的生成式 AI 配额。ML.PROCESS_DOCUMENT
:每种处理器类型 120 QPM,每个项目的总限制为 600 QPM。如需了解详情,请参阅配额列表。
如需增加配额,请参阅申请更高配额。
词元限制
令牌限制如下:
ML.GENERATE_TEXT
:700 个输入词元和 8196 个输出词元。ML.PROCESS_DOCUMENT
:没有令牌限制。不过,此函数的页面数限制因您使用的处理器而异。如需了解详情,请参阅限制。
支持的语言
支持的语言如下:
ML.GENERATE_TEXT
:支持与 Gemini 相同的语言。ML.PROCESS_DOCUMENT
:支持的语言取决于文档处理器类型;大多数文档处理器仅支持英语。如需了解详情,请参阅处理方列表。
区域可用性
推出区域如下:
ML.GENERATE_TEXT
:适用于所有适用于 Vertex AI 的生成式 AI 区域。ML.PROCESS_DOCUMENT
:适用于所有处理器的EU
和US
多区域。部分处理器也仅在某个特定区域提供。如需了解详情,请参阅区域性和多区域性支持。