选择文档处理函数
本文档对 BigQuery ML 中提供的文档处理函数进行了比较,这些函数分别为 ML.GENERATE_TEXT
和 ML.PROCESS_DOCUMENT
。
在函数功能重叠的情况下,您可以使用本文档中的信息来帮助您确定要使用哪个函数。
概括来说,这些函数之间的区别如下:
ML.GENERATE_TEXT
非常适合执行其中部分内容位于文档中的自然语言处理 (NLP) 任务。此函数具有以下优势:- 费用更低
- 推出更多语言版本
- 吞吐量速度更快
- 模型调优功能
- 提供多模态模型
如需查看此方法最适合处理的文档处理任务示例,请参阅使用 Gemini API 探索文档处理功能。
ML.PROCESS_DOCUMENT
非常适合执行需要文档解析和预定义结构化响应的文档处理任务。
函数比较
您可以使用下表比较 ML.GENERATE_TEXT
和 ML.PROCESS_DOCUMENT
函数:
ML.GENERATE_TEXT |
ML.PROCESS_DOCUMENT |
|
---|---|---|
用途 | 通过向 Gemini 或合作伙伴模型或开放模型传递提示,执行任何与文档相关的 NLP 任务。 例如,如果提供的是某公司的财务文档,您可以通过提供提示(例如 |
使用 Document AI API 对不同类型的文档(例如账单、纳税表单和财务报表)执行专门的文档处理。您还可以执行文档分块。 |
结算 | 会产生 BigQuery ML 数据处理费用。如需了解详情,请参阅 BigQuery ML 价格。 |
会产生 BigQuery ML 数据处理费用。如需了解详情,请参阅 BigQuery ML 价格。
调用 Document AI API 会产生费用。如需了解详情,请参阅 Document AI API 价格。 |
每分钟请求数 (RPM) | 不适用于 Gemini 模型。合作伙伴模型:25 到 60。如需了解详情,请参阅每分钟请求数限制。 | 每种处理器类型 120 RPM,每个项目的总限制为 600 RPM。 如需了解详情,请参阅配额列表。 |
每分钟 token 数 | 范围从 8,192 到超过 100 万,具体取决于所用模型。 | 没有 token 限制。不过,此函数具有不同的页面限制,具体取决于您使用的处理器。如需了解详情,请参阅限制。 |
监督式调优 | 某些模型支持监督式调优。 | 不受支持。 |
支持的语言 | 支持因您选择的 LLM 而异。 | 语言支持取决于文档处理器类型;大多数类型仅支持英语。如需了解详情,请参阅处理器列表。 |
支持的区域 | 在所有适用于 Vertex AI 的生成式 AI 区域均受支持。 | 在所有处理器的 EU 和 US 多区域均受支持。部分处理器还在某些单一区域中提供。如需了解详情,请参阅区域级和多区域级支持。 |